哎哟~404了~休息一下,下面的文章你可能很感兴趣:
版本升级[code lang="bash"]//更新软件源,最后会读取软件包列表sudo apt-get update sudo update-manager -c -d[/code]然后选择 upgrade普通升级[code lang="bash"]sudo apt-get updatesudo apt-get upgrade[/code]升级单一软件[code lang="bash"]sudo apt-get updatesudo apt-get upgrade package_name_your_want_to_upgrade[/code]全部升级[code lang="bash"]//更新所 w397090770 11年前 (2013-07-03) 18673℃ 0评论1喜欢
随着我们使用 Docker 的次数越来越多,我们电脑里面可能已经存在很多 Docker 镜像,大量的镜像会占据大量的存储空间,所有很有必要清理一些不需要的镜像。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop镜像的删除在删除镜像之前,我们可以看下系统里面都有哪些镜像:[code lang="bash"][ite w397090770 4年前 (2020-04-14) 456℃ 0评论1喜欢
《Spark on YARN集群模式作业运行全过程分析》《Spark on YARN客户端模式作业运行全过程分析》《Spark:Yarn-cluster和Yarn-client区别与联系》《Spark和Hadoop作业之间的区别》《Spark Standalone模式作业运行全过程分析》(未发布) 在前篇文章中我介绍了Spark on YARN集群模式(yarn-cluster)作业从提交到运行整个过程的情况(详情见《Spar w397090770 10年前 (2014-11-04) 19457℃ 5评论12喜欢
背景 B站的YARN以社区的2.8.4分支构建,采用CapacityScheduler作为调度器, 期间进行过多次核心功能改造,目前支撑了B站的离线业务、实时业务以及部分AI训练任务。2020年以来,随着B站业务规模的迅速增长,集群总规模达到8k左右,其中单集群规模已经达到4k+ ,日均Application(下文简称App)数量在20w到30w左右。当前最大单集群整体cpu w397090770 2年前 (2022-04-11) 645℃ 0评论1喜欢
2015年中国大数据技术大会已经圆满落幕,本届大会历时三天(2015-12-10~2015-12-12),以更加国际化的视野,从政策法规、技术实践和产业应用等角度深入探讨大数据落地后的挑战,作为大数据产业界、科技界与政府部门密切合作的重要平台,吸引了数千名大数据技术爱好者到场参会。 本届大会邀请了近百余位国内外顶尖的 w397090770 8年前 (2015-12-18) 5441℃ 0评论11喜欢
《Spark RDD API扩展开发(1)》、《Spark RDD API扩展开发(2):自定义RDD》 在本博客的《Spark RDD API扩展开发(1)》文章中我介绍了如何在现有的RDD中添加自定义的函数。本文将介绍如何自定义一个RDD类,假如我们想对没见商品进行打折,我们想用Action操作来实现这个操作,下面我将定义IteblogDiscountRDD类来计算商品的打折,步骤如 w397090770 9年前 (2015-03-31) 11849℃ 0评论8喜欢
在本博客的《Spark读取Hbase中的数据》文章中我谈到了如何用Spark和Hbase整合的过程以及代码的编写测试等。今天我们继续谈谈Spark如何和Flume-ng进行整合,也就是如何将Flune-ng里面的数据发送到Spark,利用Spark进行实时的分析计算。本文将通过Java和Scala版本的程序进行程序的测试。 Spark和Flume-ng的整合属于Spark的Streaming这块。在 w397090770 10年前 (2014-07-08) 23122℃ 4评论17喜欢
Apache Kafka 是一个可扩展,高性能,低延迟的平台,允许我们像消息系统一样读取和写入数据。我们可以很容易地在 Java 中使用 Kafka。Spark Streaming 是 Apache Spark 的一部分,是一个可扩展、高吞吐、容错的实时流处理引擎。虽然是使用 Scala 开发的,但是支持 Java API。Apache Cassandra 是分布式的 NoSQL 数据库。在这篇文章中,我们将 w397090770 5年前 (2019-09-08) 3953℃ 0评论8喜欢
本资料来自 Workday 的软件开发工程师 Jianneng Li 在 Spark Summit North America 2020 的 《On Improving Broadcast Joins in Spark SQL》议题的分享。背景相信使用 Apache Spark 进行数据分析的同学对 Spark 中的 Broadcast Join 比较熟悉,其在 Join 之前会把一端比较小的表广播到参与 Join 的 worker 端,具体如下:如果想及时了解Spark、Hadoop或者HBase相关的文 w397090770 4年前 (2020-07-05) 1824℃ 0评论4喜欢
《Spark meetup(Beijing)资料分享》 《Spark meetup(杭州)PPT资料分享》 《北京第二次Spark meetup会议资料分享》 《北京第三次Spark meetup会议资料分享》 《北京第四次Spark meetup会议资料分享》 《北京第五次Spark meetup会议资料分享》》 《北京第六次Spark meetup会议资料分享》 北京第五次Spark meetup会议 w397090770 9年前 (2015-01-31) 3712℃ 0评论4喜欢
如果你使用Apache Spark解决了中等规模数据的问题,但是在海量数据使用Spark的时候还是会遇到各种问题。High Performance Spark将会向你展示如何使用Spark的高级功能,所以你可以超越新手级别。本书适合软件工程师、数据工程师、开发者以及Spark系统管理员的使用。本书作者Holden Karau, Rachel Warren,由O'Reilly于2016年03月出版,全书175页 w397090770 7年前 (2016-12-04) 4775℃ 0评论6喜欢
这是Spark北京Meetup第四次活动,主要是SparkSQL专题。可以在这里报名,活动免费。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop活动时间 12月13日下午14:00活动地点 地址:淀区中关村软件园二期,西北旺东路10号院东区,亚信大厦 一层会议室 时间:13:20-13:40活动内容: w397090770 9年前 (2014-12-02) 4861℃ 0评论3喜欢
《Apache Spark 2.0重大功能介绍》:/archives/1721 《Apache Spark作为编译器:深入介绍新的Tungsten执行引擎》:/archives/1679 《Spark 2.0技术预览:更容易、更快速、更智能》:/archives/1668 Apache Spark 2.0.0于2016-07-27正式发布。它是2.x版本线上的第一个版本。主要的更新是API可用性,SQL 2003的支持,性能提升,structured streaming w397090770 8年前 (2016-07-27) 7571℃ 4评论7喜欢
上海Spark meetup第七次聚会将于2016年1月23日(周六)在上海市长宁区金钟路968号凌空SOHO 8号楼 进行。此次聚会由Intel联合携程举办。大会主题 1、开场/Opening Keynote: 张翼,携程大数据平台的负责人 个人介绍:本科和研究生都是浙江大学;2015年加入携程,推动携程大数据平台的演进;对大数据底层框架Hadoop,HIVE,Spark w397090770 8年前 (2016-01-28) 2491℃ 0评论6喜欢
消息队列 消息队列技术是分布式应用间交换信息的一种技术。消息队列可驻留在内存或磁盘上, 队列存储消息直到它们被应用程序读走。通过消息队列,应用程序可独立地执行--它们不需要知道彼此的位置、或在继续执行前不需要等待接收程序接收此消息。在分布式计算环境中,为了集成分布式应用,开发者需要对异构网络环 w397090770 9年前 (2015-08-11) 8064℃ 2评论17喜欢
本书于2015年03月出版,全书共104页,这里提供的是本书完整版。 w397090770 9年前 (2015-08-21) 1798℃ 0评论5喜欢
MySQL是一个开放源码的小型关联式数据库管理系统,开发者为瑞典MySQL AB公司。MySQL被广泛地应用在Internet上的中小型网站中。由于其体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,许多中小型网站为了降低网站总体拥有成本而选择了MySQL作为网站数据库。 MySQL是一种跨平台的数据库,在Ubuntu下安装Server的命令 w397090770 11年前 (2013-07-21) 3601℃ 0评论2喜欢
Apache Spark 2.2.0 于今年7月份正式发布,这个版本是 Structured Streaming 的一个重要里程碑,因为其可以正式在生产环境中使用,实验标签(experimental tag)已经被移除; CBO (Cost-Based Optimizer)有了进一步的优化;SQL完全支持 SQL-2003 标准;R 中引入了新的分布式机器学习算法;MLlib 和 GraphX 中添加了新的算法更多详情请参见:Apa w397090770 6年前 (2017-12-13) 2634℃ 0评论19喜欢
我们在 前面的文章文章中介绍了 Docker 默认是从 https://hub.docker.com/仓库下载镜像的,由于这个网址是国外的,所以在下载镜像的时候很可能会非常慢,所以大家应该想到 Docker 是否像 Maven 仓库一样也有一些国内的 Docker 镜像库呢?答案是肯定的。截止到本文撰写的时候,下面几个国内 Docker 镜像地址是可用的:网易 Docker 镜像库:h w397090770 4年前 (2020-02-03) 10488℃ 0评论4喜欢
Google的Chrome浏览器很不错,很多人都希望能在CentOS里面用上chrome,于是用下面的命令来安装Chrome:[code lang="JAVA"]yum install google-chrome-stable[/code]但是一般都会出现以下的情况:[code lang="JAVA"]Error: Package: google-chrome-stable-28.0.1500.95-213514.x86_64 (google64) Requires: libstdc++.so.6(GLIBCXX_3.4.15)(64bit) You could try using --skip-broken to work w397090770 11年前 (2013-10-24) 6748℃ 1评论6喜欢
时隔两年,Apache Hadoop终于又有大改版,Apache基金会近日发布了Hadoop 2.8版,一次新增了2,919项更新功能或新特色。不过,Hadoop官网建议,2.8.0仍有少数功能在测试,要等到释出2.8.1或是2.8.2版才适合用于正式环境。在2.8.0版众多更新,主要分布于4大套件分别是:共用套件(Common)底层分散式档案系统HDFS套件(HDFS)MapReduce运算 w397090770 7年前 (2017-03-31) 2680℃ 2评论17喜欢
这个文档只是简单的介绍如何快速地使用Spark。在下面的介绍中我将介绍如何通过Spark的交互式shell来使用API。Basics Spark shell提供一种简单的方式来学习它的API,同时也提供强大的方式来交互式地分析数据。Spark shell支持Scala和Python。可以通过以下方式进入到Spark shell中。[code lang="JAVA"]# 本文原文地址:https://www.iteblog.com/ar w397090770 10年前 (2014-06-10) 77030℃ 26评论156喜欢
《Learning Spark, 2nd Edition》这本书是由 O'Reilly Media 出版社于2020年7月出版的,作者包括 Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop图书介绍第二版已更新包含了 Spark 3.0 的一些东西,本书向数据工程师和数据科学家展示了 Spark 中结构化和统一 w397090770 4年前 (2020-09-03) 2399℃ 0评论9喜欢
基于Kubefed的多集群管理实践多集群场景主要分以下几个方面:1)高可用低延时:应用部署到不同的集群去做高可用2)容灾备份:特别是针对于数据库这类的应用 在a集群对外提供服务的同时给b集群做一次备份 这样在发生故障的时候 可以无缝的迁移到另一个集群去3)业务隔离:尽管kubernetes提供了ns级别的隔离, zz~~ 3年前 (2021-09-24) 194℃ 0评论0喜欢
animate.css是一系列很酷的、有趣的以及跨浏览器的动画库,你可以在你的项目在红引入这个动画库。使用animate.css方式也非常简单,我们只需要在页面上引入animate.css文件,如下:[code lang="css"]<head> <link rel="stylesheet" href="animate.min.css"></head>[/code] 然后在你想动的元素上加上animated class。你 w397090770 9年前 (2015-08-28) 3203℃ 0评论3喜欢
Kafka的基本介绍Kafka最初由Linkedin公司开发,是一个分布式、分区、多副本、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常用于web/nginx日志、访问日志,消息服务等等场景。Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。主要应用场景是:日志收集系统和消息系统。Kafka主要设计目标如下: w397090770 7年前 (2017-08-03) 5318℃ 0评论14喜欢
Thrift 最初由Facebook开发,目前已经开源到Apache,已广泛应用于业界。Thrift 正如其官方主页介绍的,“是一种可扩展、跨语言的服务开发框架”。简而言之,它主要用于各个服务之间的RPC通信,其服务端和客户端可以用不同的语言来开发。只需要依照IDL(Interface Description Language)定义一次接口,Thrift工具就能自动生成 C++, Java, Python, PH w397090770 8年前 (2016-06-30) 3561℃ 0评论7喜欢
我们在《Apache Cassandra 简介》文章中介绍了 Cassandra 的数据模型类似于 Google 的 Bigtable,对应的开源实现为 Apache HBase,而且我们在 《HBase基本知识介绍及典型案例分析》 文章中简单介绍了 Apache HBase 的数据模型。按照这个思路,Apache Cassandra 的数据模型应该和 Apache HBase 的数据模型很类似,那么这两者的数据存储模型是不是一样的呢? w397090770 5年前 (2019-04-28) 1722℃ 0评论4喜欢
Apache Kafka近年来迅速地成为开源社区流行的流输入平台。同时我们也看到了Spark Streaming的使用趋势和它类似。因此,在Spark 1.3中,社区对Kafka和Spark Streaming的整合做了很多重要的提升。主要修改如下: 1、为Kafka新增了新的Direct API。这个API可以使得每个Kafka记录仅且被处理一次(processed exactly once),即使读取过程中出现了失 w397090770 9年前 (2015-04-10) 16749℃ 0评论24喜欢
一般情况下,编写一个类,是可以在栈或者堆分配空间。但有些时候,你想编写一个只能在栈或者只能在堆上面分配空间的类。这能不能实现呢?肯定是可以的。 只能在堆上分配空间:我们可将类的析构函数用private来修饰,也就是把析构函数私有化,因为自动变量与静态变量的对象都在释放空间的时候都需要访问析构函数。若 w397090770 11年前 (2013-04-05) 4762℃ 0评论1喜欢