哎哟~404了~休息一下,下面的文章你可能很感兴趣:
Apache Pulsar(孵化器项目)是一个企业级的发布订阅(pub-sub)消息系统,最初由Yahoo开发,并于2016年底开源,现在是Apache软件基金会的一个孵化器项目。Pulsar在Yahoo的生产环境运行了三年多,助力Yahoo的主要应用,如Yahoo Mail、Yahoo Finance、Yahoo Sports、Flickr、Gemini广告平台和Yahoo分布式键值存储系统Sherpa。如果想及时了解Spark、Hadoop w397090770 6年前 (2018-01-16) 1971℃ 0评论9喜欢
前段时间,公司Hadoop集群整体的负载很高,查了一下原因,发现原来是客户端那边在每一个作业上擅自配置了很大的堆空间,从而导致集群负载很高。下面我就来讲讲怎么来现在客户端那边的JVM堆大小的设置。 我们知道,在mapred-site.xml配置文件里面有个mapred.child.java.opts配置,专门来配置一些诸如堆、垃圾回收之类的。看 w397090770 10年前 (2014-03-18) 19010℃ 0评论10喜欢
Apache软件基金会在2017年01月10正式宣布Apache Beam从孵化项目毕业,成为Apache的顶级项目。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop Apache Beam(原名Google DataFlow)是Google在2016年2月份贡献给Apache基金会的Apache孵化项目,被认为是继MapReduce,GFS和BigQuery等之后,Google在大数据处理领 w397090770 7年前 (2017-01-12) 3142℃ 0评论7喜欢
Spark SQL也公布了很久,今天写了个程序来看下Spark SQL、Spark Hive以及直接用Hive执行的效率进行了对比。以上测试都是跑在YARN上。 首先我们来看看我的环境: 3台DataNode,2台NameNode,每台机器20G内存,24核 数据都是lzo格式的,共336个文件,338.6 G 无其他任务执行如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关 w397090770 10年前 (2014-08-13) 49798℃ 9评论51喜欢
《Spark 2.0技术预览:更容易、更快速、更智能》文章中简单地介绍了Spark 2.0带来的新技术等。Spark 2.0是Apache Spark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大的变化,为该框架明年的发展奠定了方向,所以了解Spark 2.0的一些特性对我们能够使用它有着非常重要的作用。本博客将对Spark 2.0进行一序列的介 w397090770 8年前 (2016-07-14) 7543℃ 2评论4喜欢
Akka学习笔记系列文章:《Akka学习笔记:ACTORS介绍》《Akka学习笔记:Actor消息传递(1)》《Akka学习笔记:Actor消息传递(2)》 《Akka学习笔记:日志》《Akka学习笔记:测试Actors》《Akka学习笔记:Actor消息处理-请求和响应(1) 》《Akka学习笔记:Actor消息处理-请求和响应(2) 》《Akka学习笔记:ActorSystem(配置)》《Akka学习笔记 w397090770 10年前 (2014-10-22) 19099℃ 3评论14喜欢
本博客分享的其他视频下载地址:《传智播客Hadoop实战视频下载地址[共14集]》、《传智播客Hadoop课程视频资料[共七天]》、《Hadoop入门视频分享[共44集]》、《Hadoop大数据零基础实战培训教程下载》、《Hadoop2.x 深入浅出企业级应用实战视频下载》、《Hadoop新手入门视频百度网盘下载[全十集]》 本博客收集到的Hadoop学习书 w397090770 10年前 (2014-07-15) 92335℃ 0评论162喜欢
先说明一下,这里说的Hive on Spark是Hive跑在Spark上,用的是Spark执行引擎,而不是MapReduce,和Hive on Tez的道理一样。 从Hive 1.1版本开始,Hive on Spark已经成为Hive代码的一部分了,并且在spark分支上面,可以看这里https://github.com/apache/hive/tree/spark,并会定期的移到master分支上面去。关于Hive on Spark的讨论和进度,可以看这里https:// w397090770 9年前 (2015-08-31) 41647℃ 30评论43喜欢
bsie是使得IE6可以支持Bootstrap的补丁,Bootstrap是 twitter.com 推出的非常棒web UI工具库。目前,bsie使得IE6能支持bootstrap大部分特性,可惜,还有一些实在无法支持...下面的这个表格就是当前已经被支持的bootstrap的组件和特性:[code lang="bash"]组件 特性-----------------------------------------------------------grid fixed, fluidnavbar w397090770 8年前 (2015-12-26) 2287℃ 7评论2喜欢
Apache Zeppelin使用入门指南:安装Apache Zeppelin使用入门指南:编程Apache Zeppelin使用入门指南:添加外部依赖使用Apache Zeppelin 编译和启动完Zeppelin相关的进程之后,我们就可以来使用Zeppelin了。我们进入到https://www.iteblog.com:8080页面,我们可以在页面上直接操作Zeppelin,依次选择Notebook->Create new note,然后会弹出一个对话框 w397090770 8年前 (2016-02-03) 25177℃ 2评论31喜欢
《Spark 2.0技术预览:更容易、更快速、更智能》文章中简单地介绍了Spark 2.0带来的新技术等。Spark 2.0是Apache Spark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大的变化,为该框架明年的发展奠定了方向,所以了解Spark 2.0的一些特性对我们能够使用它有着非常重要的作用。本博客将对Spark 2.0进行一序列 w397090770 8年前 (2016-05-23) 22104℃ 0评论27喜欢
Suffusion 是一款功能十分强大的免费WordPress主题,可以对样式模板、整体框架、内容调用进行自定义设置。本文主要来分享一下如何给文章添加统计次数。 安装WP-PostViews插件,这个是用来统计文章浏览次数的。 依次选择 外观-->编辑-->post-header.php 在里面找到[code lang="CPP"]<span class="comments">[/code] 可以 w397090770 11年前 (2013-04-20) 3462℃ 0评论4喜欢
Pandas 用户定义函数(UDF)是 Apache Spark 中用于数据科学的最重要的增强之一,它们带来了许多好处,比如使用户能够使用 Pandas API和提高性能。 但是,随着时间的推移,Pandas UDFs 已经有了一些新的发展,这导致了一些不一致性,并在用户之间造成了混乱。即将推出的 Apache Spark 3.0 完整版将为 Pandas UDF 引入一个新接口,该接口利用 w397090770 4年前 (2020-05-30) 842℃ 0评论1喜欢
背景我们基于 Apache Hadoop® 的数据平台以最小的延迟支持了数百 PB 的分析数据,并将其存储在基于 HDFS 之上的数据湖中。我们使用 Apache Hudi™ 作为我们表的维护格式,使用 Apache Parquet™ 作为底层文件格式。我们的数据平台利用 Apache Hive™、Apache Presto™ 和 Apache Spark™ 进行交互和长时间运行的查询,满足 Uber 不同团队的各种需求。 w397090770 2年前 (2022-03-13) 1883℃ 0评论0喜欢
Spark 1.1.0中兼容大部分Hive特性,我们可以在Spark中使用Hive。但是默认的Spark发行版本并没有将Hive相关的依赖打包进spark-assembly-1.1.0-hadoop2.2.0.jar文件中,官方对此的说明是:Spark SQL also supports reading and writing data stored in Apache Hive. However, since Hive has a large number of dependencies, it is not included in the default Spark assembly 所以,如果你直 w397090770 10年前 (2014-09-26) 12672℃ 5评论9喜欢
为期三天的 Spark Summit 在美国时间 2018-06-04 ~ 06-06 于旧金山的 Moscone Center 举行,不少人已经注意到,今年的会议已经更名为 Spark+AI, 去年 12 月份时,Databricks 在他们的博客中就已经提到过,2018 年的会议将包括更多人工智能的内容,某种意义上也代表着 Spark 未来的发展方向。作为大数据领域的顶级会议,Spark Summit 2018 吸引了全球近 200 w397090770 6年前 (2018-06-18) 3559℃ 0评论14喜欢
Web服务是一种新兴的应用模式,它很好地解决了互联网中跨平台软件的连接问题。Web服务是用来支持互联网中不同计算机之间操作性的软件系统,它定义了一种机器可读的接口(比如WSDL文档),其他软件系统可以通过SOAP消息和Web服务进行交互,交互通常用HTTP协议,而这些消息格式通常是基于XML的。和传统的应用程序不同的地 w397090770 11年前 (2013-06-20) 3941℃ 3评论3喜欢
Apache Flume 1.5.0 发布于5月22日正式发布(可以在http://flume.apache.org/download.html下载)。Flume是一个分布式、可靠和高可用的服务,用于收集、聚合以及移动大量日志数据,使用一个简单灵活的架构,就流数据模型。这是一个可靠、容错的服务。下面是Apache Flume-ng 1.5.0的Changelog:What's new in Apache Flume 1.5.0:May 22nd, 2014New Feature: Int w397090770 10年前 (2014-05-27) 6956℃ 1评论4喜欢
版本升级[code lang="bash"]//更新软件源,最后会读取软件包列表sudo apt-get update sudo update-manager -c -d[/code]然后选择 upgrade普通升级[code lang="bash"]sudo apt-get updatesudo apt-get upgrade[/code]升级单一软件[code lang="bash"]sudo apt-get updatesudo apt-get upgrade package_name_your_want_to_upgrade[/code]全部升级[code lang="bash"]//更新所 w397090770 11年前 (2013-07-03) 18673℃ 0评论1喜欢
Carlos E. Perez对深度学习的2017年十大预测,让我们不妨看一看。有兴趣的话,可以在一年之后回顾这篇文章,看看这十大预测有多少准确命中硬件将加速一倍摩尔定律(即2017年2倍) 如果你跟踪Nvidia和Intel的发展,这当然是显而易见的。Nvidia将在整个2017年占据主导地位,只因为他们拥有最丰富的深度学习生态系统。没有头 w397090770 7年前 (2016-12-13) 2145℃ 0评论3喜欢
最近,本博客由于流量增加,网站响应速度变慢,于是将全站页面全部静态化了;其中采取的方式主要是(1)、把所有https://www.iteblog.com/archives/\d{1,}全部跳转成https://www.iteblog.com/archives/\d{1,}.html,比如之前访问https://www.iteblog.com/archives/1983链接会自动跳转到https://www.iteblog.com/archives/1983.html;(2)、所有https://www.iteblog.com/page页 w397090770 7年前 (2017-02-22) 3525℃ 2评论9喜欢
本书是2013年09月出版,全书共298页,这里提供的本书完整英文版电子书。 w397090770 9年前 (2015-08-16) 2566℃ 0评论7喜欢
我们在使用Hive查询数据的时候经常会看到如下的输出:[code lang="java"]Query ID = iteblog_20160704104520_988f81d4-0b82-4778-af98-43cc1950d357Total jobs = 1Launching Job 1 out of 1Number of reduce tasks determined at compile time: 1In order to change the average load for a reducer (in bytes): set hive.exec.reducers.bytes.per.reducer=<number>In order to limit the maximum number of reducers: w397090770 8年前 (2016-06-28) 14889℃ 1评论39喜欢
导读:京东OLAP采取ClickHouse为主Doris为辅的策略,有3000台服务器,每天亿次查询万亿条数据写入,广泛服务于各个应用场景,经过历次大促考验,提供了稳定的服务。本文介绍了ClickHouse在京东的高可用实践,包括选型过程、集群部署、高可用架构、问题和规划。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公共帐 w397090770 3年前 (2021-09-03) 612℃ 0评论0喜欢
本文将介绍如何通过简单地几步来开始编写你的 Flink Scala 程序。构建工具 Flink工程可以使用不同的工具进行构建,为了快速构建Flink工程, Flink为下面的构建工具分别提供了模板: 1、SBT 2、Maven这些模板可以帮助我们组织项目结构并初始化一些构建文件。SBT创建工程1、使用Giter8可以使用下 w397090770 8年前 (2016-04-07) 10087℃ 0评论8喜欢
在设计网站的时候,如果你某个页面的内容没有满屏,那你的footer会离浏览器底部很远,整体看起来很难看,这里用JavaScript提供一种方法来将footer固定在浏览器底部。[code lang="javascript"]function fixFooter(){ var mainHeight = document.getElementById('main').offsetHeight; var height = document.documentElement.clientHeight - document.g w397090770 9年前 (2014-11-22) 7446℃ 0评论4喜欢
Spark 1.2.0于美国时间2014年12月18日发布,Spark 1.2.0兼容Spark 1.0.0和1.1.0,也就是说不需要修改代码即可用,很多默认的配置在Spark 1.2发生了变化 1、spark.shuffle.blockTransferService由nio改成netty 2、spark.shuffle.manager由hash改成sort 3、在PySpark中,默认的batch size改成0了, 4、Spark SQL方面做的修改: spark.sql.parquet.c w397090770 9年前 (2014-12-19) 4563℃ 1评论2喜欢
今天,Apache Beam 0.5.0 发布了,此版本通过新的State API添加对状态管道的支持,并通过新的Timer API添加对计时器的支持。 此外,该版本还为Elasticsearch和MQ Telemetry Transport(MQTT)添加了新的IO连接器,以及常见的一些错误修复和改进。对于此版本中的所有主要更改,请参阅release notes。如果想及时了解Spark、Hadoop或者Hbase相关的文 w397090770 7年前 (2017-02-10) 932℃ 0评论2喜欢
如何下载整个网站用来离线浏览?怎样将一个网站上的所有 MP3 文件保存到本地的一个目录中?怎么才能将需要登陆的网页后面的文件下载下来?怎样构建一个迷你版的Google?wget 是一个自由的工具,可在包括 Mac,Window 和 Linux 在内的多个平台上使用,它可帮助你实现所有上述任务,而且还有更多的功能。与大多数下载管理器不同 w397090770 8年前 (2016-02-19) 1594℃ 0评论1喜欢
在过去Spark社区创建了Spark 2.0的技术预览版,经过几天的投票,目前该技术预览版今天正式公布。《Spark 2.0技术预览:更容易、更快速、更智能》文章中详细介绍了Spark 2.0给我们带来的新功能,总体上Spark 2.0提升了下面三点: 1. 对标准的SQL支持,统一DataFrame和Dataset API。现在已经可以运行TPC-DS所有的99个查询,这99个查 w397090770 8年前 (2016-05-25) 2559℃ 0评论3喜欢