哎哟~404了~休息一下,下面的文章你可能很感兴趣:
由于经常会使用到Flume的一些channel,source,sink,于是为了方便将这些channel,source,sink汇总出来,也共大家访问。Component InterfaceType AliasImplementation Class*.Channelmemory*.channel.MemoryChannel*.Channeljdbc*.channel.jdbc.JdbcChannel*.Channelfile*.channel.file.FileChannel*.Channel–*.channel.PseudoTxnMemoryChannel*.Channel–org.exa w397090770 10年前 (2014-02-19) 18893℃ 0评论13喜欢
Material-UI是实现了Google Material模式的CSS框架,其中包括了一系列的React组建。Material Design是2014年Google I/O发布的 势必将会成为统一 Android Mobile、Android Table、Desktop Chrome 等全平台设计语言规范,对从业人员意义重大。 为了更好地使用这个框架,推荐大家先了解一下React Library,然后再使用Material-UI。如果想及时了解Spark、H w397090770 9年前 (2015-05-02) 11286℃ 1评论14喜欢
在很多场景中我们会使用Shell命令来发送邮件,而且我们还可能在邮件里面添加附件,本文将介绍使用Shell命令发送带附件邮件的几种方式,希望对大家有所帮助。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop使用mail命令mail命令是mailutils(On Debian)或mailx(On RedHat)包中的一部分,我们可以使 w397090770 7年前 (2017-02-23) 15949℃ 0评论12喜欢
2014 Spark亚太峰会12月6日在北京珠三角万豪酒店圆满收官,来自易观国际、Intel 、亚信科技、TalkingData、Spark亚太研究院、百度、京东、携程、IBM、星环科技、南京大学、洞庭国际智能硬件检测基地、 AdMaster、Docker中文社区、安徽象形科技的十八位演讲嘉宾为来自国内近305家企业,800多位一线开发者,带来了最干货的分享及一手的 w397090770 9年前 (2014-12-18) 29248℃ 251评论34喜欢
本 hosts 文件更新时间为 2018年07月22日。原作者为 Google Hosts 组织本页面长期更新最新 Google、谷歌学术、维基百科、ccFox.info、ProjectH、3DM、Battle.NET 、WordPress、Microsoft Live、GitHub、Box.com、SoundCloud、inoreader、Feedly、FlipBoard、Twitter、Facebook、Flickr、imgur、DuckDuckGo、Ixquick、Google Services、Google apis、Android、Youtube、Google Drive、UpLoad、Appspot、 w397090770 6年前 (2018-01-09) 15972℃ 1评论43喜欢
Hadoop在服务层进行了授权(Service Level Authorization)控制,这是一种机制可以保证客户和Hadoop特定的服务进行链接,比如说我们可以控制哪个用户/哪些组可以提交Mapreduce任务。所有的这些配置可以在$HADOOP_CONF_DIR/hadoop-policy.xml中进行配置。它是最基础的访问控制,优先于文件权限和mapred队列权限验证。可以看看下图[caption id="attach w397090770 10年前 (2014-03-20) 8976℃ 0评论8喜欢
在使用 Presto 时,我们经常会听说 Query、Stage、Task 等概念,很多人会搞不清楚这些概念,所以会导致一些误解,本文将简单地介绍一下这些基本的概念是指StatementStatement语句。其实就是指我们输入的SQL语句。Presto支持需要ANSI标准的SQL语句。这种语句由子句(Clause)、表达式(Expression)和断言(Predicate)组成。Presto为什么将语句(S w397090770 2年前 (2021-11-01) 1654℃ 0评论4喜欢
事务日志是理解 Delta Lake 的关键,因为它是贯穿许多最重要功能的通用模块,包括 ACID 事务、可扩展的元数据处理、时间旅行(time travel)等。本文我们将探讨事务日志(Transaction Log)是什么,它在文件级别是如何工作的,以及它如何为多个并发读取和写入问题提供优雅的解决方案。事务日志(Transaction Log)是什么Delta Lake 事务日 w397090770 5年前 (2019-08-22) 1731℃ 0评论6喜欢
为了让大家能够及时了解到《过往记忆》博客的最新更新情况,我于六月初开通了iteblog_hadoop微信公共帐号。大家都知道,微信公共帐号有自动回复的功能,但由于我是初次开通微信公共帐号,对自动回复功能开发完全不了解,于是开始只能纯手工的添加一些关键字;而且博客更新,用户也不能及时了解到。于是我决定利用微信提供 w397090770 10年前 (2014-07-07) 9153℃ 1评论13喜欢
“数据智能” (Data Intelligence) 有一个必须且基础的环节,就是数据仓库的建设,同时,数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务。从智能商业的角度来讲,数据的结果代表了用户的反馈,获取结果的及时性就显得尤为重要,快速的获取数据反馈能够帮助公司更快的做出决策,更好的进行产品迭代,实时数 w397090770 5年前 (2019-02-16) 24089℃ 1评论46喜欢
CSV格式的文件也称为逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号。在本文中的CSV格式的数据就不是简单的逗号分割的),其文件以纯文本形式存储表格数据(数字和文本)。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字 w397090770 9年前 (2015-01-26) 9516℃ 0评论12喜欢
今年是我创建这个微信公众号的第五年,五年来,收获了6.8万粉丝。这个数字,在自媒体圈子,属于十八线小规模的那种,但是在纯技术圈,还是不错的成绩,我很欣慰。我花在这个号上面的时间挺多的。我平时下班比较晚,一般下班到家了,老婆带着孩子已经安睡了,我便轻手轻脚的拿出电脑,带上耳机,开始我一天的知识盘 w397090770 5年前 (2019-08-13) 5572℃ 2评论32喜欢
写在前面的话,学Hive这么久了,发现目前国内还没有一本完整的介绍Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关Hive的资料,如果对Hive的东西感兴趣,请关注本博客。https://www.iteblog.com/archives/tag/hive-technology/ 这些天看到很多人在使用H w397090770 10年前 (2013-12-25) 25078℃ 0评论23喜欢
如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop假设我们有以下表:[code lang="scala"]scala> spark.sql("""CREATE TABLE iteblog_test (name STRING, id int) using orc PARTITIONED BY (id)""").show(100)[/code]我们往里面插入一些数据:[code lang="sql"]scala> spark.sql("insert into table iteblog_test select w397090770 4年前 (2020-08-03) 3043℃ 0评论4喜欢
如果你经常写MapReduce作业,你肯定看到过以下的异常信息:[code lang="bash"]Application application_1409135750325_48141 failed 2 times due to AM Container forappattempt_1409135750325_48141_000002 exited with exitCode: 143 due to: Container[pid=4733,containerID=container_1409135750325_48141_02_000001] is running beyond physical memory limits.Current usage: 2.0 GB of 2 GB physical memory used; 6.0 GB of w397090770 7年前 (2016-12-29) 4027℃ 1评论11喜欢
本文来自 恩爸 的文章,原文地址:https://blog.csdn.net/zzcclp/article/details/80161130前言一个偶然的机会,从某Spark微信群知道了CarbonData,从断断续续地去了解,到测试 1.2 版本,再到实际应用 1.3 版本的流式入库,也一年有余,在这期间,得到了 CarbonData 社区的陈亮,李昆,蔡强等大牛的鼎力支持,自己也从认识CarbonData 到应用 Carbo w397090770 6年前 (2018-05-02) 2691℃ 0评论7喜欢
经常研究社会关系网的同学应该对社会关系网中的分析法比较熟悉,最近在写毕业设计用到了这方面的知识,所以在这做个总结。社会关系网是一门研究社会中社会实体(称为参与者)以及他们之间的活动与关系的学问。这种关系和活动可以用网络或者图来进行表示,其中,每一个顶点用来表示一个参与者,而一条边的链接用 w397090770 11年前 (2013-05-06) 11480℃ 0评论17喜欢
在过去,Spark UI一直是用户应用程序调试的帮手。而在最新版本的Spark 1.4中,我们很高兴地宣布,一个新的因素被注入到Spark UI——数据可视化。在此版本中,可视化带来的提升主要包括三个部分:Spark events时间轴视图Execution DAGSpark Streaming统计数字可视化我们会通过一个系列的两篇博文来介绍上述特性,本次则主要分享前 w397090770 9年前 (2015-07-08) 5798℃ 1评论13喜欢
本文相关测试数据由华为陈亮大神提供,特别感谢。 Apache CarbonData是由华为开发、开源并支持Apache Hadoop的列式存储文件格式,支持索引、压缩以及解编码等,其目的是为了实现同一份数据达到多种需求,而且能够实现更快的交互查询,目前该项目正处于Apache孵化过程中。详细介绍可以参见(《CarbonData:华为开发并支持Hadoop的 w397090770 8年前 (2016-09-11) 8118℃ 1评论7喜欢
ZooKeeper: Distributed Process Coordination于2013年11月出版,全书共238页。 self.location='http://books.iteblog.com/zookeeper'; w397090770 9年前 (2015-08-25) 1425℃ 1评论4喜欢
Apache Pulsar(孵化器项目)是一个企业级的发布订阅(pub-sub)消息系统,最初由Yahoo开发,并于2016年底开源,现在是Apache软件基金会的一个孵化器项目。Pulsar在Yahoo的生产环境运行了三年多,助力Yahoo的主要应用,如Yahoo Mail、Yahoo Finance、Yahoo Sports、Flickr、Gemini广告平台和Yahoo分布式键值存储系统Sherpa。如果想及时了解Spark、Hadoop w397090770 6年前 (2018-01-16) 1971℃ 0评论9喜欢
近日,红杏官方为了方便开发人员,公布了红杏公益版代理,该代理地址和端口为hx.gy:1080,可以在浏览器、IDE里面进行设置,并且访问很多常用的网站。目前支持的域名如下:[code lang="scala"]android.combitbucket.orgbintray.comchromium.orgclojars.orgregistry.cordova.iodartlang.orgdownload.eclipse.orggithub.comgithubusercontent.comgolang.orggoogl w397090770 9年前 (2015-04-15) 17865℃ 0评论22喜欢
在 HDFS 中,DataNode 将数据块存储到本地文件系统目录中,具体的目录可以通过配置 hdfs-site.xml 里面的 dfs.datanode.data.dir 参数。在典型的安装配置中,一般都会配置多个目录,并且把这些目录分别配置到不同的设备上,比如分别配置到不同的HDD(HDD的全称是Hard Disk Drive)和SSD(全称Solid State Drives,就是我们熟悉的固态硬盘)上。当 w397090770 6年前 (2018-03-28) 5122℃ 3评论24喜欢
Presto 在 Facebook 的诞生最开始是为了填补当时 Facebook 内部实时查询和 ETL 处理之间的空白。Presto 的核心目标就是提供交互式查询,也就是我们常说的 Ad-Hoc Query,很多公司都使用它作为 OLAP 计算引擎。但是随着近年来业务场景越来越复杂,除了交互式查询场景,很多公司也需要批处理;但是 Presto 作为一个 MPP 计算引擎,将一个 MPP 体 w397090770 2年前 (2022-06-23) 1379℃ 0评论3喜欢
引言:十年沉淀、全球宽表排名第一、阿里云首发云Cassandra服务ApsaraDB for Cassandra是基于开源Apache Cassandra,融合阿里云数据库DBaaS能力的分布式NoSQL数据库。Cassandra已有10年+的沉淀,基于Amazon DynamoDB的分布式设计和 Google Bigtable 的数据模型。具备诸多优异特性:采用分布式架构、无中心、支持多活、弹性可扩展、高可用、容错、一 w397090770 5年前 (2019-09-05) 2109℃ 0评论4喜欢
想必大家在使用Maven从仓库下载Jar的时候都感觉速度非常慢吧。前几年国内的开源中国还提供了免费的Maven镜像,但是由于运营成本过高,此Maven仓库在运营两年后被迫关闭了。不过高兴的是,阿里云在2016年08月悄悄上线了Maven仓库,点这里:http://maven.aliyun.com。我们可以把下面的配置复制到$MAVEN_HOME/conf/setting.xml里面:如果想及时 w397090770 7年前 (2017-02-16) 18204℃ 1评论6喜欢
有虚函数的类内部有一个称为“虚表”的指针,这个就是用来指向这个类虚函数。也就是用它来确定调用该那个函数。例如:[code lang="CPP"]#include <iostream>using namespace std;class A{public: virtual void fun1(){ cout << "In class A::fun1()!" << endl; } virtual void fun2(){ cout << "In class A::fun2()!" << endl; w397090770 11年前 (2013-04-03) 2400℃ 0评论1喜欢
2021年2月4日,负责维护 Docker 引擎的 Justin Cormack 在 Docker 官方博客宣布把 Docker 发行版(Docker Distribution)捐献给了 CNCF,全文如下:我们很高兴地宣布,Docker 已经把 Docker 发行版(Docker Distribution)捐献给了 CNCF。Docker 致力于开源社区和我们许多项目的开放标准,这一举动将确保 Docker 发行版有一个广泛的团队来维护许多注册中心 w397090770 3年前 (2021-02-06) 220℃ 0评论2喜欢
一个功能健全的kafka集群可以处理相当大的数据量,由于消息系统是很多大型应用的基石,因此broker集群在性能上的缺陷,都会引起整个应用栈的各种问题。Kafka的度量指标主要有以下三类:1.Kafka服务器(Kafka)指标2.生产者指标3.消费者指标另外,由于Kafka的状态靠Zookeeper来维护,对于Zookeeper性能的监控也成为了整个Ka zz~~ 2年前 (2022-05-01) 969℃ 0评论0喜欢
写在前面的话,学Hive这么久了,发现目前国内还没有一本完整的介绍Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关Hive的资料,如果对Hive的东西感兴趣,请关注本博客。/archives/tag/hive的那些事在《Hive内置数据类型》文章中,我们提到了Hive w397090770 10年前 (2014-01-07) 139024℃ 1评论473喜欢