哎哟~404了~休息一下,下面的文章你可能很感兴趣:
本书于2015年03月出版,全书共19页,这里是完整版。 w397090770 9年前 (2015-08-21) 1819℃ 0评论3喜欢
本文资料来自2020年9月23日举办的 Apache Spark Bogotá 题为《Apache Spark 3.0: Overview of What’s New and Why Care》 的分享。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoopApache Spark 3.0 继续坚持更快、更简单、更智能的目标,这个版本解决了3000多个 JIRAs。在这次演讲中,主要和 Bogota Spark 社区分享 Spark 3.0 的 w397090770 3年前 (2020-10-24) 763℃ 0评论3喜欢
这几天由于项目的需要,需要将Flume收集到的日志插入到Hbase中,有人说,这不很简单么?Flume里面自带了Hbase sink,可以直接调用啊,还用说么?是的,我在本博客的《Flume-1.4.0和Hbase-0.96.0整合》文章中就提到如何用Flume和Hbase整合,从文章中就看出整个过程不太复杂,直接做相应的配置就行了。那么为什么今天还要特意提一下Flum w397090770 10年前 (2014-01-27) 5122℃ 1评论1喜欢
《Apache Kafka监控之Kafka Web Console》《Apache Kafka监控之KafkaOffsetMonitor》《雅虎开源的Kafka集群管理器(Kafka Manager)》Kafka在雅虎内部被很多团队使用,媒体团队用它做实时分析流水线,可以处理高达20Gbps(压缩数据)的峰值带宽。为了简化开发者和服务工程师维护Kafka集群的工作,构建了一个叫做Kafka管理器的基于Web工具,叫做 Kafka M w397090770 9年前 (2015-02-04) 22063℃ 0评论14喜欢
为帮助开发者更深入的了解这三个大数据开源技术及其实际应用场景,9月8日,InfoQ联合华为云举办了一场实时大数据Meetup,集结了来自Databricks、华为及美团点评的大咖级嘉宾前来分享。作为Spark Structured Streaming最核心的开发人员、Databricks工程师,Tathagata Das(以下简称“TD”)在开场演讲中介绍了Structured Streaming的基本概念 w397090770 6年前 (2018-09-21) 4780℃ 0评论10喜欢
本 hosts 文件更新时间为 2018年07月22日。原作者为 Google Hosts 组织本页面长期更新最新 Google、谷歌学术、维基百科、ccFox.info、ProjectH、3DM、Battle.NET 、WordPress、Microsoft Live、GitHub、Box.com、SoundCloud、inoreader、Feedly、FlipBoard、Twitter、Facebook、Flickr、imgur、DuckDuckGo、Ixquick、Google Services、Google apis、Android、Youtube、Google Drive、UpLoad、Appspot、 w397090770 6年前 (2018-01-09) 15972℃ 1评论43喜欢
auto_ptr是这样一种指针:它是“它所指向的对象”的拥有者。这种拥有具有唯一性,即一个对象只能有一个拥有者,严禁一物二主。当auto_ptr指针被摧毁时,它所指向的对象也将被隐式销毁,即使程序中有异常发生,auto_ptr所指向的对象也将被销毁。设计动机在函数中通常要获得一些资源,执行完动作后,然后释放所获得的资源 w397090770 11年前 (2013-03-30) 2691℃ 0评论2喜欢
Apache Hive 从 HIVE-1555 开始引入了 JdbcStorageHandler ,这个使得 Hive 能够读取 JDBC 数据源,关于 Apache Hive 引入 JdbcStorageHandler 的背景可以参见 《Apache Hive 联邦查询(Query Federation)》。本文主要简单介绍 JdbcStorageHandler 的使用。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop语法JdbcStorageHandler 使 w397090770 5年前 (2019-04-01) 3228℃ 0评论7喜欢
ZooKeeper使用ACL来控制访问其znode(ZooKeeper的数据树的数据节点)。ACL的实现方式非常类似于UNIX文件的访问权限:它采用访问权限位 允许/禁止 对节点的各种操作以及能进行操作的范围。不同于UNIX权限的是,ZooKeeper的节点不局限于 用户(文件的拥有者),组和其他人(其它)这三个标准范围。ZooKeeper不具有znode的拥有者的概念。 w397090770 8年前 (2015-12-02) 7201℃ 1评论4喜欢
io.file.buffer.size hadoop访问文件的IO操作都需要通过代码库。因此,在很多情况下,io.file.buffer.size都被用来设置缓存的大小。不论是对硬盘或者是网络操作来讲,较大的缓存都可以提供更高的数据传输,但这也就意味着更大的内存消耗和延迟。这个参数要设置为系统页面大小的倍数,以byte为单位,默认值是4KB,一般情况下,可以 w397090770 10年前 (2014-04-01) 30099℃ 2评论14喜欢
关系运算1、等值比较: =语法:A=B操作类型:所有基本类型描述: 如果表达式A与表达式B相等,则为TRUE;否则为FALSE[code lang="sql"]hive> select 1 from iteblog where 1=1;1[/code]2、不等值比较: 语法: A B操作类型: 所有基本类型描述: 如果表达式A为NULL,或者表达式B为NULL,返回NULL;如果表达式A与表达式B不相等,则为TRUE;否则为 zz~~ 7年前 (2017-09-14) 92340℃ 3评论179喜欢
Akka学习笔记系列文章:《Akka学习笔记:ACTORS介绍》《Akka学习笔记:Actor消息传递(1)》《Akka学习笔记:Actor消息传递(2)》 《Akka学习笔记:日志》《Akka学习笔记:测试Actors》《Akka学习笔记:Actor消息处理-请求和响应(1) 》《Akka学习笔记:Actor消息处理-请求和响应(2) 》《Akka学习笔记:ActorSystem(配置)》《Akka学习笔记 w397090770 10年前 (2014-10-13) 21895℃ 5评论40喜欢
斐波那契数列又译费波拿契数、斐波那契数列、费氏数列、黄金分割数列。根据高德纳(Donald Ervin Knuth)的《计算机程序设计艺术》(The Art of Computer Programming),1150年印度数学家Gopala和金月在研究箱子包装物件长阔刚好为 1 和 2 的可行方法数目时,首先描述这个数列。 在西方,最先研究这个数列的人是比萨的列奥那多(又名费波 w397090770 11年前 (2013-04-16) 5759℃ 0评论5喜欢
《Kafka剖析:Kafka背景及架构介绍》《Kafka设计解析:Kafka High Availability(上)》《Kafka设计解析:Kafka High Availability (下)》《Kafka设计解析:Replication工具》《Kafka设计解析:Kafka Consumer解析》 Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源 w397090770 9年前 (2015-04-08) 7712℃ 2评论16喜欢
我们在《通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]》文中介绍了一种快速将海量数据导入Hbase的一种方法,而本文将介绍如何在Spark上使用Scala编写快速导入数据到Hbase中的方法。这里将介绍两种方式:第一种使用Put普通的方法来倒数;第二种使用Bulk Load API。关于为啥需要使用Bulk Load本文就不介绍,更多的请参见《通过BulkLoad快 w397090770 7年前 (2017-02-28) 14974℃ 1评论40喜欢
随着网站的文章越来越多,网站的图片也不知不觉的多了起来,图片多起来带来的问题就是访问的人多的时候会导致页面加载速度越来越慢,这严重影响了网站的用户体验,所以网站图片异步加载势在必行。 图片异步加载就是图片只有在视野范围内才加载,没出现在范围内的图片就暂不加载,等用户滑动滚动条时再逐步 w397090770 8年前 (2016-07-08) 3324℃ 0评论7喜欢
下面IP由于地区不同可能无法访问,请多试几个。国内高匿代理 IP PORT 匿名度 类型 位置 响应速度 最后验证时间 125.117.130.174 9000 高匿名 HTTP w397090770 9年前 (2015-05-13) 46322℃ 0评论0喜欢
Apache HBase 1.3.0于美国时间2017年01月17日正式发布。本版本是Hbase 1.x版本线的第三次小版本,大约解决了1700个issues,主要包括了大量的Bug修复和性能提升;其中以下的新特性值得关注:Date-based tiered compactions (HBASE-15181, HBASE-15339)Maven archetypes for HBase client applications (HBASE-14877)Throughput controller for flushes (HBASE-14969)Controlled delay (CoD w397090770 7年前 (2017-01-18) 3364℃ 0评论3喜欢
2017 年初,我们开始探索 Presto 来解决 OLAP 用例,我们意识到了这个惊人的查询引擎的潜力。与 Apache Hive 相比,它最初是一种临时查询工具,供数据工程师和分析师以更快的方式运行 SQL 来构建查询原型。 当时很多内部仪表板都由 AWS-Redshift 提供支持,并将数据存储和计算耦合在一起。我们的数据呈指数级增长(每隔几天翻一番), w397090770 2年前 (2022-03-18) 291℃ 0评论0喜欢
AWS 于近期发布了自家版本的开源 ElasticSearch :Open Distro for Elasticsearch。我们都知道,Elasticsearch 是一个分布式面向文档的搜索和分析引擎。 它支持结构化和非结构化查询,并且不需要提前定义模式。 Elasticsearch 可用作搜索引擎,通常用于 Web 级日志分析,实时应用程序监控和点击流分析,在国内外有很多用户使用。AWS 通过 AWS Elasticse w397090770 5年前 (2019-03-13) 3955℃ 0评论8喜欢
今天早上 06:53(2019年11月08日 06:53) 数砖的 Xingbo Jiang 大佬给社区发了一封邮件,宣布 Apache Spark 3.0 预览版正式发布,这个版本主要是为了对即将发布的 Apache Spark 3.0 版本进行大规模社区测试。无论是从 API 还是从功能上来说,这个预览版都不是一个稳定的版本,它的主要目的是为了让社区提前尝试 Apache Spark 3.0 的新特性。如果大家想 w397090770 4年前 (2019-11-08) 2045℃ 0评论6喜欢
静态分区裁剪(Static Partition Pruning)用过 Spark 的同学都知道,Spark SQL 在查询的时候支持分区裁剪,比如我们如果有以下的查询:[code lang="sql"]SELECT * FROM Sales_iteblog WHERE day_of_week = 'Mon'[/code]Spark 会自动进行以下的优化:如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop从上图可以看到,S w397090770 4年前 (2019-11-04) 2457℃ 0评论6喜欢
一、先来先服务和短作业(进程)优先调度算法1.先来先服务调度算法先来先服务(FCFS)调度算法是一种最简单的调度算法,该算法既可用于作业调度,也可用于进程调度。当在作业调度中采用该算法时,每次调度都是从后备作业队列中选择一个或多个最先进入该队列的作业,将它们调入内存,为它们分配资源、创建进程,然后放入 w397090770 11年前 (2013-04-10) 14258℃ 0评论19喜欢
本文将介绍如何通过简单地几步来开始编写你的 Flink Scala 程序。构建工具 Flink工程可以使用不同的工具进行构建,为了快速构建Flink工程, Flink为下面的构建工具分别提供了模板: 1、SBT 2、Maven这些模板可以帮助我们组织项目结构并初始化一些构建文件。SBT创建工程1、使用Giter8可以使用下 w397090770 8年前 (2016-04-07) 10087℃ 0评论8喜欢
本文为阿里巴巴技术专家余根茂在社区发的一篇文章。Structured Streaming 最初是在 Apache Spark 2.0 中引入的,它已被证明是构建分布式流处理应用程序的最佳平台。SQL/Dataset/DataFrame API 和 Spark 的内置函数的统一使得开发人员可以轻松实现复杂的需求,比如支持流聚合、流-流 Join 和窗口。自从 Structured Streaming 发布以来,社区的开发人 w397090770 4年前 (2020-07-30) 715℃ 0评论1喜欢
我们知道,Spark相比Hadoop最大的一个优势就是可以将数据cache到内存,以供后面的计算使用。本文将对这部分的代码进行分析。 我们可以通过rdd.persist()或rdd.cache()来缓存RDD中的数据,cache()其实就是调用persist()实现的。persist()支持下面的几种存储级别:[code lang="scala"]val NONE = new StorageLevel(false, false, false, false)val DISK_ONLY = w397090770 8年前 (2015-11-17) 9582℃ 0评论15喜欢
我们先来看看官方文档是怎么对Tachyon进行描述的:Tachyon is a memory-centric distributed storage system enabling reliable data sharing at memory-speed across cluster frameworks, such as Spark and MapReduce. It achieves high performance by leveraging lineage information and using memory aggressively. Tachyon caches working set files in memory, thereby avoiding going to disk to load datasets that are frequently w397090770 9年前 (2015-08-27) 3134℃ 4评论2喜欢
在前面的《Guava学习之Multimap》文章中我们谈到了Guava类库中的Multimap,其特点是存在在Multimap中的键值对可以不唯一;而我们又知道,在Java集合类库中有个Map,它的特点是存放的键(Key)是唯一的,而值(Value)可以不唯一,如果我们需要键(Key)和值(Value)都唯一,该怎么实现?这就是今天要谈的BiMap结构。 在过去,如 w397090770 11年前 (2013-07-10) 7091℃ 2评论2喜欢
谁说网站首次备案一定要关站?特别是网站运行了一段时间,搜索引擎等已经收录了网站内容,这时候如果关站一段时间(备案期间最长需要20个工作日,也就是一个月时间)会对网站产生很大的影响,比如网站被搜索引擎加黑,权重变低。这样的影响我们肯定不想要。 今天我想告诉大家的是其实在备案期间我们网站是可 w397090770 9年前 (2014-12-24) 4230℃ 3评论5喜欢
本文将介绍如何在Local模式下安装和使用Flink集群。要求(Requirements) Flink可以在Linux, Mac OS X 以及Windows等平台上运行。Local模式安装的唯一要求是安装Java 1.7.x或者更高版本。下面的操作假定是类UNIX环境,对于Windows可以参见本文的Flink on Windows章节。我们可以使用下面的命令来查看Java的版本:[code lang="bash"]java -versio w397090770 8年前 (2016-04-19) 5274℃ 0评论3喜欢