欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

Apache Pulsar

Apache Pulsar in Action 下载

Apache Pulsar in Action 下载
《Apache Pulsar in Action》于 2021年10月由 Manning 出版, ISBN 为 9781617296888 ,全书 400 页。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop图书介绍《Apache Pulsar in Action》能够无缝地将理论和抽象概念与清晰的循序渐进的实例结合在一起,我愿意向任何人推荐!--- Matteo Merli, co-creator of Apache PulsarDe

w397090770   2年前 (2022-03-02) 693℃ 0评论0喜欢

HBase

在Spark上通过BulkLoad快速将海量数据导入到Hbase

在Spark上通过BulkLoad快速将海量数据导入到Hbase
我们在《通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]》文中介绍了一种快速将海量数据导入Hbase的一种方法,而本文将介绍如何在Spark上使用Scala编写快速导入数据到Hbase中的方法。这里将介绍两种方式:第一种使用Put普通的方法来倒数;第二种使用Bulk Load API。关于为啥需要使用Bulk Load本文就不介绍,更多的请参见《通过BulkLoad快

w397090770   7年前 (2017-02-28) 14974℃ 1评论40喜欢

Spark

Apache Spark SQL自适应执行实践

Apache Spark SQL自适应执行实践
本文作者:汪愈舟 俞育才 郭晨钊 程浩(英特尔),李元健(百度)Spark SQL是Apache Spark最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据,在很多应用领域都有成功的生产实践,但是在超大规模集群和数据集上,Spark SQL仍然遇到不少易用性和可扩展性的挑战。为了应对这些挑战,英特尔大数据技术团

w397090770   6年前 (2018-01-11) 90799℃ 0评论75喜欢

Kafka

Kafka消息时间戳及压缩消息对时间戳的处理

Kafka消息时间戳及压缩消息对时间戳的处理
《Apache Kafka消息格式的演变(0.7.x~0.10.x)》《图解Apache Kafka消息偏移量的演变(0.7.x~0.10.x)》《Kafka消息时间戳及压缩消息对时间戳的处理》本博客的《Apache Kafka消息格式的演变(0.7.x~0.10.x)》文章中介绍了 Kafka 各个版本的格式变化。其中 Kafka 0.10.x 消息的一大变化是引入了消息时间戳的字段。本文将介绍 Kafka 消息引入时间戳的必要性

w397090770   7年前 (2017-09-01) 7343℃ 0评论23喜欢

网站建设

过往记忆博客微信小程序正式上线

过往记忆博客微信小程序正式上线
经过几个星期的开发,本博客微信小程序(过往记忆大数据技术博客)正式上线了!至此大家可以通过微信公众号、微信小程序等方式访问本博客了。下面来看看本博客微信公众号的一些预览:微信小程序首页在首页可以查看本博客最新的文章,热门文章以及搜索等。文章页文章页可以文章的详情,功

w397090770   6年前 (2018-01-28) 1890℃ 0评论7喜欢

R

20个在机器学习和数据科学中最常用的R语言包

20个在机器学习和数据科学中最常用的R语言包
  我们通过分析从2015年1月至5月下载次数最多的R包,列出了前20名流行的机器学习R包。  大多数R包都深受Kagglers大神的最爱,也被资深的笔者所赞美,而这些包的使用率或评价高低不仅仅取决于其它的包对于这个  这个包的依赖程度。还也取决于Crantastic.org并使用其众包能解决方案的用户。但是,用户评价太低以至于不

w397090770   8年前 (2016-07-17) 3674℃ 0评论5喜欢

Spark

一篇文章了解 Spark Shuffle 内存使用

一篇文章了解 Spark Shuffle 内存使用
在使用 Spark 进行计算时,我们经常会碰到作业 (Job) Out Of Memory(OOM) 的情况,而且很大一部分情况是发生在 Shuffle 阶段。那么在 Spark Shuffle 中具体是哪些地方会使用比较多的内存而有可能导致 OOM 呢? 为此,本文将围绕以上问题梳理 Spark 内存管理和 Shuffle 过程中与内存使用相关的知识;然后,简要分析下在 Spark Shuffle 中有可能导致 OOM

w397090770   5年前 (2019-03-17) 5284℃ 0评论19喜欢

Presto

Presto在字节跳动的内部实践与优化

Presto在字节跳动的内部实践与优化
引言 在字节跳动内部,Presto 主要支撑了 Ad-hoc 查询、BI 可视化分析、近实时查询分析等场景,日查询量接近 100 万条。 功能性方面 完全兼容 SparkSQL 语法,可以实现用户从 SparkSQL 到 Presto 的无感迁移; 性能方面 实现 Join Reorder,Runtime Filter 等优化,在 TPCDS1T 数据集上性能相对社区版本提升 80.5%; 稳定性方面 首先,实

w397090770   2年前 (2021-12-30) 594℃ 0评论0喜欢

Hive

Hive几种数据导入方式

Hive几种数据导入方式
写在前面的话,学Hive这么久了,发现目前国内还没有一本完整的介绍Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关Hive的资料,如果对Hive的东西感兴趣,请关注本博客。https://www.iteblog.com/archives/tag/hive-technology/好久没写Hive的那些事了,今

w397090770   10年前 (2014-02-19) 92301℃ 5评论128喜欢

Apache Iceberg

盘点2020年晋升为Apache TLP的大数据相关项目

盘点2020年晋升为Apache TLP的大数据相关项目
在过去一年有很多 Apache 孵化项目顺利毕业成顶级项目(Top-Level Project ,简称 TLP ),在这里我将给大家盘点 2020 年晋升为 Apache TLP 的大数据相关项目。在2020年一共有四个大数据相关项目顺利毕业成顶级项目,主要是 Apache® ShardingSphere™、Apache® Hudi™、Apache® Iceberg™ 以及 Apache® IoTDB™,这里以毕业的时间顺序依次介绍。关于过

w397090770   3年前 (2021-01-03) 1390℃ 0评论5喜欢

ElasticSearch

Elasticsearch乐观锁并发控制(optimistic concurrency control)

Elasticsearch乐观锁并发控制(optimistic concurrency control)
  Elasticsearch是一个分布式系统。当documents被创建、更新或者删除,其新版本会被复制到集群的其它节点。Elasticsearch既是异步的(asynchronous )也是同步的(concurrent),其含义是复制请求都是并行发送的,但是到达目的地的顺序是无序的。Elasticsearch系统需要一种方法使得老版本的文档永远都无法覆盖新的版本。  每当文档被改变的

w397090770   8年前 (2016-08-11) 3646℃ 1评论2喜欢

Hadoop

Hive0.11.0的新特性

Hive0.11.0的新特性
  1、新增"Explain dependency"语法,以json格式输出执行语句会读取的input table和input partition信息,这样debug语句会读取哪些表就很方便了[code lang="JAVA"]hive> explain dependency select count(1) from p;OK{"input_partitions":[{"partitionName":"default@p@stat_date=20110728/province=bj"},{"partitionName":"default@p@stat_date=20110728/provinc

w397090770   11年前 (2013-11-04) 7493℃ 2评论4喜欢

Spark

Spark 1.5将不再支持Java 6

Spark 1.5将不再支持Java 6
  在几年前,Oracle宣布不再维护Java 6的更新(看这里http://www.computerworld.com/article/2494112/application-security/oracle-to-stop-patching-java-6-in-february-2013.html),那么Java 6发现的新bug Oracle公司也就不再会去修改,这对用户来说就是不好的消息。  在前几天发布的Hadoop 2.7.0 (《Hadoop 2.7.0发布:不适用于生产和不支持JDK1.6》)中的一个重要的

w397090770   9年前 (2015-05-06) 7371℃ 1评论4喜欢

常用工具

21 个你应该知道的 wget 命令

21 个你应该知道的 wget 命令
如何下载整个网站用来离线浏览?怎样将一个网站上的所有 MP3 文件保存到本地的一个目录中?怎么才能将需要登陆的网页后面的文件下载下来?怎样构建一个迷你版的Google?wget 是一个自由的工具,可在包括 Mac,Window 和 Linux 在内的多个平台上使用,它可帮助你实现所有上述任务,而且还有更多的功能。与大多数下载管理器不同

w397090770   8年前 (2016-02-19) 1594℃ 0评论1喜欢

Flume

常用Hadoop生态圈软件分布式安装文章汇集

常用Hadoop生态圈软件分布式安装文章汇集
  经过三个多月,发现自己已经写了好几篇关于常用Hadoop生态圈分布式安装的文章,比如Hadoop、Hive、Zookeeper、Hbase等软件的分布式安装,今天就汇总一下吧,这样也方便大家查阅,如果发现里面有任何错误可以邮件联系我(wyphao.2007@163.com)或者直接在相应文章里面留言,我会及时更正。  1、Hadoop-2.2.0伪分布式安装:《在Fedora

w397090770   10年前 (2014-01-26) 6819℃ 1评论8喜欢

Hadoop

Hadoop集群监控:jmx信息获取

Hadoop集群监控:jmx信息获取
  Hadoop集群的监控可以通过多种方式来实现(比如REST API、jmx、内置API等等)。虽然监控方式有多种,但是我们需要根据监控的指标选择不同的监控方式,比如如果你想监控作业的情况,那么你选择jmx是不能满足的;你想监控各节点的运行情况,REST API也是不能满足的。所以在选择不同当时监控时,我们需要详细了解需要我们的需

w397090770   8年前 (2016-06-23) 20926℃ 0评论34喜欢

wordpress开发

调用Github登录API接入到WordPress

调用Github登录API接入到WordPress
  点击试试使用Github登录我博客。  随着使用Github的人越来越多,为自己的网站添加Github登录功能也越来越有必要了。Github开放了登录API,第三方网站可以通过调用Github的OAuth相关API读取到登录用户的基本信息,从而使得用户可以通过Github登录到我们的网站。今天来介绍一下如何使用Github的OAuth相关API登录到Wordpress。  

w397090770   9年前 (2015-04-12) 11794℃ 9评论12喜欢

HBase

HBase 数据压缩介绍与实战

HBase 数据压缩介绍与实战
为了提高 HBase 存储的利用率,很多 HBase 使用者会对 HBase 表中的数据进行压缩。目前 HBase 可以支持的压缩方式有 GZ(GZIP)、LZO、LZ4 以及 Snappy。它们之间的区别如下:GZ:用于冷数据压缩,与 Snappy 和 LZO 相比,GZIP 的压缩率更高,但是更消耗 CPU,解压/压缩速度更慢。Snappy 和 LZO:用于热数据压缩,占用 CPU 少,解压/压缩速度比

w397090770   7年前 (2017-02-09) 1877℃ 0评论1喜欢

WP技巧

为WordPress的suffusion主题添加文章浏览次数

为WordPress的suffusion主题添加文章浏览次数
  Suffusion 是一款功能十分强大的免费WordPress主题,可以对样式模板、整体框架、内容调用进行自定义设置。本文主要来分享一下如何给文章添加统计次数。 安装WP-PostViews插件,这个是用来统计文章浏览次数的。 依次选择 外观-->编辑-->post-header.php 在里面找到[code lang="CPP"]<span class="comments">[/code]  可以

w397090770   11年前 (2013-04-20) 3462℃ 0评论4喜欢

Akka

Akka学习笔记:日志

Akka学习笔记:日志
Akka学习笔记系列文章:《Akka学习笔记:ACTORS介绍》《Akka学习笔记:Actor消息传递(1)》《Akka学习笔记:Actor消息传递(2)》  《Akka学习笔记:日志》《Akka学习笔记:测试Actors》《Akka学习笔记:Actor消息处理-请求和响应(1) 》《Akka学习笔记:Actor消息处理-请求和响应(2) 》《Akka学习笔记:ActorSystem(配置)》《Akka学习笔记

w397090770   10年前 (2014-10-15) 19313℃ 5评论10喜欢

Spark

Apache Spark 中支持的七种 Join 类型

Apache Spark 中支持的七种 Join 类型
数据分析中将两个数据集进行 Join 操作是很常见的场景。我在 这篇 文章中介绍了 Spark 支持的五种 Join 策略,本文我将给大家介绍一下 Apache Spark 中支持的 Join 类型(Join Type)。目前 Apache Spark 3.0 版本中,一共支持以下七种 Join 类型:INNER JOINCROSS JOINLEFT OUTER JOINRIGHT OUTER JOINFULL OUTER JOINLEFT SEMI JOINLEFT ANTI JOIN在实现上

w397090770   3年前 (2020-10-25) 1396℃ 0评论6喜欢

Spark

Spark 背后的商业公司收购的 Redash 是个啥?

Spark 背后的商业公司收购的 Redash 是个啥?
在2020年6月24日的 Spark AI summit Keynote 上,数砖的首席执行官 Ali Ghodsi 宣布其收购了 Redash 开源产品的背后公司 Redash!如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop通过这次收购,Redash 加入了 Apache Spark、Delta Lake 和 MLflow,创建了一个更大、更繁荣的开源系统,为数据团队提供了同类中最好的

w397090770   4年前 (2020-06-26) 830℃ 0评论3喜欢

Hadoop

Hadoop源码编译与调试

Hadoop源码编译与调试
  虽然在运行Hadoop的时候可以打印出大量的运行日志,但是很多时候只通过打印这些日志是不能很好地跟踪Hadoop各个模块的运行状况。这时候编译与调试Hadoop源码就得派上场了。这也就是今天本文需要讨论的。编译Hadoop源码  先说说怎么编译Hadoop源码,本文主要介绍在Linux环境下用Maven来编译Hadoop。在编译Hadoop之前,我们

w397090770   10年前 (2014-01-09) 19805℃ 0评论10喜欢

Alluxio

Presto Alluxio Local Cache 监控指南

Presto Alluxio Local Cache 监控指南
什么是 Alluxio Local Cache随着云计算在基础设施领域的市场份额持续上升,主流数据分析引擎纷纷选择独立扩展存储、计算来适配云基础设施,并以此为云提供商降低成本。但是,存储计算分离也为查询延迟带来了新的挑战,因为当网络饱和时,通过网络扫描大量数据将受到 IO 限制。此外,元数据也面临远程网络来检索的性能问题。

w397090770   2年前 (2022-03-21) 609℃ 0评论2喜欢

Cassandra

Apache Cassandra 快速入门指南(Quick Start)

Apache Cassandra 快速入门指南(Quick Start)
我们在这篇文章简单介绍了 Apache Cassandra 是什么,以及有什么值得关注的特性。本文将简单介绍 Apache Cassandra 的安装以及简单使用,可以帮助大家快速了解 Apache Cassandra。我们到 Apache Cassandra 的官方网站下载最新版本的 Cassandra,在本文写作时最新版本的 Cassandra 为 3.11.4。Apache Cassandra 可以在 Linux、Unix、Mac OS 以及 Windows 上进行安装

w397090770   5年前 (2019-04-07) 4998℃ 0评论8喜欢

Scala

为Java程序员编写的Scala的入门教程

为Java程序员编写的Scala的入门教程
  本文是《A Scala Tutorial for Java programmers》英文的翻译,英文版地址A Scala Tutorial for Java programmers。是Michel Schinz和Philipp Haller编写,由Bearice成中文,dongfengyee(东风雨)整理.一、简介二、 第一个Scala例子三、Scala与Java交互四、Scala:万物皆对象五、Scala类六、Scala的模式匹配和条件类七、Scala Trait八、Scala的泛型九、

w397090770   9年前 (2015-04-18) 16192℃ 0评论37喜欢

Java

里氏替换法则

里氏替换法则
  里氏替换法则(Liskov Substitution Principle LSP)是面向对象设计的六大基本原则之一(单一职责原则、里氏替换原则、依赖倒置原则、接口隔离原则、迪米特法则以及开闭原则)。这里说说里氏替换法则:父类的一个方法返回值是一个类型T,子类相同方法(重载或重写)返回值为S,那么里氏替换法则就要求S必须小于等于T,也就是说要么

w397090770   11年前 (2013-09-12) 4155℃ 3评论0喜欢

Spark

影响到Spark输出RDD分区的操作函数

影响到Spark输出RDD分区的操作函数
  下面的操作会影响到Spark输出RDD分区(partitioner)的:  cogroup, groupWith, join, leftOuterJoin, rightOuterJoin, groupByKey, reduceByKey, combineByKey, partitionBy, sort, mapValues (如果父RDD存在partitioner), flatMapValues(如果父RDD存在partitioner), 和 filter (如果父RDD存在partitioner)。其他的transform操作不会影响到输出RDD的partitioner,一般来说是None,也就是没

w397090770   9年前 (2014-12-29) 16484℃ 0评论5喜欢

Spark

SPARK SUMMIT 2015会议PPT百度网盘免费下载(2)

SPARK SUMMIT 2015会议PPT百度网盘免费下载(2)
  SPARK SUMMIT 2015会议于美国时间2015年06月15日到2015年06月17日在San Francisco(旧金山)进行,目前PPT已经全部公布了,不过很遗憾的是这个网站被墙了,无法直接访问,本博客将这些PPT全部整理免费下载。由于源网站限制,一天只能只能下载20个PPT,所以我只能一天分享20篇。如果想获取全部的PPT,请关站本博客。会议主旨  T

w397090770   9年前 (2015-07-06) 5296℃ 0评论7喜欢

HBase

HBase MOB(Medium Object)使用入门指南

HBase MOB(Medium Object)使用入门指南
《Apache HBase中等对象存储MOB压缩分区策略介绍》 文章中介绍了 MOB 的一些压缩实现,并提及了一些 MOB 的一些简单使用,本文将详细地介绍 HBase MOB 的使用,本指南适合入门的开发者。将不同大小的文件(比如图片、文档等)存储到 HBase 非常的简单方便。从技术上来说,HBase 可以直接在一个单元格(Cell)存储大小到10MB的二进制对

w397090770   5年前 (2018-12-03) 2671℃ 0评论5喜欢