欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

Hadoop

Spark on YARN客户端模式作业运行全过程分析

Spark on YARN客户端模式作业运行全过程分析
《Spark on YARN集群模式作业运行全过程分析》《Spark on YARN客户端模式作业运行全过程分析》《Spark:Yarn-cluster和Yarn-client区别与联系》《Spark和Hadoop作业之间的区别》《Spark Standalone模式作业运行全过程分析》(未发布)  在前篇文章中我介绍了Spark on YARN集群模式(yarn-cluster)作业从提交到运行整个过程的情况(详情见《Spar

w397090770   10年前 (2014-11-04) 19457℃ 5评论12喜欢

Kafka

Kafka集群Leader均衡(Balancing leadership)

Kafka集群Leader均衡(Balancing leadership)
  当一个broker停止或者crashes时,所有本来将它作为leader的分区将会把leader转移到其它broker上去。这意味着当这个broker重启时,它将不再担任何分区的leader,kafka的client也不会从这个broker来读取消息,从而导致资源的浪费。比如下面的broker 7是挂掉重启的,我们可以发现Partition 1虽然在broker 7上有数据,但是由于它挂了,所以Kafka重新

w397090770   8年前 (2016-03-24) 8266℃ 0评论5喜欢

Kafka

Apache Kafka编程入门指南:Producer篇

Apache Kafka编程入门指南:Producer篇
  《Apache Kafka编程入门指南:Producer篇》  《Apache Kafka编程入门指南:设置分区数和复制因子》  Apache Kafka编程入门指南:Consumer篇  Kafka最初由Linkedin公司开发的分布式、分区的、多副本的、多订阅者的消息系统。它提供了类似于JMS的特性,但是在设计实现上完全不同,此外它并不是JMS规范的实现。kafka对消息保存

w397090770   8年前 (2016-02-05) 10206℃ 1评论12喜欢

Flink

Apache Flink 1.2.1正式发布

Apache Flink 1.2.1正式发布
经过一个多月的投票,Apache Flink 1.2.1终于正式发布了。看这个版本就知道,Apache Flink 1.2.1仅仅是对 Flink 1.2.0进行一些Bug修复,不涉及重大的新功能。推荐所有的用户升级到Apache Flink 1.2.1。大家可以在自己项目的pom.xml文件引入以下依赖:[code lang="xml"]<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-java</art

w397090770   7年前 (2017-05-04) 1619℃ 0评论6喜欢

Hadoop

四种常见的MapReduce设计模式

四种常见的MapReduce设计模式
  使用MapReduce解决任何问题之前,我们需要考虑如何设计。并不是任何时候都需要map和reduce job。MapReduce设计模式(MapReduce Design Pattern)整个MapReduce作业的阶段主要可以分为以下四种:  1、Input-Map-Reduce-Output  2、Input-Map-Output  3、Input-Multiple Maps-Reduce-Output  4、Input-Map-Combiner-Reduce-Output下面我将一一介绍哪种

w397090770   8年前 (2016-09-01) 5623℃ 0评论16喜欢

Git

Git 代码回滚

Git 代码回滚
Git 的代码回滚主要有 reset 和 revert,本文介绍其用法如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoopreset一般用法是 [code lang="bash"]git reset --hard commit_id[/code]其中 commit_id 是使用 git log 查看的 id,如下:[code lang="bash"]$ git logcommit 26721c73c6bb82c8a49aa94ce06024f592032d0cAuthor: iteblog <iteblog@iteb

w397090770   4年前 (2020-10-12) 1241℃ 0评论0喜欢

hudi

官宣,Apache Hudi 正式成为 Apache 顶级项目

官宣,Apache Hudi 正式成为 Apache 顶级项目
2020年6月4日,马萨诸塞州韦克菲尔德(Wakefield, MA)—— Apache 软件基金会(ASF),超过350个开源项目和计划的全志愿者开发人员、管理人员和孵化器,正式宣布 Apache Hudi 成为顶级项目(Top-Level Project 、TLP)。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoopApache Hudi (Hadoop Upserts delete and Incrementa

w397090770   4年前 (2020-06-04) 1158℃ 0评论5喜欢

Hadoop

Hadoop&Spark解决二次排序问题(Spark篇)

Hadoop&Spark解决二次排序问题(Spark篇)
我在《Hadoop&Spark解决二次排序问题(Hadoop篇)》文章中介绍了如何在Hadoop中实现二次排序问题,今天我将介绍如何在Spark中实现。问题描述二次排序就是key之间有序,而且每个Key对应的value也是有序的;也就是对MapReduce的输出(KEY, Value(v1,v2,v3,......,vn))中的Value(v1,v2,v3,......,vn)值进行排序(升序或者降序),使得Value(s1,s2,s3,......,sn),si

w397090770   8年前 (2016-10-08) 6119℃ 0评论12喜欢

Hadoop

通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]

通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]
在第一次建立Hbase表的时候,我们可能需要往里面一次性导入大量的初始化数据。我们很自然地想到将数据一条条插入到Hbase中,或者通过MR方式等。但是这些方式不是慢就是在导入的过程的占用Region资源导致效率低下,所以很不适合一次性导入大量数据。本文将针对这个问题介绍如何通过Hbase的BulkLoad方法来快速将海量数据导入到Hbas

w397090770   7年前 (2016-11-28) 17596℃ 2评论52喜欢

公众号转载文章

一文理解实时数据仓库的演进

一文理解实时数据仓库的演进
数据处理现状:当前基于Hive的离线数据仓库已经非常成熟,数据中台体系也基本上是围绕离线数仓进行建设。但是随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀,业界最近几年就一直聚焦并探索于两个相关的热点问题:实时数仓建设和大数据架构的批流一体建设。实时数仓建设:实时数仓1.0 传统

w397090770   2年前 (2022-02-18) 582℃ 0评论1喜欢

Spark

Spark Tungsten项目的三阶段

Spark Tungsten项目的三阶段
  基于社区开发者们的观察,绝大多数的Spark应用程序的瓶颈不在于I/O或者网络,而在于CPU和内存。基于这个事实,开发者们发起了Tungsten项目,而Spark 1.5是Tungsten项目的第一阶段。Tungsten项目主要集中在三个方面,于此来提高Spark应用程序的内存和CPU的效率,使得性能能够接近硬件的限制。Tungsten项目的三个阶段内存管理和二

w397090770   9年前 (2015-09-09) 7286℃ 0评论5喜欢

Flume

Flume内置channel,source,sink汇总

Flume内置channel,source,sink汇总
由于经常会使用到Flume的一些channel,source,sink,于是为了方便将这些channel,source,sink汇总出来,也共大家访问。Component InterfaceType AliasImplementation Class*.Channelmemory*.channel.MemoryChannel*.Channeljdbc*.channel.jdbc.JdbcChannel*.Channelfile*.channel.file.FileChannel*.Channel–*.channel.PseudoTxnMemoryChannel*.Channel–org.exa

w397090770   10年前 (2014-02-19) 18893℃ 0评论13喜欢

网站建设

CentOS平台升级OpenSSL到1.0.1t

CentOS平台升级OpenSSL到1.0.1t
  我博客服务器使用的OpenSSL是1.0.1e版本,之所以需要升级到OpenSSL 1.0.1t版本是因为1.0.1t版本以下存在一个严重的Bug:Padding oracle in AES-NI CBC MAC check (CVE-2016-2107),我们可以到这里查看我们的网站是否有这个问题。官方对这个漏洞的描述是:[code lang="bash"]Padding oracle in AES-NI CBC MAC check (CVE-2016-2107)===============================================

w397090770   8年前 (2016-08-06) 2791℃ 0评论2喜欢

Spark

Spark社区可能放弃Spark 1.7而直接发布Spark 2.x

Spark社区可能放弃Spark 1.7而直接发布Spark 2.x
  最近由Reynold Xin给Spark开发者发布的一封邮件透露,Spark社区很有可能会跳过Spark 1.7版本的发布,而直接转向Spark 2.x。  如果Spark 2.x发布,那么它将:  (1)、Spark编译将默认使用Scala 2.11,但是还是会支持Scala 2.10。  (2)、移除对Hadoop 1.x的支持。不过也有可能移除对Hadoop 2.2以下版本的支持,因为Hadoop 2.0和2.1版本分

w397090770   8年前 (2015-11-13) 6961℃ 0评论16喜欢

HTTPS

如何申请免费好用的HTTPS证书Let's Encrypt

如何申请免费好用的HTTPS证书Let's Encrypt
  Let's Encrypt是一款免费、自动化、开放的证书签发服务(Let's Encrypt is a new Certificate Authority: It's free, automated, and open),它由非营利的网际网路安全研究组织 ISRG(Internet Security Research Group,互联网安全研究小组)提供营运服务,并得到EFF、Mozilla、Cisco、Akamai、IdenTrust与密西根大学研究人员的支持,发展十分迅猛。Let's Encrypt目的在于

w397090770   8年前 (2016-08-06) 3175℃ 3评论2喜欢

CarbonData

Carbondata使用过程中遇到的几个问题及解决办法

Carbondata使用过程中遇到的几个问题及解决办法
本文总结了几个本人在使用 Carbondata 的时候遇到的几个问题及其解决办法。这里使用的环境是:Spark 2.1.0、Carbondata 1.2.0。必须指定 HDFS nameservices在初始化 CarbonSession 的时候,如果不指定 HDFS nameservices,在数据导入是没啥问题的;但是数据查询会出现相关数据找不到问题:[code lang="scala"]scala> val carbon = SparkSession.builder().temp

w397090770   6年前 (2017-11-09) 6528℃ 5评论14喜欢

Akka

Akka学习笔记:ActorSystem(配置)

Akka学习笔记:ActorSystem(配置)
Akka学习笔记系列文章:《Akka学习笔记:ACTORS介绍》《Akka学习笔记:Actor消息传递(1)》《Akka学习笔记:Actor消息传递(2)》  《Akka学习笔记:日志》《Akka学习笔记:测试Actors》《Akka学习笔记:Actor消息处理-请求和响应(1) 》《Akka学习笔记:Actor消息处理-请求和响应(2) 》《Akka学习笔记:ActorSystem(配置)》《Akka学习笔记

w397090770   10年前 (2014-10-21) 15607℃ 4评论12喜欢

Flink

Flink本地模式安装(Local Setup)

Flink本地模式安装(Local Setup)
  本文将介绍如何在Local模式下安装和使用Flink集群。要求(Requirements)  Flink可以在Linux, Mac OS X 以及Windows等平台上运行。Local模式安装的唯一要求是安装Java 1.7.x或者更高版本。下面的操作假定是类UNIX环境,对于Windows可以参见本文的Flink on Windows章节。我们可以使用下面的命令来查看Java的版本:[code lang="bash"]java -versio

w397090770   8年前 (2016-04-19) 5274℃ 0评论3喜欢

网站建设

《过往记忆》博客公告:邮箱系统正常啦

《过往记忆》博客公告:邮箱系统正常啦
  首先,很感谢大家对本博客的支持。  在此我想给各位网友阐述两件事(1)、QQ群问题;(2)、网站无法注册问题。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop一、QQ群问题(定期清人)  我在今年五月份创建了一个QQ群(群号:138615359),用来讨论Hadoop、Spark等相关方面

w397090770   10年前 (2014-09-17) 3860℃ 4评论8喜欢

Hadoop

HDFS ls命令按照时间排序(sort by time)

HDFS ls命令按照时间排序(sort by time)
  我们在使用HDFS Shell的时候只用最频繁的命令可能就是 ls 了,其具体含义我就不介绍了。在使用 ls 的命令时,我们可能想对展示出来的文件按照修改时间排序,也就是最近修改的文件(most recent)显示在最前面。如果你使用的是Hadoop 2.8.0以下版本,内置是不支持按照时间等属性排序的。不过值得高兴的是,我们可以结合Shell命令来

w397090770   7年前 (2017-02-18) 12251℃ 0评论9喜欢

nginx

在Nginx中使用Let's Encrypt免费证书配置HTTPS

在Nginx中使用Let's Encrypt免费证书配置HTTPS
  我昨天在《如何申请免费好用的HTTPS证书Let's Encrypt》中详细地介绍了申请免费的Let's Encrypt证书步骤,如果大家按照上面的文章介绍一步一步地操作我们可以在/data/web/ssl/文件夹下看到如下的文件列表:[code lang="bash"][iteblog@iteblog.com ssl] $ lltotal 28-rw-r--r-- 1 iteblog iteblog 3243 Aug 5 09:21 account.key-rw-r--r-- 1 iteblog iteblog 9159 Aug 5 09:33

w397090770   8年前 (2016-08-07) 1958℃ 0评论2喜欢

面试题

装箱问题(Bin packing problem)

装箱问题(Bin packing problem)
问题的定义装箱问题(Bin packing problem),又称集装优化,是一个利用运筹学去解决实际生活的的经典问题。在维基百科的定义如下:In the bin packing problem, items of different volumes must be packed into a finite number of bins or containers each of a fixed given volume in a way that minimizes the number of bins used. In computational complexity theory, it is a combinatorial NP-hard

w397090770   3年前 (2020-10-27) 6497℃ 0评论2喜欢

Presto

避免 Presto 中的数据孤岛:从 Raptor 到 RaptorX 的旅程

避免 Presto 中的数据孤岛:从 Raptor 到 RaptorX 的旅程
Raptor 是一个 Presto connector (presto-raptor),用于支持 Meta(以前的 Facebook)中的一些关键的交互式查询工作负载。尽管在 ICDE 2019 年的论文《Presto: SQL on Everything》中提到了这个特性,但对于许多 Presto 用户来说,它仍然有些神秘,因为没有关于这个特性的可用文档。本文将介绍 Raptor 的历史,以及为什么 Meta 最终取代了它,转而支持一种

w397090770   2年前 (2022-03-06) 314℃ 0评论0喜欢

Hadoop

在Fedora上部署Hadoop2.2.0伪分布式平台

在Fedora上部署Hadoop2.2.0伪分布式平台
    如果你想配置完全分布式平台请参见本博客《Hadoop2.2.0完全分布式集群平台安装与设置》  首先,你得在电脑上面安装好jdk7,如何安装,这里就不说了,网上一大堆教程!然后安装好ssh,如何安装请参见本博客《Linux平台下安装SSH》、并设置好无密码登录(《Ubuntu和CentOS如何配置SSH使得无密码登陆》)。好了,上面的

w397090770   11年前 (2013-10-28) 9391℃ 7评论7喜欢

前端框架

Balloon.css:用纯CSS写的tooltips

Balloon.css:用纯CSS写的tooltips
Balloon.css文件允许用户给元素添加提示,而这些在Balloon.css中完全是由CSS来实现,不需要使用JavaScript。 button { display: inline-block; min-width: 160px; text-align: center; color: #fff; background: #ff3d2e; padding: 0.8rem 2rem; font-size: 1.2rem; margin-top: 1rem; border: none; border-radius: 5px; transition: background 0.1s linear;}.butt

w397090770   8年前 (2016-03-15) 2424℃ 3评论10喜欢

CPP编程

Linux库memmove函数实现

Linux库memmove函数实现
在/archives/227主要介绍了memcpy函数的实现,并说明了memcpy函数的局限性。今天来介绍一下和memcpy函数功能类似的函数memmove。memmove函数和memcpy函数的原型为[code lang="CPP"]#include <string.h>void *memcpy(void *dest, const void *src, size_t n);void *memmove(void *dest, const void *src, size_t n);[/code]memmove英文介绍,里面很详细的介绍了memmove函数的

w397090770   11年前 (2013-04-08) 4499℃ 0评论0喜欢

API

过往记忆博客免费手机归属地API

过往记忆博客免费手机归属地API
本博客收集的手机号段截止时间为2020年03月的,共计450000+条。包含以下字段:电信:133 153 173(新) 177 (新) 180 181 189 199 (新)移动:134 135 136 137 138 139 150 151 152 157 158 159 172(新) 178(新) 182 183 184 187 188 198(新) 联通:130 131 132 155 156 166(新) 175(新) 176(新) 185 186数据卡:145 147 149其他:170(新) 171 (新)API地址/api/mobile.php使用本AP

w397090770   8年前 (2016-08-02) 5041℃ 0评论15喜欢

Spark

Apache Spark 2.1.0正式发布

Apache Spark 2.1.0正式发布
  Apache Spark 2.1.0是 2.x 版本线的第二个发行版。此发行版在为Structured Streaming进入生产环境做出了重大突破,Structured Streaming现在支持了event time watermarks了,并且支持Kafka 0.10。此外,此版本更侧重于可用性,稳定性和优雅(polish),并解决了1200多个tickets。以下是本版本的更新:Core and Spark SQL  Spark官方发布新版本时,一般

w397090770   7年前 (2016-12-30) 4202℃ 0评论8喜欢

Solr

Apache Solr 安装部署及索引创建

Apache Solr 安装部署及索引创建
Solr 介绍Apache Solr 是基于 Apache Lucene™ 构建的流行,快速,开源的企业搜索平台。Solr 具有高可靠性,可扩展性和容错性,可提供分布式索引,复制和负载均衡查询,自动故障转移和恢复以及集中配置等特性。 Solr 为世界上许多大型互联网站点提供搜索和导航功能。Solr 是用 Java 编写、运行在 Servlet 容器(如 Apache Tomcat 或Jetty)

w397090770   6年前 (2018-07-24) 2789℃ 0评论3喜欢

Kafka

Kafka剖析:Kafka背景及架构介绍

Kafka剖析:Kafka背景及架构介绍
《Kafka剖析:Kafka背景及架构介绍》《Kafka设计解析:Kafka High Availability(上)》《Kafka设计解析:Kafka High Availability (下)》《Kafka设计解析:Replication工具》《Kafka设计解析:Kafka Consumer解析》  Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源

w397090770   9年前 (2015-04-08) 7712℃ 2评论16喜欢