欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

资料分享

红杏公益版(开发人员专用免费)

红杏公益版(开发人员专用免费)
  近日,红杏官方为了方便开发人员,公布了红杏公益版代理,该代理地址和端口为hx.gy:1080,可以在浏览器、IDE里面进行设置,并且访问很多常用的网站。目前支持的域名如下:[code lang="scala"]android.combitbucket.orgbintray.comchromium.orgclojars.orgregistry.cordova.iodartlang.orgdownload.eclipse.orggithub.comgithubusercontent.comgolang.orggoogl

w397090770   9年前 (2015-04-15) 17866℃ 0评论22喜欢

Scala

Scala正则表达式替换

Scala正则表达式替换
在之前的博文《Scala正则表达式》我简单地介绍了如何在Scala中使用正则表达式来匹配一些我们需要的内容。本篇文章将接着此文继续简单介绍如何使用Scala来匹配出我们需要的字符串,然后使用某种规则来替换匹配出来的字符串。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop简单正则表

w397090770   7年前 (2017-06-26) 8095℃ 0评论15喜欢

Apache Iceberg

盘点2020年晋升为Apache TLP的大数据相关项目

盘点2020年晋升为Apache TLP的大数据相关项目
在过去一年有很多 Apache 孵化项目顺利毕业成顶级项目(Top-Level Project ,简称 TLP ),在这里我将给大家盘点 2020 年晋升为 Apache TLP 的大数据相关项目。在2020年一共有四个大数据相关项目顺利毕业成顶级项目,主要是 Apache® ShardingSphere™、Apache® Hudi™、Apache® Iceberg™ 以及 Apache® IoTDB™,这里以毕业的时间顺序依次介绍。关于过

w397090770   3年前 (2021-01-03) 1390℃ 0评论5喜欢

Spark

来自 Facebook 的 Spark 大作业调优经验

来自 Facebook 的 Spark 大作业调优经验
Facebook Spark 的使用情况在介绍下面文章之前我们来看看 Facebook 的 Spark 使用情况:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop 如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoopSpark 是 Facebook 内部最大的 SQL 查询引擎(按 CPU 使用率计算)在存储计算分

w397090770   4年前 (2020-06-14) 1459℃ 0评论6喜欢

Spark

Apache Spark 自定义优化规则:Custom Optimizer Rule

Apache Spark 自定义优化规则:Custom Optimizer Rule
在 《Apache Spark 自定义优化规则:Custom Strategy》 文章中我们介绍了如何自定义策略,策略是用在逻辑计划转换到物理计划阶段。而本文将介绍如何自定义逻辑计划优化规则,主要用于优化逻辑计划,和前文不一样的地方是,逻辑优化规则只是等价变换逻辑计划,也就是 Logic Plan -> Login Plan,这个是在应用策略前进行的。如果想及时

w397090770   4年前 (2020-08-07) 1118℃ 0评论2喜欢

Flink

Flink本地模式安装(Local Setup)

Flink本地模式安装(Local Setup)
  本文将介绍如何在Local模式下安装和使用Flink集群。要求(Requirements)  Flink可以在Linux, Mac OS X 以及Windows等平台上运行。Local模式安装的唯一要求是安装Java 1.7.x或者更高版本。下面的操作假定是类UNIX环境,对于Windows可以参见本文的Flink on Windows章节。我们可以使用下面的命令来查看Java的版本:[code lang="bash"]java -versio

w397090770   8年前 (2016-04-19) 5274℃ 0评论3喜欢

Hive

Hive常用语句

Hive常用语句
显示分区[code lang="sql"]show partitions iteblog;[/code]添加分区[code lang="sql"]ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec [LOCATION 'location1'] partition_spec [LOCATION 'location2'] ...; partition_spec: : (partition_column = partition_col_value, partition_column = partition_col_value, ...)ALTER TABLE iteblog ADD PARTITION (dt='2008-08-08') location '/path/to/us/part080

w397090770   8年前 (2015-11-27) 9928℃ 0评论18喜欢

Hadoop

Hadoop面试题系列(2/11)

Hadoop面试题系列(2/11)
1.hbase怎么预分区?2.hbase怎么给web前台提供接口来访问?3.htable API有没有线程安全问题,在程序中是单例还是多例?4.hbase有没有并发问题?5.metaq消息队列,zookeeper集群,storm集群,就可以完成对商城推荐系统功能吗?还有没有其他的中间件?6.storm 怎么完成对单词的计数?7.hdfs的client端,复制到第三个副本时宕机,

w397090770   8年前 (2016-08-26) 4127℃ 0评论2喜欢

ElasticSearch

23种非常有用的ElasticSearch查询例子(4)

23种非常有用的ElasticSearch查询例子(4)
  本系列文章将展示ElasticSearch中23种非常有用的查询使用方法。由于篇幅原因,本系列文章分为六篇,本文是此系列的第四篇文章。欢迎关注大数据技术博客微信公共账号:iteblog_hadoop。《23种非常有用的ElasticSearch查询例子(1)》《23种非常有用的ElasticSearch查询例子(2)》《23种非常有用的ElasticSearch查询例子(3)》《23种非常有用

w397090770   8年前 (2016-09-04) 7407℃ 0评论8喜欢

CarbonData

Spark 2.1.0与CarbonData 1.0.0集群模式部署及使用入门指南

Spark 2.1.0与CarbonData 1.0.0集群模式部署及使用入门指南
本文作者:李寅威,从事大数据、机器学习方面的工作,目前就职于CVTE联系方式:微信(coridc),邮箱(251469031@qq.com)原文链接: Spark2.1.0 + CarbonData1.0.0集群模式部署及使用入门1 引言  Apache CarbonData是一个面向大数据平台的基于索引的列式数据格式,由华为大数据团队贡献给Apache社区,目前最新版本是1.0.0版。介于

zz~~   7年前 (2017-03-13) 3406℃ 0评论11喜欢

Linux

Ubuntu使用技巧之MySQL

Ubuntu使用技巧之MySQL
  MySQL是一个开放源码的小型关联式数据库管理系统,开发者为瑞典MySQL AB公司。MySQL被广泛地应用在Internet上的中小型网站中。由于其体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,许多中小型网站为了降低网站总体拥有成本而选择了MySQL作为网站数据库。  MySQL是一种跨平台的数据库,在Ubuntu下安装Server的命令

w397090770   11年前 (2013-07-21) 3602℃ 0评论2喜欢

Hadoop

SQL on Hadoop:场景和结论

SQL on Hadoop:场景和结论
以下文章是转载自国外网站,介绍了Hadoop生态系统上面的几种SQL:Hive、Drill、Impala、Presto以及Spark\Shark等应用场景、对比以及一些结论Within the big data landscape there are multiple approaches to accessing, analyzing, and manipulating data in Hadoop. Each depends on key considerations such as latency, ANSI SQL completeness (and the ability to tolerate machine-generated SQL), developer and a

w397090770   10年前 (2014-08-11) 9864℃ 0评论14喜欢

Zookeeper

Zookeeper Monitor集群监控开发

Zookeeper Monitor集群监控开发
  随着线上越来越多的系统依赖Zookeeper集群,以至于Zookeeper集群的运行状况越来越重要。但是目前还没有什么好用的Zookeeper集群监控系统(淘宝开源了一个Zookeeper监控系统,但是我觉得很不好用,里面主要有四个线程在跑,而且需要SSH登录到线上集群,这用起来很不方便。)于是我们开发了一套Zookeeper集群监控程序,可以监控Zooke

w397090770   10年前 (2014-08-01) 36000℃ 22评论62喜欢

Hadoop

HDFS 归档存储编程指南

HDFS 归档存储编程指南
介绍HDFS 归档存储(Archival Storage)是从 Hadoop 2.6.0 开始引入的(参见 HDFS-6584)。归档存储是一种将增长的存储容量与计算容量解耦的解决方案。我们可以在集群中部署一些具有更高密度、更便宜的存储且提供更低计算能力的节点,并且可以用作集群中的冷数据存储器。根据我们的设置,可以将热数据移到冷存储介质中。通过添加更

w397090770   4年前 (2020-04-15) 1641℃ 0评论3喜欢

Hadoop

[电子书]Hadoop权威指南第3版中文版PDF下载

[电子书]Hadoop权威指南第3版中文版PDF下载
  本书是《Hadoop权威指南》第三版,新版新特色,内容更详细。本书是为程序员写的,可帮助他们分析任何大小的数据集。本书同时也是为管理员写的,帮助他们了解如何设置和运行Hadoop集群。  本书通过丰富的案例学习来解释Hadoop的幕后机理,阐述了Hadoop如何解决现实生活中的具体问题。第3版覆盖Hadoop的新动态,包括新增

zz~~   7年前 (2016-12-16) 17004℃ 0评论42喜欢

Kafka

Kafka在LinkedIn公司的使用及维护实战

Kafka在LinkedIn公司的使用及维护实战
  Apache Kafka在LinkedIn和其他公司中是作为各种数据管道和异步消息的后端。Netflix和Microsoft公司作为Kafka的重量级使用者(Four Comma Club,每天万亿级别的消息量),他们在Kafka Summit的分享也让人受益良多。  虽然Kafka有着极其稳定的架构,但是在每天万亿级别消息量的大规模下也会偶尔出现有趣的bug。在本篇文章以及以后的几篇

w397090770   8年前 (2016-07-20) 5266℃ 1评论6喜欢

Spark

Spark Checkpoint写操作代码分析

Spark Checkpoint写操作代码分析
  《Spark RDD缓存代码分析》  《Spark Task序列化代码分析》  《Spark分区器HashPartitioner和RangePartitioner代码详解》  《Spark Checkpoint读操作代码分析》  《Spark Checkpoint写操作代码分析》  上次我对Spark RDD缓存的相关代码《Spark RDD缓存代码分析》进行了简要的介绍,本文将对Spark RDD的checkpint相关的代码进行相关的

w397090770   8年前 (2015-11-25) 8795℃ 5评论14喜欢

资料分享

推荐几个国内访问比较快的Maven仓库镜像

推荐几个国内访问比较快的Maven仓库镜像
想必大家在使用Maven从仓库下载Jar的时候都感觉速度非常慢吧。前几年国内的开源中国还提供了免费的Maven镜像,但是由于运营成本过高,此Maven仓库在运营两年后被迫关闭了。不过高兴的是,阿里云在2016年08月悄悄上线了Maven仓库,点这里:http://maven.aliyun.com。我们可以把下面的配置复制到$MAVEN_HOME/conf/setting.xml里面:如果想及时

w397090770   7年前 (2017-02-16) 18204℃ 1评论6喜欢

HBase

HBase 中加盐(Salting)之后的表如何读取:Spark 篇

HBase 中加盐(Salting)之后的表如何读取:Spark 篇
在 《HBase 中加盐(Salting)之后的表如何读取:协处理器篇》 文章中介绍了使用协处理器来查询加盐之后的表,本文将介绍第二种方法来实现相同的功能。我们知道,HBase 为我们提供了 hbase-mapreduce 工程包含了读取 HBase 表的 InputFormat、OutputFormat 等类。这个工程的描述如下:This module contains implementations of InputFormat, OutputFormat, Mapper

w397090770   5年前 (2019-02-26) 3744℃ 0评论15喜欢

Hadoop

Hadoop2.2.0中HDFS的高可用性实现原理

Hadoop2.2.0中HDFS的高可用性实现原理
  在Hadoop2.0.0之前,NameNode(NN)在HDFS集群中存在单点故障(single point of failure),每一个集群中存在一个NameNode,如果NN所在的机器出现了故障,那么将导致整个集群无法利用,直到NN重启或者在另一台主机上启动NN守护线程。  主要在两方面影响了HDFS的可用性:  (1)、在不可预测的情况下,如果NN所在的机器崩溃了,整个

w397090770   11年前 (2013-11-14) 10514℃ 3评论22喜欢

Hadoop

Apache Avro使用入门指南

Apache Avro使用入门指南
  Avro有C, C++, C#, Java, PHP, Python, and Ruby等语言的实现,本文只简单介绍如何在Java中使用Avro进行数据的序列化(data serialization)。本文使用的是Avro 1.7.4,这是写这篇文章时最新版的Avro。读完本文,你将会学到如何使用Avro编译模式、如果用Avro序列化和反序列化数据。一、准备项目需要的jar包  文本的例子需要用到的Jar包有这四

w397090770   10年前 (2014-04-08) 44730℃ 4评论38喜欢

Scala

Scala编译器是如何解析for循环语句

Scala编译器是如何解析for循环语句
  你可能会在Scala中经常使用for循环已经,所以理解Scala编译器是如何解析for循环语句是非常重要的。我们记住以下四点规则即可:  1、对集合进行简单的for操作,Scala编译器会将它翻译成对集合进行foreach操作;  2、带有guard的for循环,编译器会将它翻译成一序列的withFilter操作,紧接着是foreach操作;  3、带有yield的for

w397090770   9年前 (2015-10-20) 3932℃ 0评论6喜欢

Hadoop

编写简单的Mapreduce程序并部署在Hadoop2.2.0上运行

编写简单的Mapreduce程序并部署在Hadoop2.2.0上运行
  经过几天的折腾,终于配置好了Hadoop2.2.0(如何配置在Linux平台部署Hadoop请参见本博客《在Fedora上部署Hadoop2.2.0伪分布式平台》),今天主要来说说怎么在Hadoop2.2.0伪分布式上面运行我们写好的Mapreduce程序。先给出这个程序所依赖的Maven包:[code lang="JAVA"]<dependencies> <dependency> <groupId>org.apache.hadoop</groupId>

w397090770   11年前 (2013-10-29) 20269℃ 6评论10喜欢

算法

社会关系网之中心性分析法

社会关系网之中心性分析法
  经常研究社会关系网的同学应该对社会关系网中的分析法比较熟悉,最近在写毕业设计用到了这方面的知识,所以在这做个总结。社会关系网是一门研究社会中社会实体(称为参与者)以及他们之间的活动与关系的学问。这种关系和活动可以用网络或者图来进行表示,其中,每一个顶点用来表示一个参与者,而一条边的链接用

w397090770   11年前 (2013-05-06) 11480℃ 0评论17喜欢

Spark

Spark源码分析:多种部署方式之间的区别与联系(2)

Spark源码分析:多种部署方式之间的区别与联系(2)
《Spark源码分析:多种部署方式之间的区别与联系(1)》《Spark源码分析:多种部署方式之间的区别与联系(2)》  在《Spark源码分析:多种部署方式之间的区别与联系(1)》我们谈到了SparkContext的初始化过程会做好几件事情(这里就不再列出,可以去《Spark源码分析:多种部署方式之间的区别与联系(1)》查看),其中做了一件重要

w397090770   10年前 (2014-10-28) 7585℃ 6评论8喜欢

大数据

过往记忆大数据,2019年原创精选69篇

过往记忆大数据,2019年原创精选69篇
这是一份迟来的年终报告,本来昨天就要发出来的,实在是没忙开,今天我就把它当作新年礼物送给各位看官,以下文章都是我结合日常工作、学习,每当“夜深人静"的时候写出来的一些小总结,希望能给大家一些技术上的帮助。关注我的朋友都知道,我在今年八月份发了一篇文章,里面整理了我五年来写在这个公众号上面的原

w397090770   4年前 (2020-01-04) 1327℃ 0评论1喜欢

Hadoop

Apache Hadoop 3.0.0-beta1 正式发布,下一个版本(GA)即可在线上使用

Apache Hadoop 3.0.0-beta1 正式发布,下一个版本(GA)即可在线上使用
就在前几天,Apache Hadoop 3.0.0-beta1 正式发布了,这是3.0.0的第一个 beta 版本。本版本基于 3.0.0-alpha4 版本进行了Bug修复、性能提升以及其他一些加强。好消息是,这个版本之后会正式发行 Apache Hadoop 3.3.0 GA(General Availability,正式发布的版本)版本,这意味着我们就可以正式在线上使用 Hadoop 3.0.0 了!目前预计 Apache Hadoop 3.3.0 GA 将会在 201

w397090770   7年前 (2017-10-11) 2184℃ 0评论15喜欢

Spark

Spark Task序列化代码分析

Spark Task序列化代码分析
  Spark的作业会通过DAGScheduler的处理生产许多的Task并构建成DAG图,而分割出的Task最终是需要经过网络分发到不同的Executor。在分发的时候,Task一般都会依赖一些文件和Jar包,这些依赖的文件和Jar会对增加分发的时间,所以Spark在分发Task的时候会将Task进行序列化,包括对依赖文件和Jar包的序列化。这个是通过spark.closure.serializer参数

w397090770   8年前 (2015-11-16) 6171℃ 0评论8喜欢

Hive

Hive中order by,Sort by,Distribute by和Cluster By介绍

Hive中order by,Sort by,Distribute by和Cluster By介绍
  我们在使用Hive的时候经常会使用到order by、Sort by、Distribute by和Cluster By,本文对其含义进行介绍。order by  Hive中的order by和数据库中的order by 功能一致,按照某一项或者几项排序输出,可以指定是升序或者是降序排序。它保证全局有序,但是进行order by的时候是将所有的数据全部发送到一个Reduce中,所以在大数据量的情

w397090770   8年前 (2015-11-19) 13965℃ 0评论16喜欢

ClickHouse

京东 ClickHouse 高可用实践

京东 ClickHouse 高可用实践
导读:京东OLAP采取ClickHouse为主Doris为辅的策略,有3000台服务器,每天亿次查询万亿条数据写入,广泛服务于各个应用场景,经过历次大促考验,提供了稳定的服务。本文介绍了ClickHouse在京东的高可用实践,包括选型过程、集群部署、高可用架构、问题和规划。01应用场景和选型京东数据分析的场景非常多,在交易、流量、大屏

zz~~   3年前 (2021-10-08) 1032℃ 0评论3喜欢