欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

Hadoop

Apache Hadoop 3.0.0 GA版正式发布,可以部署到线上

Apache Hadoop 3.0.0 GA版正式发布,可以部署到线上
今天凌晨 Apache Hadoop 3.0.0 GA 版本正式发布,这意味着我们就可以正式在线上使用 Hadoop 3.0.0 了!这个版本是 Apache Hadoop 3.0.0 的第一个稳定版本,有很多重大的改进,比如支持 EC、支持多于2个的NameNodes、Intra-datanode均衡器等等。下面是关于 Apache Hadoop 3.0.0 GA 的正式介绍。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微

w397090770   6年前 (2017-12-15) 3383℃ 1评论38喜欢

Hadoop

Apache Hadoop 3.0.0-beta1 正式发布,下一个版本(GA)即可在线上使用

Apache Hadoop 3.0.0-beta1 正式发布,下一个版本(GA)即可在线上使用
就在前几天,Apache Hadoop 3.0.0-beta1 正式发布了,这是3.0.0的第一个 beta 版本。本版本基于 3.0.0-alpha4 版本进行了Bug修复、性能提升以及其他一些加强。好消息是,这个版本之后会正式发行 Apache Hadoop 3.3.0 GA(General Availability,正式发布的版本)版本,这意味着我们就可以正式在线上使用 Hadoop 3.0.0 了!目前预计 Apache Hadoop 3.3.0 GA 将会在 201

w397090770   7年前 (2017-10-11) 2184℃ 0评论15喜欢

Flume

Flume-0.9.4分布式安装与配置手册

Flume-0.9.4分布式安装与配置手册
  Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。  Flume主要有以下几类组件:  (1)、Master: 负责配置及通信管理,是集群的控制器,并支持多mas

w397090770   10年前 (2014-01-23) 6757℃ 1评论3喜欢

Spark

Spark 1.X 大数据平台V2百度网盘下载[完整版]

Spark 1.X 大数据平台V2百度网盘下载[完整版]
  本课程内容全面涵盖了Spark生态系统的概述及其编程模型,深入内核的研究,Spark on Yarn,Spark Streaming流式计算原理与实践,Spark SQL,基于Spark的机器学习,图计算,Techyon,Spark的多语言编程以及SparkR的原理和运行。面向研究Spark的学员,它是一门非常有学习指引意义的课程。  本文的视频是录制版本的,所以是画面有些不清楚。

w397090770   9年前 (2015-03-23) 43749℃ 19评论69喜欢

Spark

Spark 背后的商业公司收购的 Redash 是个啥?

Spark 背后的商业公司收购的 Redash 是个啥?
在2020年6月24日的 Spark AI summit Keynote 上,数砖的首席执行官 Ali Ghodsi 宣布其收购了 Redash 开源产品的背后公司 Redash!如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop通过这次收购,Redash 加入了 Apache Spark、Delta Lake 和 MLflow,创建了一个更大、更繁荣的开源系统,为数据团队提供了同类中最好的

w397090770   4年前 (2020-06-26) 827℃ 0评论3喜欢

Presto

Presto multi-master Coordinator 简介

Presto multi-master Coordinator 简介
背景Presto 的架构最初只支持一个 coordinator 和多个 workers。多年来,这种方法一直很有效,但也带来了一些新挑战。使用单个 coordinator,集群可以可靠地扩展到一定数量的 worker。但是运行复杂、多阶段查询的大集群可能会使供应不足的 coordinator 不堪重负,因此需要升级硬件来支持工作负载的增加。单个 coordinator 存在单点故障

zz~~   2年前 (2022-04-22) 792℃ 0评论1喜欢

ElasticSearch

ElasticSearch系列文章:基本介绍

ElasticSearch系列文章:基本介绍
  ElasticSearch是一个基于Lucene构建的开源的分布式搜索和分析引擎,具备高可靠性和扩展性。它允许你快速准实时存储,搜索和分析海量数据。它通常作为底层引擎/计算来驱动企业级复杂搜索特性和需求。  下面列举一些使用ElasticSearch的应用场景:  1、运行一个在线的网店,你允许客户能够去搜索你销售的商品。在这

w397090770   8年前 (2016-08-09) 2170℃ 0评论3喜欢

ElasticSearch

ElasticSearch系列文章:搜索API

ElasticSearch系列文章:搜索API
搜索API允许开发者执行搜索查询,返回匹配查询的搜索结果。这既可以通过查询字符串也可以通过查询体实现。多索引多类型所有的搜索API都可以跨多个类型使用,也可以通过多索引语法跨索引使用。例如,我们可以搜索twitter索引的跨类型的所有文档。[code lang="java"]$ curl -XGET 'http://localhost:9200/twitter/_search?q=user:kimchy'[/

zz~~   8年前 (2016-09-22) 1651℃ 0评论2喜欢

Spark

Spark快速入门指南(Quick Start Spark)

Spark快速入门指南(Quick Start Spark)
  这个文档只是简单的介绍如何快速地使用Spark。在下面的介绍中我将介绍如何通过Spark的交互式shell来使用API。Basics  Spark shell提供一种简单的方式来学习它的API,同时也提供强大的方式来交互式地分析数据。Spark shell支持Scala和Python。可以通过以下方式进入到Spark shell中。[code lang="JAVA"]# 本文原文地址:https://www.iteblog.com/ar

w397090770   10年前 (2014-06-10) 77030℃ 26评论156喜欢

Hive

Hive几种数据导出方式

Hive几种数据导出方式
  写在前面的话,学Hive这么久了,发现目前国内还没有一本完整的介绍Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关Hive的资料,如果对Hive的东西感兴趣,请关注本博客。/archives/tag/hive的那些事在本博客的《Hive几种数据导入方式》文章

w397090770   10年前 (2014-02-23) 76051℃ 5评论49喜欢

HBase

Apache HBase中等对象存储MOB压缩分区策略介绍

Apache HBase中等对象存储MOB压缩分区策略介绍
关于 HBase 的 MOB 具体使用可以参见 《HBase MOB(Medium Object)使用入门指南》介绍Apache HBase 中等对象存储(Medium Object Storage, 下面简称 MOB)的特性是由 HBASE-11339 引入的。该功能可以提高 HBase 对中等尺寸文件的低延迟读写访问(理想情况下,文件大小为 100K 到 10MB),这个功能使得 HBase 非常适合存储文档,图片和其他中等尺寸的对

w397090770   6年前 (2018-08-27) 2268℃ 0评论2喜欢

Spark

Apache Spark 2.4 内置的 Avro 数据源介绍

Apache Spark 2.4 内置的 Avro 数据源介绍
Apache Avro 是一种流行的数据序列化格式。它广泛用于 Apache Spark 和 Apache Hadoop 生态系统,尤其适用于基于 Kafka 的数据管道。从 Apache Spark 2.4 版本开始,Spark 为读取和写入 Avro 数据提供内置支持。新的内置 spark-avro 模块最初来自 Databricks 的开源项目Avro Data Source for Apache Spark。除此之外,它还提供以下功能:新函数 from_avro() 和 to_avro()

w397090770   5年前 (2018-12-11) 3006℃ 0评论9喜欢

Flume

Flume和Morphlines实现数据的实时ETL

Flume和Morphlines实现数据的实时ETL
本文来自徐宇辉(微信号:xuyuhui263)的投稿,目前在中国移动从事数字营销的业务支撑工作,感谢他的文章。Apache Flume简介Apache Flume是一个Apache的开源项目,是一个分布的、可靠的软件系统,主要目的是从大量的分散的数据源中收集、汇聚以及迁移大规模的日志数据,最后存储到一个集中式的数据系统中。Apache Flume是由

zz~~   7年前 (2017-03-08) 7175℃ 0评论17喜欢

wordpress开发

公告:将新浪微博登录嵌入到WordPress

公告:将新浪微博登录嵌入到WordPress
  经过一晚上的奋战终于通过调用新浪登录的登录API替代Wordpress内置的登录注册模块。只要你有新浪微博帐号即可绑定到本博客。添加微博登录功能主要解决两个问题:(1)、方便用户登录/注册;(2)、防止机器人注册本网站。以下是登录页面图:  点击上面使用微博帐号登录即可调用微博登录。如果你是第一次登录,需

w397090770   9年前 (2015-04-04) 4935℃ 0评论3喜欢

Idea

IntelliJ IDEA 2020.3 正式版发布,多项超酷新功能

IntelliJ IDEA 2020.3 正式版发布,多项超酷新功能
2020年12月01日,IntelliJ IDEA 2020.3 正式发布,这是2020年的第三个里程碑版本。2020年其他两个版本可以参见IntelliJ IDEA 2020.2 稳定版发布 和 IntelliJ IDEA 2020.1 稳定版发布。本文主要介绍 IntelliJ IDEA 2020.3 的新功能。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop用户体验重新设置欢迎界面这个

w397090770   3年前 (2020-12-10) 961℃ 0评论0喜欢

Spark Streaming

上海大数据流处理(Big Data Streaming)资料分享

上海大数据流处理(Big Data Streaming)资料分享
  第二期上海大数据流处理(Shanghai Big Data Streaming 2nd Meetup)于2015年12月6日下午12:45在上海世贸大厦22层英特尔­(中国)有限公司延安西路2299号进行,分享的主题如下:一、演讲者1/Speaker 1: 张天伦 英特尔大数据组软件工程师  个人介绍/BIO: 英特尔开源流处理系统Gearpump开发者,长期关注大数据领域和分布式计算,专注于流处理

w397090770   8年前 (2015-12-16) 3647℃ 0评论5喜欢

Flink

Flink快速上手之Scala API使用

Flink快速上手之Scala API使用
  本文将介绍如何通过简单地几步来开始编写你的 Flink Scala 程序。构建工具  Flink工程可以使用不同的工具进行构建,为了快速构建Flink工程, Flink为下面的构建工具分别提供了模板:  1、SBT  2、Maven这些模板可以帮助我们组织项目结构并初始化一些构建文件。SBT创建工程1、使用Giter8可以使用下

w397090770   8年前 (2016-04-07) 10087℃ 0评论8喜欢

Hadoop

Hadoop元数据合并异常及解决方法

Hadoop元数据合并异常及解决方法
  这几天观察了一下Standby NN上面的日志,发现每次Fsimage合并完之后,Standby NN通知Active NN来下载合并好的Fsimage的过程中会出现以下的异常信息:[code lang="JAVA"]2014-04-23 14:42:54,964 ERROR org.apache.hadoop.hdfs.server.namenode.ha. StandbyCheckpointer: Exception in doCheckpointjava.net.SocketTimeoutException: Read timed out at java.net.SocketInputStream.socketRead0(

w397090770   10年前 (2014-04-23) 7624℃ 2评论8喜欢

Spark

[电子书]Apache Spark Graph Processing PDF下载

[电子书]Apache Spark Graph Processing PDF下载
  Apache Spark Graph Processing图书由Rindra Ramamonjison所著,全书共148页;Packt Publishing出版社于2015年09月出版。  通过本书你将学习到以下内容  (1)、Write, build and deploy Spark applications with the Scala Build Tool.  (2)、Build and analyze large-scale network datasets  (3)、Analyze and transform graphs using RDD and graph-specific operations  (4)

w397090770   7年前 (2017-02-12) 1827℃ 0评论1喜欢

Spark

[电子书]Spark GraphX in Action PDF下载

[电子书]Spark GraphX in Action PDF下载
  Spark GraphX in Action开头介绍了GraphX库可以干什么,并通过例子介绍了如何以交互的方式使用GraphX 。阅读完本书,您将学习到很多实用的技术,用于增强应用程序和将机器学习算法应用于图形数据中。  本书包括了以下几个知识点:  (1)、Understanding graph technology  (2)、Using the GraphX API  (3)、Developing algorithms

w397090770   7年前 (2017-02-12) 4677℃ 0评论5喜欢

PostgreSQL

Spark SQL整合PostgreSQL

Spark SQL整合PostgreSQL
  本博客的《Spark与Mysql(JdbcRDD)整合开发》和《Spark RDD写入RMDB(Mysql)方法二》文章中介绍了如何通过Spark读写Mysql中的数据。  在生产环境下,很多公司都会使用PostgreSQL数据库,这篇文章将介绍如何通过Spark获取PostgreSQL中的数据。我将使用Spark 1.3中的DataFrame(也就是之前的SchemaRDD),我们可以通过SQLContext加载数据库中的数据,

w397090770   9年前 (2015-05-23) 12955℃ 0评论11喜欢

Spark

Spark 1.0.0于5月30日正式发布

Spark 1.0.0于5月30日正式发布
  Spark 1.0.0于5月30日正式发布,可以到http://spark.apache.org/downloads.html页面下载。Spark 1.0.0是一个主要版本,它标志着Spark已经进入了1.X的时代。这个版本的Spark带来了很多新特性和强API的支持。 Spark 1.0加入了一个主要的组件: Spark SQL,这个组件支持在Spark上存储和操作结构化的数据。已有的标准库比如ML、Streaming和GraphX也得到了很大

w397090770   10年前 (2014-06-04) 5264℃ 1评论3喜欢

Presto

Presto 在车好多的实践

Presto 在车好多的实践
本文作者:车好多大数据 OLAP 团队-王培,由车好多大数据 OLAP 团队相关同事投稿。Presto 简介简介Presto 最初是由 Facebook 开发的一个分布式 SQL 执行引擎, 它被设计为用来专门进行高速、实时的数据分析,以弥补 Hive 在速度和对接多种数据源上的短板。发展历史如下:2012年秋季,Facebook启动Presto项目2013年冬季,Presto开源

w397090770   3年前 (2020-12-21) 843℃ 0评论3喜欢

Hadoop

Hadoop入门视频分享[共44集]

Hadoop入门视频分享[共44集]
  本博客分享的其他视频下载地址:《传智播客Hadoop实战视频下载地址[共14集]》、《传智播客Hadoop课程视频资料[共七天]》、《Hadoop入门视频分享[共44集]》、《Hadoop大数据零基础实战培训教程下载》、《Hadoop2.x 深入浅出企业级应用实战视频下载》、《Hadoop新手入门视频百度网盘下载[全十集]》  本博客收集到的Hadoop学习书

w397090770   10年前 (2014-01-04) 181919℃ 9评论307喜欢

开源软件

Apache Griffin:分布式系统的数据质量解决方案

Apache Griffin:分布式系统的数据质量解决方案
Apache Griffin 是开源的大数据数据质量解决方案,支持批处理和流模式,其是基于 Apache Hadoop 和 Apache Spark 构建,由 eBay 开发,并于 2016年12月07日进入 Apache 孵化。Griffin 提供了一个可以处理不同的任务,如定义数据质量模型,执行数据质量测量,自动化数据分析和验证,以及跨多个数据系统的统一数据质量可视化的全面的框架,旨在

w397090770   5年前 (2019-01-03) 9140℃ 3评论9喜欢

网络编程

使用HttpClient通过post方式发送json数据

使用HttpClient通过post方式发送json数据
  有时候我们在发送HTTP请求的时候会使用到POST方式,如果是传送普通的表单数据那将很方便,直接将参数到一个Key-value形式的Map中即可。但是如果我们需要传送的参数是Json格式的,会稍微有点麻烦,我们可以使用HttpClient类库提供的功能来实现这个需求。假设我们需要发送的数据是:[code lang="java"]{ "blog": "",

w397090770   9年前 (2015-06-01) 84568℃ 0评论69喜欢

数据结构

数据结构:块状链表

数据结构:块状链表
一、概述有时候我们需要设计这样一种数据结构:它能快速在要求位置插入或者删除一段数据。先考虑两种简单的数据结构:数组和链表。数组的优点是能够在O(1)的时间内找到所要执行操作的位置,但其缺点是无论是插入或删除都要移动之后的所有数据,复杂度是O(n)的。链表优点是能够在O(1)的时间内插入和删除一段数据,但缺点

w397090770   11年前 (2013-04-03) 5696℃ 0评论7喜欢

ElasticSearch

使用Hive读取ElasticSearch中的数据

使用Hive读取ElasticSearch中的数据
  本文将介绍如何通过Hive来读取ElasticSearch中的数据,然后我们可以像操作其他正常Hive表一样,使用Hive来直接操作ElasticSearch中的数据,将极大的方便开发人员。本文使用的各组件版本分别为 Hive0.12、Hadoop-2.2.0、ElasticSearch 2.3.4。  我们先来看看ElasticSearch中相关表的mapping:[code lang="bash"]{ "user": { "propert

w397090770   8年前 (2016-10-26) 17018℃ 0评论29喜欢