欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

资料分享

Scio:Apache Beam和Google Cloud Dataflow的Scala API

Scio:Apache Beam和Google Cloud Dataflow的Scala API
我们都知道,目前 Apache Beam 仅仅提供了 Java 和 Python 两种语言的 API,尚不支持 Scala 相关的 API。基于此全球最大的流音乐服务商 Spotify 开发了 Scio ,其为 Apache Beam 和 Google Cloud Dataflow 提供了Scala API,使得我们可以直接使用 Scala 来编写 Beam 应用程序。Scio 开发受 Apache Spark 和 Scalding 的启发,目前最新版本是 Scio 0.3.0,0.3.0版本之前依赖

w397090770   7年前 (2017-07-25) 1241℃ 0评论7喜欢

Docker

八个基本的 Docker 容器管理命令

八个基本的 Docker 容器管理命令
在本文中,我将介绍八个基本的 Docker 容器命令,这些命令对于在 Docker 容器上执行基本操作很有用,比如运行,列表,停止,查看日志,删除等等。如果你对 Docker 的概念不熟悉,推荐你推荐你到网上查看相关的入门介绍,这篇文章就不详细介绍了。 现在我们赶快进入要了解的命令中:如果想及时了解Spark、Hadoop或者HBase相关的

w397090770   6年前 (2018-06-27) 1731℃ 0评论6喜欢

Spark

历时一年 Apache Spark 3.3.0 正式发布,新特性详解

历时一年 Apache Spark 3.3.0 正式发布,新特性详解
Apache Spark 3.3.0 从2021年07月03日正式开发,历时近一年,终于在2022年06月16日正式发布,在 Databricks Runtime 11.0 也同步发布。这个版本一共解决了 1600 个 ISSUE,感谢 Apache Spark 社区为 Spark 3.3 版本做出的宝贵贡献。根据经验,这个版本应该不是稳定版,想在线上环境使用的小伙伴们可以再等等。如果想及时了解Spark、Hadoop或者HBase相关

w397090770   2年前 (2022-06-18) 1681℃ 0评论2喜欢

Kafka

在Kafka中使用Avro编码消息:Spark篇

在Kafka中使用Avro编码消息:Spark篇
在《在Kafka中使用Avro编码消息:Producter篇》 和 《在Kafka中使用Avro编码消息:Consumer篇》 两篇文章里面我介绍了直接使用原生的 Kafka API生成和消费 Avro 类型的编码消息,本文将继续介绍如何通过 Spark 从 Kafka 中读取这些 Avro 格式化的消息。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop其

zz~~   7年前 (2017-09-26) 4726℃ 0评论19喜欢

Kafka

Kafka剖析:Kafka背景及架构介绍

Kafka剖析:Kafka背景及架构介绍
《Kafka剖析:Kafka背景及架构介绍》《Kafka设计解析:Kafka High Availability(上)》《Kafka设计解析:Kafka High Availability (下)》《Kafka设计解析:Replication工具》《Kafka设计解析:Kafka Consumer解析》  Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源

w397090770   9年前 (2015-04-08) 7712℃ 2评论16喜欢

常用工具

Linux安装软件依赖问题解决办法

Linux安装软件依赖问题解决办法
Linux安装软件依赖问题解决办法[code lang="java"][wyp@localhost Downloads]$ rpm -i --aid AdobeReader_chs-8.1.7-1.i486.rpm error: Failed dependencies: libatk-1.0.so.0 is needed by AdobeReader_chs-8.1.7-1.i486 libc.so.6 is needed by AdobeReader_chs-8.1.7-1.i486 libc.so.6(GLIBC_2.0) is needed by AdobeReader_chs-8.1.7-1.i486 libc.so.6(GLIBC_2.1) is needed by AdobeReader_chs-8.1.7-1.i486 libc.so.6(GLIBC_2.1.3) is n

w397090770   10年前 (2014-10-09) 7765℃ 0评论4喜欢

Spark

Spark SQL中Join常用的几种实现

Spark SQL中Join常用的几种实现
引言Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。SparkSQL作为大数据领域的SQL实现,自然也对Join操作做了不少优化,今天主要看一下在SparkSQL中对于Join,常见的3种实现。Spark SQL中Join常用的实现Broadc

zz~~   7年前 (2017-07-09) 8273℃ 0评论16喜欢

网络编程

使用HttpClient通过post方式发送json数据

使用HttpClient通过post方式发送json数据
  有时候我们在发送HTTP请求的时候会使用到POST方式,如果是传送普通的表单数据那将很方便,直接将参数到一个Key-value形式的Map中即可。但是如果我们需要传送的参数是Json格式的,会稍微有点麻烦,我们可以使用HttpClient类库提供的功能来实现这个需求。假设我们需要发送的数据是:[code lang="java"]{ "blog": "",

w397090770   9年前 (2015-06-01) 84568℃ 0评论69喜欢

PostgreSQL

Spark SQL整合PostgreSQL

Spark SQL整合PostgreSQL
  本博客的《Spark与Mysql(JdbcRDD)整合开发》和《Spark RDD写入RMDB(Mysql)方法二》文章中介绍了如何通过Spark读写Mysql中的数据。  在生产环境下,很多公司都会使用PostgreSQL数据库,这篇文章将介绍如何通过Spark获取PostgreSQL中的数据。我将使用Spark 1.3中的DataFrame(也就是之前的SchemaRDD),我们可以通过SQLContext加载数据库中的数据,

w397090770   9年前 (2015-05-23) 12955℃ 0评论11喜欢

Spark

Spark函数讲解:collect

Spark函数讲解:collect
  将RDD转成Scala数组,并返回。函数原型[code lang="scala"]def collect(): Array[T]def collect[U: ClassTag](f: PartialFunction[T, U]): RDD[U][/code]  collect函数的定义有两种,我们最常用的是第一个。第二个函数需要我们提供一个标准的偏函数,然后保存符合的元素到MappedRDD中。实例[code lang="scala"]/** * User: 过往记忆 * Date: 15-03-11 * Ti

w397090770   9年前 (2015-03-11) 29741℃ 0评论22喜欢

wordpress开发

网站建设:强烈推荐使用七牛云存储

网站建设:强烈推荐使用七牛云存储
七牛云存储直达地址:(点击这里)  随着网站建设的使用时间越来越长,我们的网站可能使用了越来越多的图片、CSS以及js文件,虽然这些的大小都不大,但如果请求的次数多了,这些文件的大小加起来就是一个可观的大小了!而且,如果你们页面图片或者js等文件多了,并且你的网站访问速度不太快的话,这会严重影响到

w397090770   9年前 (2015-01-12) 8759℃ 0评论11喜欢

Hadoop

Hive:从文件中加载执行语句

Hive:从文件中加载执行语句
  Hive可以运行保存在文件里面的一条或多条的语句,只要用-f参数,一般情况下,保存这些Hive查询语句的文件通常用.q或者.hql后缀名,但是这不是必须的,你也可以保存你想要的后缀名。假设test文件里面有一下的Hive查询语句:[code lang="JAVA"]select * from p limit 10;select count(*) from p;[/code]那么我们可以用下面的命令来查询:[cod

w397090770   11年前 (2013-11-06) 10022℃ 2评论5喜欢

Java

[电子书]Apache Spark 2.x for Java Developers PDF下载

[电子书]Apache Spark 2.x for Java Developers PDF下载
本书于2017-07由Packt Publishing出版,作者Sourav Gulati, Sumit Kumar,全书662页。关注大数据猿(bigdata_ai)公众号及时获取最新大数据相关电子书、资讯等通过本书你将学到以下知识Process data using different file formats such as XML, JSON, CSV, and plain and delimited text, using the Spark core Library.Perform analytics on data from various data sources such as Kafka, and Flume

zz~~   7年前 (2017-08-22) 6431℃ 0评论27喜欢

Solr

Apache Solr 将索引数据写入到 HDFS

Apache Solr 将索引数据写入到 HDFS
在 《Apache Solr 安装部署及索引创建》 文章中,我们搭建好一个单机版的 Solr 服务,并创建好一个名为 iteblog 的 core,iteblog 的索引数据是存放在 instanceDir 参数的 data 目录下。这会有以下几个问题:如果索引数据很大,可能本地的文件夹无法存储索引数据存放在本地,可能会导致索引数据丢失等幸运的是,Solr 支持将索引和事

w397090770   6年前 (2018-07-25) 1684℃ 0评论4喜欢

资料分享

MathJax:在浏览器上显示LaTeX等数学公式的JS引擎

MathJax:在浏览器上显示LaTeX等数学公式的JS引擎
什么是MathJax  MathJax是一个显示网络上数学公式的开源JavaScript引擎库,它可以在所有浏览器上面工作,其中就支持LaTeX,MathML和AsciiMath 符号,里面的数字会被MathJax使用JavaScript引擎解析成HTML,SVG或者是MathML 方程式,然后在现代的浏览器里面显示。 它的设计目标是利用最新的web技术,构建一个支持math的web平台。支持主要的浏览

w397090770   9年前 (2015-04-15) 34421℃ 3评论42喜欢

Hadoop

NodeManager节点自身健康状态检测机制

NodeManager节点自身健康状态检测机制
每个 NodeManager 节点内置提供了检测自身健康状态的机制(详情参见 NodeHealthCheckerService);通过这种机制,NodeManager 会将诊断出来的监控状态通过心跳机制汇报给 ResourceManager,然后ResourceManager 端会通过 RMNodeEventType.STATUS_UPDATE 更新 NodeManager 的状态;如果此时的 NodeManager 节点不健康,那么 ResourceManager 将会把 NodeManager 状态变为 NodeState

w397090770   7年前 (2017-06-08) 4070℃ 0评论18喜欢

Spark

Spark配置属性详解(1)

Spark配置属性详解(1)
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 但是Spark官方文档给出的属性只是简单的介绍了一下含义,许多细节并没有涉及到。本文及以后几篇文章将会对Spark官方的各个属性进行说明介绍。以下是根据Spark 1.1.0文档中的属性进行说明。Application相关属性绝大多数的属性控制应用程序的内部设置,并且默认值

w397090770   10年前 (2014-09-25) 17921℃ 1评论20喜欢

Kafka

Spring Boot 中读写 Kafka header 信息

Spring Boot 中读写 Kafka header 信息
Apache Kafka 从 0.11.0.0 版本开始支持在消息中添加 header 信息,具体参见 KAFKA-4208。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop本文将介绍如何使用 spring-kafka 在 Kafka Message 中添加或者读取自定义 headers。本文使用各个系统的版本为:Spring Kafka: 2.1.4.RELEASESpring Boot: 2.0.0.RELEASEApache Kafka: kafka

w397090770   6年前 (2018-05-13) 4482℃ 0评论0喜欢

ClickHouse

京东 ClickHouse 高可用实践

京东 ClickHouse 高可用实践
导读:京东OLAP采取ClickHouse为主Doris为辅的策略,有3000台服务器,每天亿次查询万亿条数据写入,广泛服务于各个应用场景,经过历次大促考验,提供了稳定的服务。本文介绍了ClickHouse在京东的高可用实践,包括选型过程、集群部署、高可用架构、问题和规划。01应用场景和选型京东数据分析的场景非常多,在交易、流量、大屏

zz~~   3年前 (2021-10-08) 1032℃ 0评论3喜欢

Kafka

Kafka: The Definitive Guide, 2nd Edition 下载

Kafka: The Definitive Guide, 2nd Edition 下载
《Kafka: The Definitive Guide, 2nd Edition》于 2021年11月由 O'Reilly Media 出版, ISBN 为 9781492043089 ,全书 486 页。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop图书介绍Every enterprise application creates data, whether it consists of log messages, metrics, user activity, or outgoing messages. Moving all this data is just as important as the

w397090770   2年前 (2022-03-22) 957℃ 0评论3喜欢

Spark

Apache Spark 3.0 R 的向量化 IO

Apache Spark 3.0 R 的向量化 IO
R 是数据科学中最流行的计算机语言之一,专门用于统计分析和一些扩展,如用于数据处理和机器学习任务的 RStudio addins 和其他 R 包。此外,它使数据科学家能够轻松地可视化他们的数据集。通过在 Apache Spark 中使用 SparkR,可以很容易地扩展 R 代码。要交互式地运行作业,可以通过运行 R shell 轻松地在分布式集群中运行 R 的作业

w397090770   4年前 (2020-07-09) 734℃ 0评论2喜欢

Kafka

KSQL介绍:面向Apache Kafka的开源Streaming SQL引擎

KSQL介绍:面向Apache Kafka的开源Streaming SQL引擎
我非常高兴地宣布KSQL,这是面向Apache Kafka的一种数据流SQL引擎。KSQL降低了数据流处理这个领域的准入门槛,为使用Kafka处理数据提供了一种简单的、完全交互的SQL界面。你不再需要用Java或Python之类的编程语言编写代码了!KSQL具有这些特点:开源(采用Apache 2.0许可证)、分布式、可扩展、可靠、实时。它支持众多功能强大的数据流

w397090770   7年前 (2017-08-30) 7815℃ 0评论22喜欢

Hadoop

Hadoop安全模式详解及配置

Hadoop安全模式详解及配置
  在《Hadoop 1.x中fsimage和edits合并实现》文章中提到,Hadoop的NameNode在重启的时候,将会进入到安全模式。而在安全模式,HDFS只支持访问元数据的操作才会返回成功,其他的操作诸如创建、删除文件等操作都会导致失败。  NameNode在重启的时候,DataNode需要向NameNode发送块的信息,NameNode只有获取到整个文件系统中有99.9%(可以配

w397090770   10年前 (2014-03-13) 17203℃ 3评论16喜欢

Java

CentOS 6.4安装谷歌浏览器(Chrome)

CentOS 6.4安装谷歌浏览器(Chrome)
  Google的Chrome浏览器很不错,很多人都希望能在CentOS里面用上chrome,于是用下面的命令来安装Chrome:[code lang="JAVA"]yum install google-chrome-stable[/code]但是一般都会出现以下的情况:[code lang="JAVA"]Error: Package: google-chrome-stable-28.0.1500.95-213514.x86_64 (google64) Requires: libstdc++.so.6(GLIBCXX_3.4.15)(64bit) You could try using --skip-broken to work

w397090770   11年前 (2013-10-24) 6748℃ 1评论6喜欢

Spark

RDD:基于内存的集群计算容错抽象

RDD:基于内存的集群计算容错抽象
  本文转载自:http://shiyanjun.cn/archives/744.html  该论文来自Berkeley实验室,英文标题为:Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing。摘要  本文提出了分布式内存抽象的概念——弹性分布式数据集(RDD,Resilient Distributed Datasets),它具备像MapReduce等数据流模型的容错特性,并且允许开发人员

w397090770   10年前 (2014-10-30) 13648℃ 0评论7喜欢

hudi

Apache Hudi: Uber 开源的大数据增量处理框架

Apache Hudi: Uber 开源的大数据增量处理框架
随着 Apache Parquet 和 Apache ORC 等存储格式以及 Presto 和 Apache Impala 等查询引擎的发展,Hadoop 生态系统有可能成为一个面向几分钟延迟工作负载的通用统一服务层。但是,为了实现这一点,需要在 Hadoop 分布式文件系统(HDFS)中实现高效、低延迟的数据摄取和数据准备。为了解决这个问题,Uber 构建了Hudi(被称为“hoodie”),这是一个

w397090770   4年前 (2019-11-21) 5050℃ 2评论9喜欢

Hadoop

Apache Hadoop 3.0.0 GA版正式发布,可以部署到线上

Apache Hadoop 3.0.0 GA版正式发布,可以部署到线上
今天凌晨 Apache Hadoop 3.0.0 GA 版本正式发布,这意味着我们就可以正式在线上使用 Hadoop 3.0.0 了!这个版本是 Apache Hadoop 3.0.0 的第一个稳定版本,有很多重大的改进,比如支持 EC、支持多于2个的NameNodes、Intra-datanode均衡器等等。下面是关于 Apache Hadoop 3.0.0 GA 的正式介绍。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微

w397090770   6年前 (2017-12-15) 3383℃ 1评论38喜欢

Spark

北京第四次Spark meetup会议资料分享

北京第四次Spark meetup会议资料分享
  《Spark meetup(Beijing)资料分享》  《Spark meetup(杭州)PPT资料分享》  《北京第二次Spark meetup会议资料分享》  《北京第三次Spark meetup会议资料分享》  《北京第四次Spark meetup会议资料分享》  《北京第五次Spark meetup会议资料分享》》  《北京第六次Spark meetup会议资料分享》  第四次北京Spark meeting会议

w397090770   9年前 (2014-12-16) 10249℃ 73评论8喜欢

Flink

Flink Forward 201704所有PPT资料下载

Flink Forward 201704所有PPT资料下载
这次整理的PPT来自于2017年04月10日至11日在San Francisco进行的flink forward会议,这种性质的会议和大家熟知的Spark summit类似。本次会议的官方日程参见:http://sf.flink-forward.org/kb_day/day1/。因为原始的PPT是在http://www.slideshare.net/网站,这个网站需要翻墙;为了学习交流的方便,这里收集了本次会议所有课下载的PPT(共27个),希望对大家有所

w397090770   7年前 (2017-04-20) 2707℃ 0评论8喜欢

Delta Lake

Spark Delta Lake 现在由Linux基金会托管,将成为数据湖的开放标准

Spark Delta Lake 现在由Linux基金会托管,将成为数据湖的开放标准
如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop一年一度的 Spark + AI Summit Europe 峰会于2019年10月15-17日在欧洲的阿姆斯特丹举行。在10年16日 数砖和 Linux 基金会共同宣布 Delta Lake 和 将成为一个 Linux 基金会项目(参考:The Delta Lake Project Turns to Linux Foundation to Become the Open Standard for Data Lakes)。该项

w397090770   5年前 (2019-10-16) 1207℃ 0评论2喜欢