欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

Kafka

Spring Boot 中读写 Kafka header 信息

Spring Boot 中读写 Kafka header 信息
Apache Kafka 从 0.11.0.0 版本开始支持在消息中添加 header 信息,具体参见 KAFKA-4208。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop本文将介绍如何使用 spring-kafka 在 Kafka Message 中添加或者读取自定义 headers。本文使用各个系统的版本为:Spring Kafka: 2.1.4.RELEASESpring Boot: 2.0.0.RELEASEApache Kafka: kafka

w397090770   6年前 (2018-05-13) 4482℃ 0评论0喜欢

Java

你还在使用 JDK 7?JDK 13 都已经来了!五大新特性你最喜欢哪个 ?

你还在使用 JDK 7?JDK 13 都已经来了!五大新特性你最喜欢哪个 ?
就在昨天(2019年09月17日),JDK 13 已经处于 General Availability 状态,已经正式可用了。General Availability(简称 GA)是一种正式版本的命名,也就是官方开始推荐广泛使用了,我们熟悉的 MySQL 就用 GA 来命令其正式版本。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop从上图我们可以看到 JDK 13 带来了

w397090770   5年前 (2019-09-18) 1517℃ 0评论1喜欢

电子书

[电子书]Learning Spark Streaming PDF下载

[电子书]Learning Spark Streaming PDF下载
本书书名全名:Learning Spark Streaming:Best Practices for Scaling and Optimizing Apache Spark,于2017-06由 O'Reilly Media出版,作者 Francois Garillot, Gerard Maas,全书300页。本文提供的是本书的预览版。关注大数据猿(bigdata_ai)公众号及时获取最新大数据相关电子书、资讯等通过本书你将学到以下知识Understand how Spark Streaming fits in the big pictureLearn c

zz~~   7年前 (2017-10-18) 6350℃ 0评论20喜欢

Spark

What's new in Spark 3.2.0

What's new in Spark 3.2.0
本文来自 Kyligence 主办的 Data & AI Meetup(第二期),会议时间为 11月16日。本期会议特别邀请了 Spark 社区大佬范文臣带来 Spark 3.2.0 新特性的首发解读。范文臣,Databricks 开源组技术主管,Apache Spark PMC member,Spark 社区最活跃的贡献者之一,目前主要负责 Spark Core/SQL 的设计开发和开源社区管理。Spark 作为目前大数据领域使用最普及的

w397090770   2年前 (2021-11-30) 628℃ 0评论0喜欢

算法

水塘抽样(Reservoir Sampling)问题

水塘抽样(Reservoir Sampling)问题
  在高德纳的计算机程序设计艺术中,有如下问题:可否在一未知大小的集合中,随机取出一元素?。或者是Google面试题: I have a linked list of numbers of length N. N is very large and I don’t know in advance the exact value of N. How can I most efficiently write a function that will return k completely random numbers from the list(中文简化的意思就是:在不知道文件总行

w397090770   9年前 (2015-11-09) 10135℃ 0评论16喜欢

Guava

Gauva学习之SortedSetMultimap

Gauva学习之SortedSetMultimap
[caption id="attachment_756" align="aligncenter" width="195"] Gauva学习之SortedSetMultimap[/caption]  SortedSetMultimap是一个接口,它的继承关系如上所示。继承了SortedSetMultimap接口的类中key所对应的value是有序的。因为SortedSetMultimap的子类中key所对应的value是有序的,所以SortedSetMultimap重写了SetMultimap中的以下四个方法:[code lang="JAVA"]@OverrideSortedSet<

w397090770   11年前 (2013-09-27) 4036℃ 0评论3喜欢

Spark

上海第五次Spark meetup会议资料分享

上海第五次Spark meetup会议资料分享
  上海Spark Meetup第四次聚会将于2015年7月18日在太库科技创业发展有限公司举办,详细地址上海市浦东新区金科路2889弄3号长泰广场 C座12层,太库。本次聚会由七牛和Intel联合举办。大会主题  1、hadoop/spark生态的落地实践  王团结(七牛)七牛云数据平台工程师。主要负责数据平台的设计研发工作。关注大数据处理,高

w397090770   9年前 (2015-08-26) 2882℃ 0评论3喜欢

ElasticSearch

Elasticsearch 6.3 发布,你们要的 SQL 功能来了

Elasticsearch 6.3 发布,你们要的 SQL 功能来了
Elasticsearch 6.3 于前天正式发布,其中带来了很多新特性,详情请参见:https://www.elastic.co/blog/elasticsearch-6-3-0-released。这个版本最大的亮点莫过于内置支持 SQL 模块!我在早些时间就说过 Elasticsearch 将会内置支持 SQL,参见:ElasticSearch内置也将支持SQL特性。我们可以像操作 MySQL一样使用 Elasticsearch,这样我们就可以减少 DSL 的学习成本,

w397090770   6年前 (2018-06-15) 8870℃ 3评论12喜欢

Kafka

Apache Kafka 2.6.0 有哪些值得关心的变化

Apache Kafka 2.6.0 有哪些值得关心的变化
Apache Kafka 2.6.0 于2020年08月03日正式发布。在这个版本中,社区做了很多显著的性能改进,特别是当 Broker 有非常多的分区时。Broker 关闭性能得到了显著提高;当生产者使用压缩时,性能也得到了显著提高。ACL 使用的各个方面都有不同程度的提升,并且需要更少的内存。这个版本还增加了对 Java 14 的支持。在过去的几个版本中,社

w397090770   4年前 (2020-08-23) 816℃ 0评论0喜欢

Beam

为什么Google用Apache Beam彻底替换掉MapReduce

为什么Google用Apache Beam彻底替换掉MapReduce
  1月10日,Apache软件基金会宣布,Apache Beam成功孵化,成为该基金会的一个新的顶级项目,基于Apache V2许可证开源。  2003年,谷歌发布了著名的大数据三篇论文,史称三驾马车:Google FS、MapReduce、BigTable。虽然谷歌没有公布这三个产品的源码,但是她这三个产品的详细设计论文开启了全球的大数据时代!从Doug Cutting大神根据

w397090770   7年前 (2017-02-10) 1776℃ 0评论4喜欢

Spark

Spark 2.0技术预览:更容易、更快速、更智能

Spark 2.0技术预览:更容易、更快速、更智能
  在过去的几个月时间里,我们一直忙于我们所爱的大数据开源软件的下一个主要版本开发工作:Apache Spark 2.0。Spark 1.0已经出现了2年时间,在此期间,我们听到了赞美以及投诉。Spark 2.0的开发基于我们过去两年学到的:用户所喜爱的我们加倍投入;用户抱怨的我们努力提高。本文将总结Spark 2.0的三大主题:更容易、更快速、更智

w397090770   8年前 (2016-05-12) 8688℃ 2评论26喜欢

Hadoop

Hive0.11查询结果保存到文件并指定列之间的分隔符

Hive0.11查询结果保存到文件并指定列之间的分隔符
  在Hive0.11.0版本新引进了一个新的特性,也就是当用户将Hive查询结果输出到文件,用户可以指定列的分割符,而在之前的版本是不能指定列之间的分隔符,这样给我们带来了很大的不变,在Hive0.11.0之前版本我们一般是这样用的:[code lang="JAVA"]hive> insert overwrite local directory '/home/wyp/Documents/result'hive> select * from test;[/code]

w397090770   11年前 (2013-11-04) 20901℃ 9评论10喜欢

MongoDB

MongoDB 查看某个命令的运行统计信息

MongoDB 查看某个命令的运行统计信息
和 MySQL 以及其他计算引擎类似,MongoDB 给我们提供了 explain 命令来查看某个查询的执行计划,其使用也比较简单,具体如下:[code lang="bash"]db.collection.explain().<method(...)>[/code]explain 命令默认是打印出查询的 queryPlanner,也就是什么参数都不传递。从 3.5.5 版本开始,explain 命名还支持 executionStats 和 allPlansExecution 两种运行模式

w397090770   3年前 (2021-06-21) 244℃ 0评论0喜欢

Scala

几款Scala web框架

几款Scala web框架
Finatra  Finatra是一款基于TwitterServer和Finagle的快速、可测试的Scala异步框架。Finatra is a fast, testable, Scala services built on TwitterServer and Finagle.Play  Play是一款轻量级、无状态的WEB友好框架。使用Java和Scala可以很方便地创建web应用程序。Play is based on a lightweight, stateless, web-friendly architecture.Play Framework makes it easy to build web application

w397090770   8年前 (2015-12-25) 12450℃ 0评论15喜欢

Hive

图文介绍 SQL 的三种查询计划处理模型

图文介绍 SQL 的三种查询计划处理模型
我已经在之前的 《一条 SQL 在 Apache Spark 之旅(上)》、《一条 SQL 在 Apache Spark 之旅(中)》 以及 《一条 SQL 在 Apache Spark 之旅(下)》 这三篇文章中介绍了 SQL 从用户提交到最后执行都经历了哪些过程,感兴趣的同学可以去这三篇文章看看。这篇文章中我们主要来介绍 SQL 查询计划(Query Plan)常见的处理模型(processing model)。数

w397090770   4年前 (2020-05-13) 1603℃ 0评论6喜欢

Hive

Hive元数据升级

Hive元数据升级
  如果我们Hadoop的core-site.xml文件中的fs.defaultFS配置由于某种原因需要修改,比如Hadoop升级、重新命名fs.defaultFS等。也就是由hdfs://olditeblog变成hdfs://newiteblogle ,如下:[code lang="bash"]<property>  <name>fs.defaultFS</name>  <value>hdfs://olditeblog</value></property>变成<property>  <name>fs.defaultFS</

w397090770   9年前 (2015-08-27) 8466℃ 0评论14喜欢

Scala

[12-26]华东地区scala爱好者聚会

[12-26]华东地区scala爱好者聚会
活动内容2015年下半年华东地区scala爱好者聚会,这次活动有杭州九言科技(代表作是In App)提供场地。本次活动内容不局限scala也包含一些创业公司的技术架构地点:杭州西湖区万塘路8号黄龙时代广场A座1802时间:2015年12月26日 13:00 ~ 2015年12月26日 17:30限制: 限额35人费用:免费活动安排1) 《scala和storm下的流式计算

w397090770   8年前 (2015-12-16) 2385℃ 0评论6喜欢

Spark

Apache Spark 3.1 中 Structured Streaming 方面的改进

Apache Spark 3.1 中 Structured Streaming 方面的改进
Apache Spark 3.1.x 版本发布到现在已经过了两个多月了,这个版本继续保持使得 Spark 更快,更容易和更智能的目标,Spark 3.1 的主要目标如下:提升了 Python 的可用性;加强了 ANSI SQL 兼容性;加强了查询优化;Shuffle hash join 性能提升;History Server 支持 structured streaming更多详情请参见这里。在这篇博文中,我们总结了3.1版本中

w397090770   3年前 (2021-05-16) 669℃ 0评论2喜欢

网站建设

过往记忆博客微信小程序正式上线

过往记忆博客微信小程序正式上线
经过几个星期的开发,本博客微信小程序(过往记忆大数据技术博客)正式上线了!至此大家可以通过微信公众号、微信小程序等方式访问本博客了。下面来看看本博客微信公众号的一些预览:微信小程序首页在首页可以查看本博客最新的文章,热门文章以及搜索等。文章页文章页可以文章的详情,功

w397090770   6年前 (2018-01-28) 1890℃ 0评论7喜欢

Alluxio

Alluxio 对 Presto 的查询性能加速测试报告

Alluxio 对 Presto 的查询性能加速测试报告
金山云-企业云团队(赵侃、李金辉)在交互查询场景下对Presto与Alluxio相结合进行了一系列测试,并总结了一些Presto搭配Alluxio使用的建议。本次测试未使用对象存储,计算引擎与存储间的网络延时也比较低。如果存储IO耗时和网络耗时较大时,Alluxio加速收益应会更明显。测试目的验证影响Alluxio加速收益的各种因素记录Alluxio

w397090770   2年前 (2022-03-29) 655℃ 0评论1喜欢

Spark

通过分区(Partitioning)提高Spark的运行性能

通过分区(Partitioning)提高Spark的运行性能
在Sortable公司,很多数据处理的工作都是使用Spark完成的。在使用Spark的过程中他们发现了一个能够提高Spark job性能的一个技巧,也就是修改数据的分区数,本文将举个例子并详细地介绍如何做到的。查找质数比如我们需要从2到2000000之间寻找所有的质数。我们很自然地会想到先找到所有的非质数,剩下的所有数字就是我们要找

w397090770   8年前 (2016-06-24) 23354℃ 2评论45喜欢

Spark

Apache Spark 自定义优化规则:Custom Strategy

Apache Spark 自定义优化规则:Custom Strategy
这篇文章本来19年5月份就想写的,最终拖到今天才整理出来😂。Spark 内置给我们带来了非常丰富的各种优化,这些优化基本可以满足我们日常的需求。但是我们知道,现实场景中会有各种各样的需求,总有一些场景在 Spark 得到的执行计划不是最优的,社区的大佬肯定也知道这个问题,所以从 Spark 1.3.0 开始,Spark 为我们提供

w397090770   4年前 (2020-08-05) 1042℃ 2评论3喜欢

Git

Window 7(Linux/Unix/Mac)下让git记住帐号和密码

Window 7(Linux/Unix/Mac)下让git记住帐号和密码
如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop在使用Git的时候,比如push操作,需要我们输入用户名和密码,如下:[code lang="bash"]D:\iteblog\spark>git push origin initUsername for 'http://gitlab.iteblog.com': iteblogPassword for 'http://iteblog@gitlab.iteblog.com':[/code]如果频繁地进行push等需要输入用户名和密码

w397090770   8年前 (2016-02-29) 2787℃ 0评论4喜欢

Spark

Apache Spark SQL 在有赞大数据的实践

Apache Spark SQL 在有赞大数据的实践
一、前言在 2019 年 1 月份的时候,我们发表过一篇博客 从 Hive 迁移到 Spark SQL 在有赞的实践,里面讲述我们在 Spark 里所做的一些优化和任务迁移相关的内容。本文会接着上次的话题继续讲一下我们之后在 SparkSQL 上所做的一些改进,以及如何做到 SparkSQL 占比提升到 91% 以上,最后也分享一些在 Spark 踩过的坑和经验希望能帮助到大家

w397090770   4年前 (2020-01-05) 1597℃ 0评论2喜欢

Python

Spark Python API函数学习:pyspark API(3)

Spark Python API函数学习:pyspark API(3)
  《Spark Python API函数学习:pyspark API(1)》  《Spark Python API函数学习:pyspark API(2)》  《Spark Python API函数学习:pyspark API(3)》  《Spark Python API函数学习:pyspark API(4)》  Spark支持Scala、Java以及Python语言,本文将通过图片和简单例子来学习pyspark API。.wp-caption img{ max-width: 100%; height: auto;}如果想

w397090770   9年前 (2015-07-04) 13215℃ 1评论13喜欢

Kafka

Structured Streaming和Kafka 0.8\0.9整合开发

Structured Streaming和Kafka 0.8\0.9整合开发
  流式处理是大数据应用中的非常重要的一环,在Spark中Spark Streaming利用Spark的高效框架提供了基于micro-batch的流式处理框架,并在RDD之上抽象了流式操作API DStream供用户使用。  随着流式处理需求的复杂化,用户希望在流式数据中引入较为复杂的查询和分析,传统的DStream API想要实现相应的功能就变得较为复杂,同时随着Spark

w397090770   7年前 (2016-11-16) 6083℃ 0评论13喜欢

Flink

Blink: 阿里巴巴是如何使用Apache Flink的

Blink: 阿里巴巴是如何使用Apache Flink的
  阿里巴巴是世界上最大的电子商务零售商。 我们在2015年的年销售额总计3940亿美元,超过eBay和亚马逊之和。阿里巴巴搜索(个性化搜索和推荐平台)是客户的关键入口,并承载了大部分在线收入,因此搜索基础架构团队需要不断探索新技术来改进产品。  在电子商务网站应用场景中,什么能造就一个强大的搜索引擎?答案

w397090770   7年前 (2017-02-16) 6862℃ 0评论6喜欢

Flink

Apache Flink 在唯品会的实践

Apache Flink 在唯品会的实践
本文来自于王新春在2018年7月29日 Flink China社区线下 Meetup·上海站的分享。王新春目前在唯品会负责实时平台相关内容,主要包括实时计算框架和提供实时基础数据,以及机器学习平台的工作。之前在美团点评,也是负责大数据平台工作。他已经在大数据实时处理方向积累了丰富的工作经验。。本文主要内容如下:唯品会实时

zz~~   6年前 (2018-08-15) 7230℃ 0评论14喜欢

Spark

用Maven编译Spark 1.0.0源码以错误解决

用Maven编译Spark 1.0.0源码以错误解决
  写在前面的话,最近发现有很多网站转载我博客的文章,这个我都不介意的,但是这些网站转载我博客都将文章的出处去掉了,直接变成自己的文章了!!我强烈谴责他们,鄙视那些转载文章去掉出处的人!所以为了防止这些,我以后发表文章的时候,将会在文章里面加入一些回复之后才可见的内容!!请大家不要介意,本博

w397090770   10年前 (2014-06-06) 30475℃ 40评论6喜欢