欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

行业资讯

Bing搜索结果中加入实时代码编辑器

Bing搜索结果中加入实时代码编辑器
  微软的搜索引擎Bing和HackerRank合作,在Bing的搜索结果里面加入了实时代码编辑器,它为数以百万计的程序员提供了一种简单的方法来搜索结果,主要是允许程序员在搜索结果中直接编辑和执行代码示例,实时查看运行结果。  通常情况下,工程师需要到Stackoverflow, Stackexchange或者其他的博客搜索他们需要的答案。现在我们有

w397090770   8年前 (2016-04-11) 1634℃ 0评论2喜欢

常用工具

如何在 mac 系统上安装 thrift

如何在 mac 系统上安装 thrift
Thrift 最初由Facebook开发,目前已经开源到Apache,已广泛应用于业界。Thrift 正如其官方主页介绍的,“是一种可扩展、跨语言的服务开发框架”。简而言之,它主要用于各个服务之间的RPC通信,其服务端和客户端可以用不同的语言来开发。只需要依照IDL(Interface Description Language)定义一次接口,Thrift工具就能自动生成 C++, Java, Python, PH

w397090770   2年前 (2022-03-29) 1582℃ 0评论0喜欢

Hadoop

Apache Hadoop 2.7.1正式版发布(稳定版)

Apache Hadoop 2.7.1正式版发布(稳定版)
  Apache Hadoop 2.7.1于美国时间2015年07月06日正式发布,本版本属于稳定版本,是自Hadoop 2.6.0以来又一个稳定版,同时也是Hadoop 2.7.x版本线的第一个稳定版本,也是 2.7版本线的维护版本,变化不大,主要是修复了一些比较严重的Bug(其中修复了131个Bugs和patches)。比较重要的特性请参见《Hadoop 2.7.0发布:不适用于生产和不支持JDK1.6》

w397090770   9年前 (2015-07-08) 17824℃ 0评论23喜欢

HBase

HBase 中加盐(Salting)之后的表如何读取:Spark 篇

HBase 中加盐(Salting)之后的表如何读取:Spark 篇
在 《HBase 中加盐(Salting)之后的表如何读取:协处理器篇》 文章中介绍了使用协处理器来查询加盐之后的表,本文将介绍第二种方法来实现相同的功能。我们知道,HBase 为我们提供了 hbase-mapreduce 工程包含了读取 HBase 表的 InputFormat、OutputFormat 等类。这个工程的描述如下:This module contains implementations of InputFormat, OutputFormat, Mapper

w397090770   5年前 (2019-02-26) 3744℃ 0评论15喜欢

Spark Summit

上海Spark Meetup第十次聚会

上海Spark Meetup第十次聚会
  Shanghai Apache Spark Meetup第十次聚会活动将于2016年09月10日12:30 至 17:20在四星级的上海通茂大酒店 (浦东新区陆家嘴金融区松林路357号)。距离地铁2、4、6、9号线的世纪大道站1000米,距离地铁4号线浦电路站740米。本次活动分别请到了运营商和高校系统的讲师来分享经验,主题覆盖了从研发到应用的各种不同视角,希望带给大家耳目

w397090770   8年前 (2016-08-25) 1376℃ 5评论2喜欢

Delta Lake

云栖大会 | Apache Spark 3.0 和 Koalas 最新进展

云栖大会 | Apache Spark 3.0 和 Koalas 最新进展
本资料来自2019-09-26在杭州举办的云栖大会的大数据 & AI 峰会分会。议题名称《New Developments in the Open Source Ecosystem: Apache Spark 3.0 and Koalas》,分享嘉宾李潇,Databricks Spark 研发总监。下面是本次会议的视频(由于微信公众号的限制,只能发布小于30分钟的视频,完整视频和 PPT 请关注 过往记忆大数据 公众号并回复 spark_yq 获取。)

w397090770   5年前 (2019-09-27) 2790℃ 0评论3喜欢

公众号转载文章

数据湖统一存储在 OPPO 的实践

数据湖统一存储在 OPPO 的实践
分享嘉宾:Xiaochun He OPPO,编辑整理:门君仪 澳洲国立大学 导读:OPPO是一家智能终端制造公司,有着数亿的终端用户,手机 、IoT设备产生的数据源源不断,设备的智能化服务需要我们对这些数据做更深层次的挖掘。海量的数据如何低成本存储、高效利用是大数据部门必须要解决的问题。目前业界流行的解决方案是数据湖,本次

w397090770   2年前 (2022-02-18) 373℃ 0评论1喜欢

Spark

MMLSpark:微软开源的用于Spark的深度学习库

MMLSpark:微软开源的用于Spark的深度学习库
MMLSpark为Apache Spark提供了大量深度学习和数据科学工具,包括将Spark Machine Learning管道与Microsoft Cognitive Toolkit(CNTK)和OpenCV进行无缝集成,使您能够快速创建功能强大,高度可扩展的大型图像和文本数据集分析预测模型。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoopMMLSpark需要Scala 2.11,Spark 2

w397090770   7年前 (2017-10-24) 4030℃ 0评论9喜欢

Rheem

Rheem:可扩展且易于使用的跨平台大数据分析系统

Rheem:可扩展且易于使用的跨平台大数据分析系统
  RHEEM是一个可扩展且易于使用的跨平台大数据分析系统,它在现有的数据处理平台之上提供了一个抽象。它允许用户使用易于使用的编程接口轻松地编写数据分析任务,为开发者提供了不同的方式进行性能优化,编写好的程序可以在任意数据处理平台上运行,这其中包括:PostgreSQL, Spark, Hadoop MapReduce或者Flink等;Rheem将选择经典

w397090770   7年前 (2017-03-23) 997℃ 0评论3喜欢

HBase

HBase 协处理器入门及实战

HBase 协处理器入门及实战
HBase 和 MapReduce 有很高的集成,我们可以使用 MR 对存储在 HBase 中的数据进行分布式计算。但是在很多情况下,例如简单的加法计算或者聚合操作(求和、计数等),如果能够将这些计算推送到 RegionServer,这将大大减少服务器和客户的的数据通信开销,从而提高 HBase 的计算性能,这就是本文要介绍的协处理器(Coprocessors)。HBase

w397090770   5年前 (2019-02-17) 6115℃ 2评论12喜欢

Guava

Guava学习之SetMultimap

Guava学习之SetMultimap
   [caption id="attachment_751" align="aligncenter" width="536"] Guava学习之SetMultimap[/caption]   SetMultimap及其子类的继承图如上所示。   SetMultimap是一个接口,继承自Multimap接口,同昨天说的ListMultimap接口类似,它也定义了所有继实现自SetMultimap的子类定义了一些共有的方法签名。SetMultimap接口并没有定义自己特有的方法签名,里面所

w397090770   11年前 (2013-09-25) 9038℃ 1评论4喜欢

MongoDB

MongoDB 在查询中利用 $expr 来实现聚合表达

MongoDB 在查询中利用 $expr 来实现聚合表达
With MongoDB 3.6 the query language gains a new level of expressivity: you can now make use of aggregation expressions in a query using the $expr operator. This feature allows you to take full advantage of all expression operators within all queries, much of which previously had to be done within application logic or was restricted to the aggregation pipeline. $expr offers better performance than the $where operator, which while still a

w397090770   3年前 (2021-04-27) 2233℃ 0评论2喜欢

Hadoop

Hive安装与配置

Hive安装与配置
  前提条件:安装好相应版本的Hadoop(可以参见《在Fedora上部署Hadoop2.2.0伪分布式平台》)、安装好JDK1.6或以上版本(可以参见《如何在Linux平台命令行环境下安装Java1.6》)  Hive的下载地址:http://archive.apache.org/dist/hive/,你可以选择你适合的版本去下载。本博客下载的Hive版本为0.8.0。你可以运行下面的命令去下载Hive,并解压:[

w397090770   11年前 (2013-11-01) 15298℃ 6评论3喜欢

Spark

Spark + jupyter notebook出现图像无法显示问题解决

Spark + jupyter notebook出现图像无法显示问题解决
最近在使用 Python 学习 Spark,使用了 jupyter notebook,期间使用到 hist 来绘图,代码很简单如下:[code lang="python"]user_data = sc.textFile("/home/iteblog/ml-100k/u.user")user_fields = user_data.map(lambda line: line.split("|"))ages = user_fields.map(lambda x: int(x[1])).collect()hist(ages, bins=20, color='lightblue', normed=True)fig = matplotlib.pyplot.gcf()fig.set_size_inch

w397090770   6年前 (2017-12-04) 4595℃ 0评论19喜欢

Flink

如何给Apache Flink贡献你的代码

如何给Apache Flink贡献你的代码
  Apache Flink开源大数据处理系统最近比较火,特别是其流处理框架的设计。本文并不打算介绍Apache Flink的相关概念,如果你感兴趣可以到本博客的Flink分类目录查看Flink的相关文章。  转入正题了,下面将一步一步教你如何提交你的代码到Flink社区。1、提交Issue  既然能够提交代码肯定是发现了什么Bug,或者有什么好

w397090770   7年前 (2016-11-21) 3327℃ 0评论4喜欢

Alluxio

RaptorX: 将 Presto 性能提升十倍

RaptorX: 将 Presto 性能提升十倍
存储计算分离是整个行业的发展趋势,这种架构的存储和计算可以各自独立发展,它帮助云提供商降低成本。Presto 原生就支持这样的架构,数据可以从 Presto 服务器之外的远程存储节点传输过来。然而,存储计算分解也为查询延迟带来了新的挑战,因为当网络饱和时,通过网络扫描大量数据将受到 IO 限制。 此外,元数据的读取

w397090770   2年前 (2021-12-05) 682℃ 0评论1喜欢

CarbonData

Apache CarbonData快速入门编程指南

Apache CarbonData快速入门编程指南
  CarbonData是由华为开发、开源并支持Apache Hadoop的列式存储文件格式,支持索引、压缩以及解编码等,其目的是为了实现同一份数据达到多种需求,而且能够实现更快的交互查询。目前该项目正处于Apache孵化过程中。详情参见《CarbonData:华为开发并支持Hadoop的列式文件格式》,本文是单机模式下使用CarbonData的,如果你需要集群模

w397090770   8年前 (2016-07-01) 8312℃ 3评论6喜欢

Spark

精心收集的Spark学习资料(持续更新)

精心收集的Spark学习资料(持续更新)
如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop《Learning Spark》O'Reilly,2015-01 电子书下载:进入下载《Advanced Analytics with Spark》 O'Reilly,2015-04 电子书下载:进入下载如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop《High Performance Spark》O'Reilly 2016-03 出

w397090770   7年前 (2017-02-12) 6644℃ 0评论18喜欢

Spark

Apache Spark 3.0 预览版正式发布,多项重大功能发布

Apache Spark 3.0 预览版正式发布,多项重大功能发布
今天早上 06:53(2019年11月08日 06:53) 数砖的 Xingbo Jiang 大佬给社区发了一封邮件,宣布 Apache Spark 3.0 预览版正式发布,这个版本主要是为了对即将发布的 Apache Spark 3.0 版本进行大规模社区测试。无论是从 API 还是从功能上来说,这个预览版都不是一个稳定的版本,它的主要目的是为了让社区提前尝试 Apache Spark 3.0 的新特性。如果大家想

w397090770   4年前 (2019-11-08) 2045℃ 0评论6喜欢

Spark

Spark函数讲解序列文章

Spark函数讲解序列文章
  本博客近日将对Spark 1.2.1 RDD中所有的函数进行讲解,主要包括函数的解释,实例以及注意事项,每日一篇请关注。以下是将要介绍的函数,按照字母的先后顺序进行介绍,可以点的说明已经发布了。  aggregate、aggregateByKey、cache、cartesian、checkpoint、coalesce、cogroup groupWith collect, toArraycollectAsMap combineByKey computecontext, spar

w397090770   9年前 (2015-03-08) 7233℃ 0评论6喜欢

Hive

Hive SQL 迁移 Spark SQL 在滴滴的实践

Hive SQL 迁移 Spark SQL 在滴滴的实践
桔妹导读:在滴滴SQL任务从Hive迁移到Spark后,Spark SQL任务占比提升至85%,任务运行时间节省40%,运行任务需要的计算资源节省21%,内存资源节省49%。在迁移过程中我们沉淀出一套迁移流程, 并且发现并解决了两个引擎在语法,UDF,性能和功能方面的差异。迁移背景Spark自从2010年面世,到2020年已经经过十年的发展,现在已经发展

w397090770   3年前 (2021-01-28) 2282℃ 0评论10喜欢

算法

寻找n个整数中前最小的k个元素

寻找n个整数中前最小的k个元素
  面试题目:输入n个整数,输出其中最小的前k个数。  例如输入1,2,3,4,5,6,7和8这8个数字,则最小的3个数字为1,2,3。  分析:这道题最简单的思路莫过于把输入的n个整数排好序,然后输出前面k个数,这就是最小的前k个数。但是按照这种思路最好的时间复杂度为O(nlogn),是否还有比这个更快的算法呢?  

w397090770   11年前 (2013-05-21) 5588℃ 0评论1喜欢

Scala

练数成金—Scala语言入门视频百度网盘下载[全五课]

练数成金—Scala语言入门视频百度网盘下载[全五课]
  本课程是Scala语言的入门课程,面向没有或仅有少量编程语言基础的同学,当然,具有一定的Java或C、C++语言基础将有助于本课程的学习。在本课程内,将更注重scala的各种语言规则与简单直接的应用,而不在于其是如何具体实现,通过学习本课程能具备初步的Scala语言实际编程能力。  此视频保证可以全部浏览,百度网盘

w397090770   9年前 (2015-03-21) 21870℃ 6评论46喜欢

网站建设

《过往记忆》博客公告:邮箱系统正常啦

《过往记忆》博客公告:邮箱系统正常啦
  首先,很感谢大家对本博客的支持。  在此我想给各位网友阐述两件事(1)、QQ群问题;(2)、网站无法注册问题。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop一、QQ群问题(定期清人)  我在今年五月份创建了一个QQ群(群号:138615359),用来讨论Hadoop、Spark等相关方面

w397090770   10年前 (2014-09-17) 3860℃ 4评论8喜欢

Kylin

Apache Kylin在美团数十亿数据OLAP场景下的实践

Apache Kylin在美团数十亿数据OLAP场景下的实践
本文根据2016年4月北京Apache Kylin Meetup上的分享讲稿整理,略有删节。美团各业务线存在大量的OLAP分析场景,需要基于Hadoop数十亿级别的数据进行分析,直接响应分析师和城市BD等数千人的交互式访问请求,对OLAP服务的扩展性、稳定性、数据精确性和性能均有很高要求。本文主要介绍美团的具体OLAP需求,如何将Kylin应用到实际场景

w397090770   8年前 (2016-07-17) 9614℃ 0评论9喜欢

Play

Play JSON类库将List[(String, String)]转换成Json字符串

Play JSON类库将List[(String, String)]转换成Json字符串
  最近在一个项目中使用到Play的Json相关的类库,看名字就知道这是和Json打交道的类库。其可以很方面地将class转换成Json字符串;也可以将Json字符串转换成一个类。一般的转换直接看Play的相关文档即可很容易的搞定,将class转换成Json字符串直接写个Writes即可;而将Json字符串转换成一个类直接写个Reads即可。所有的操作只需要引入

w397090770   8年前 (2016-08-27) 3120℃ 0评论14喜欢

Presto

Presto 中支持的七种 Join 类型

Presto 中支持的七种 Join 类型
SQL Join 是最重要和最昂贵的 SQL 操作之一,需要数据库工程师深入理解才能编写高效的 SQL 查询。 从数据库工程师的角度来看,了解 JOIN 操作的工作原理有助于他们优化 JOIN 以实现高效执行。 本文介绍了开源分布式计算引擎 Presto SQL 支持的 join 操作。几乎所有众所周知的数据库都支持以下五种类型的 JOIN 操作:Cross Join, Inner Join, L

w397090770   2年前 (2021-11-01) 1209℃ 0评论1喜欢

面试题

2021年超全超详细的最新大数据开发面试题,附答案解析

2021年超全超详细的最新大数据开发面试题,附答案解析
导语:此套面试题来自于各大厂的真实面试题及常问的知识点。如果能理解吃透这些问题,你的大数据能力将会大大提升,进入大厂指日可待。如果公司急招人,你回答出来面试官70%,甚至50%的问题他都会要你,如果这个公司不是真正缺人,或者只是作人才储备,那么你回答很好,他也可能不要你,只是因为没有眼缘;所以面

zz~~   3年前 (2021-09-24) 2251℃ 0评论7喜欢

Spark

上海(Shanghai) Apache Spark Meetup第十四次聚会

上海(Shanghai) Apache Spark Meetup第十四次聚会
第十四次Shanghai Apache Spark Meetup聚会,由中国平安银行大力支持。活动将于2017年12月23日12:30~17:00在上海浦东新区上海海神诺富特酒店三楼麦哲伦厅举行。举办地点交通方便,靠近地铁4号线浦东大道站。座位有限,先到先得。大会主题《Spark在金融领域的算法实践》(13:20 – 14:05)演讲嘉宾:潘鹏举,平安银行大数据平台架构师

zz~~   6年前 (2017-12-06) 1945℃ 0评论11喜欢

Zookeeper

如何限制 zookeeper 的 transaction log 大小

如何限制 zookeeper 的 transaction log 大小
在 Zookeeper 中限制 transaction log 总大小主要有两种方法。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop限制 Zookeeper Transaction Log 里面的事务条数默认情况下,在写入 snapCount(100000) 事务后,Zookeeper 事务日志将会切换。如果 Zookeeper 的数据目录的空间不足与存储三个版本的 Zookeeper Transaction Lo

w397090770   3年前 (2020-10-28) 603℃ 0评论1喜欢