欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

Flink

Apache Flink 背后公司 Ververica 的核心成员离职

Apache Flink 背后公司 Ververica 的核心成员离职
2021年2月15日,Apache Flink 创建者、Ververica 公司(前身 DataArtisans)的联合创始人 Fabian Hueske 在 Twitter 宣布其已经从 Ververica 离职, 不过离职原因不得而知。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop另外,Ververica 公司原 COO Holger Temme 将接替 Kostas Tzoumas 成为新的 CEO。Kostas Tzoumas (原 CEO)

w397090770   3年前 (2021-02-18) 984℃ 0评论3喜欢

Scala

Scala编译器是如何解析for循环语句

Scala编译器是如何解析for循环语句
  你可能会在Scala中经常使用for循环已经,所以理解Scala编译器是如何解析for循环语句是非常重要的。我们记住以下四点规则即可:  1、对集合进行简单的for操作,Scala编译器会将它翻译成对集合进行foreach操作;  2、带有guard的for循环,编译器会将它翻译成一序列的withFilter操作,紧接着是foreach操作;  3、带有yield的for

w397090770   9年前 (2015-10-20) 3932℃ 0评论6喜欢

Guava

Guava学习之Preconditions

Guava学习之Preconditions
  在编写程序的时候,很多时候都需要检查输入的参数是否符合我们的需要,比如人的年龄需要大于0,名字不能为空;如果不符合这两个要求,我们将认为这个对象是不合法的,这时候我们需要编写判断这些参数是否合法的函数,我们可能这样写:[code lang="JAVA"]package com.wyp;import java.util.ArrayList;import java.util.List;/** * Crea

w397090770   11年前 (2013-07-24) 6000℃ 4评论2喜欢

ElasticSearch

Elasticsearch配置参数介绍

Elasticsearch配置参数介绍
  Elasticsearch的config文件夹里面有两个配置文件:elasticsearch.yml和logging.yml。第一个是es的基本配置文件,第二个是日志配置文件,es也是使用log4j来记录日志的,所以logging.yml里的设置按普通log4j配置文件来设置就行了。下面主要讲解下elasticsearch.yml这个文件中可配置的东西。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关

w397090770   7年前 (2017-02-11) 1859℃ 0评论4喜欢

Hive

使用Spark SQL读取Hive上的数据

使用Spark SQL读取Hive上的数据
  Spark SQL主要目的是使得用户可以在Spark上使用SQL,其数据源既可以是RDD,也可以是外部的数据源(比如Parquet、Hive、Json等)。Spark SQL的其中一个分支就是Spark on Hive,也就是使用Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑,可以近似认为仅将物理执行计划从MR作业替换成了Spark作业。本文就是来介绍如何通过Spark SQL来

w397090770   9年前 (2015-08-27) 74558℃ 19评论38喜欢

Hadoop

Hadoop面试题系列(4/11)

Hadoop面试题系列(4/11)
1.文件大小默认为64M,改为128M有啥影响?2.RPC的原理?3.NameNode与SecondaryNameNode的区别与联系?4.介绍MadpReduce整个过程,比如把WordCount的例子的细节将清楚(重点讲解Shuffle)?5.MapReduce出现单点负载多大,怎么负载平衡?6.MapReduce怎么实现Top10?7.hadoop底层存储设计8.zookeeper有什么优点,用在什么场合9.Hbase中的meta

w397090770   8年前 (2016-08-26) 3542℃ 0评论2喜欢

Spark

[电子书]Learning Real-time Processing with Spark Streaming PDF下载

[电子书]Learning Real-time Processing with Spark Streaming PDF下载
  通过使用易于理解的实例,本书将教你如何使用Spark Streaming构建实时应用程序。从安装和设置所需的环境开始,您将编写并执行第一个程序Spark Streaming。接下来将探讨Spark Streaming的架构和组件以及概述Spark公开的库/函数的。接下来,您将通过处理分布式日志文件的用例来了解有关Spark中的各种客户端API编码。然后,您将学习到各

w397090770   7年前 (2017-02-12) 3079℃ 0评论6喜欢

Hadoop

三种方法实现Hadoop(MapReduce)全局排序(2)

三种方法实现Hadoop(MapReduce)全局排序(2)
我在前面的文章介绍了MapReduce中两种全排序的方法及其实现。但是上面的两种方法都是有很大的局限性:方法一在数据量很大的时候会出现OOM问题;方法二虽然能够将数据分散到多个Reduce中,但是问题也很明显:我们必须手动地找到各个Reduce的分界点,尽量使得分散到每个Reduce的数据量均衡。而且每次修改Reduce的个数时,都得

w397090770   7年前 (2017-05-12) 7177℃ 14评论20喜欢

前端框架

阿里巴巴矢量图标库:Iconfont

阿里巴巴矢量图标库:Iconfont
  相关图标矢量字库:《Font Awesome:图标字体》、《阿里巴巴矢量图标库:Iconfont》  Iconfont.cn是由阿里巴巴UX部门推出的矢量图标管理网站,也是国内首家推广Webfont形式图标的平台。网站涵盖了1000多个常用图标并还在持续更新中(目前加上用户上传的图标近70000个,我们可以通过搜索来找到他们。)。、  Iconfont平台为用

w397090770   9年前 (2015-02-26) 29035℃ 0评论27喜欢

ElasticSearch

在Apache Zeppelin中安装使用Elasticsearch Interpreter

在Apache Zeppelin中安装使用Elasticsearch Interpreter
从Apache Zeppelin 0.5.6 版本开始,内置支持 Elasticsearch Interpreter了。我们可以直接在Apache Zeppelin中查询 ElasticSearch 中的数据。但是默认的 Apache Zeppelin 发行版本中可能并没有包含 Elasticsearch Interpreter。这种情况下我们需要自己安装。如果你参照了官方的这篇文档,即使你全部看完这篇文档,也是无法按照上面的说明启用 Elasticsearch Interpre

w397090770   7年前 (2017-07-05) 1820℃ 0评论5喜欢

Flink

Apache Flink 1.14 新特性介绍

Apache Flink 1.14 新特性介绍
一、简介1.14 新版本原本规划有 35 个比较重要的新特性以及优化工作,目前已经有 26 个工作完成;5 个任务不确定是否能准时完成;另外 4 个特性由于时间或者本身设计上的原因,会放到后续版本完成。[1]如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公共帐号:过往记忆大数据1.14 相对于历届版本来说,囊

w397090770   3年前 (2021-09-02) 615℃ 0评论1喜欢

Hadoop

从Hadoop1.x集群升级到Hadoop2.x失败回滚步骤

从Hadoop1.x集群升级到Hadoop2.x失败回滚步骤
  在《从Hadoop1.x集群升级到Hadoop2.x步骤》文章中简单地介绍了如何从Hadoop1.x集群升级到Hadoop2.x,那里面只讨论了成功升级,那么如果集群升级失败了,我们该如何从失败中回滚呢?这正是本文所有讨论的。本文将以hadoop-0.20.2-cdh3u4升级到Hadoop-2.2.0升级失败后,如何回滚。  1、如果你将Hadoop1.x升级到Hadoop2.x的过程中失败了,当你

w397090770   10年前 (2013-12-05) 5792℃ 1评论7喜欢

招聘

【阿里云】数据湖分析DLA 招聘-平台研发技术专家

【阿里云】数据湖分析DLA 招聘-平台研发技术专家
数据湖分析Data Lake Analytics是阿里云数据库自研的云原生数据湖分析系统,目前已有数千企业在使用,是阿里云 库、仓、湖战略高地之一 !!!现紧急招聘【 数据湖平台工程师】 产品链接:https://www.aliyun.com/product/datalakeanalytics !!!如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop团队内部拥有多

w397090770   4年前 (2020-05-22) 853℃ 0评论1喜欢

Kylin

Apache Kylin在美团数十亿数据OLAP场景下的实践

Apache Kylin在美团数十亿数据OLAP场景下的实践
本文根据2016年4月北京Apache Kylin Meetup上的分享讲稿整理,略有删节。美团各业务线存在大量的OLAP分析场景,需要基于Hadoop数十亿级别的数据进行分析,直接响应分析师和城市BD等数千人的交互式访问请求,对OLAP服务的扩展性、稳定性、数据精确性和性能均有很高要求。本文主要介绍美团的具体OLAP需求,如何将Kylin应用到实际场景

w397090770   8年前 (2016-07-17) 9614℃ 0评论9喜欢

Spark

Apache Spark快速入门:基本概念和例子(1)

Apache Spark快速入门:基本概念和例子(1)
  《Apache Spark快速入门:基本概念和例子(1)》  《Apache Spark快速入门:基本概念和例子(2)》  本文聚焦Apache Spark入门,了解其在大数据领域的地位,覆盖Apache Spark的安装及应用程序的建立,并解释一些常见的行为和操作。一、 为什么要选择Apache Spark  当前,我们正处在一个“大数据"的时代,每时每刻,都有各

w397090770   9年前 (2015-07-13) 6076℃ 1评论24喜欢

Spark

Spark 1.1.1发布

Spark 1.1.1发布
  Spark 1.1.1于美国时间的2014年11月26日正式发布。基于branch-1.1分支,主要修复了一些bug。推荐所有的1.1.0用户更新到这个稳定版本。本次更新共有55位开发者参与。  spark.shuffle.manager仍然使用Hash作为默认值,说明了SORT的Shuffle还不怎么成熟。等待1.2版本吧。Fixes  Spark 1.1.1修复了几个组件的bug。在下面将会列出一些代表性的b

w397090770   9年前 (2014-11-28) 3235℃ 0评论5喜欢

ElasticSearch

五分钟了解Elasticsearch

五分钟了解Elasticsearch
使用 ElasticSearch 我们可以构建一个功能完备的搜索服务器。这一切实现起来都很简单,本文将花五分钟向你介绍如何实现。安装和运行Elasticsearch这篇文章的操作环境是 Linux 或者 Mac,在安装 ElasticSearch 之前,确保你的系统上已经安装好 JDK 6 或者以上版本。[code lang="bash"]wget https://download.elastic.co/elasticsearch/elasticsearch/elasticsearc

w397090770   7年前 (2017-09-01) 3203℃ 0评论11喜欢

Spark

Apache Spark SQL自适应执行实践

Apache Spark SQL自适应执行实践
本文作者:汪愈舟 俞育才 郭晨钊 程浩(英特尔),李元健(百度)Spark SQL是Apache Spark最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据,在很多应用领域都有成功的生产实践,但是在超大规模集群和数据集上,Spark SQL仍然遇到不少易用性和可扩展性的挑战。为了应对这些挑战,英特尔大数据技术团

w397090770   6年前 (2018-01-11) 90799℃ 0评论75喜欢

Scala

Effective Scala中文版文档

Effective Scala中文版文档
  Marius Eriksen, Twitter Inc.  marius@twitter.com (@marius)  [translated by hongjiang(@hongjiang), tongqing(@tongqing)]序言  Scala是Twitter使用的主要应用编程语言之一。很多我们的基础架构都是用scala写的,我们也有一些大的库支持我们使用。虽然非常有效, Scala也是一门大的语言,经验教会我们在实践中要非常小心。 它有什么陷阱?哪些特

w397090770   9年前 (2015-04-11) 7386℃ 0评论3喜欢

机器学习

来自RISELab实验室解决机器学习新的大数据工具

来自RISELab实验室解决机器学习新的大数据工具
大家对加州大学伯克利分校的AMPLab可能不太熟悉,但是它的项目我们都有所耳闻——没错,它就是Spark和Mesos的诞生之地。AMPLab是加州大学伯克利分校一个为期五年的计算机研究计划,其初衷是为了理解机器和人如何合作处理和解决数据中的问题——使用数据去训练更加丰富的模型,有效的数据清理,以及进行可衡量的数据扩展。

w397090770   7年前 (2017-02-09) 1289℃ 0评论3喜欢

HBase

基于 HBase 构建可伸缩的分布式事务队列

基于 HBase 构建可伸缩的分布式事务队列
一个实时流处理框架通常需要两个基础架构:处理器和队列。处理器从队列中读取事件,执行用户的处理代码,如果要继续对结果进行处理,处理器还会把事件写到另外一个队列。队列由框架提供并管理。队列做为处理器之间的缓冲,传输数据和事件,这样处理器可以单独操作和扩展。例如,一个web 服务访问日志处理应用,可能是

w397090770   7年前 (2017-07-12) 558℃ 0评论0喜欢

Spark

Spark Streaming 反压(Back Pressure)机制介绍

Spark Streaming 反压(Back Pressure)机制介绍
背景在默认情况下,Spark Streaming 通过 receivers (或者是 Direct 方式) 以生产者生产数据的速率接收数据。当 batch processing time > batch interval 的时候,也就是每个批次数据处理的时间要比 Spark Streaming 批处理间隔时间长;越来越多的数据被接收,但是数据的处理速度没有跟上,导致系统开始出现数据堆积,可能进一步导致 Executor 端出现

w397090770   6年前 (2018-05-28) 26466℃ 409评论62喜欢

算法

C++函数前和函数后加const修饰符区别

C++函数前和函数后加const修饰符区别
c++中关于const的用法有很多,const既可以修饰变量,也可以函数,不同的环境下,是有不同的含义。今天来讲讲const加在函数前和函数后面的区别。比如:[code lang="CPP"]#include<iostream>using namespace std;// Ahthor: 过往记忆// E-mail: wyphao.2007@163.com// Blog: // 转载请注明出处class TestClass {public: size_t length() const; const char* ge

w397090770   11年前 (2013-04-05) 24873℃ 1评论55喜欢

Spark

Spark SQL 中 Broadcast Join 一定比 Shuffle Join 快?那你就错了。

Spark SQL 中 Broadcast Join 一定比 Shuffle Join 快?那你就错了。
本资料来自 Workday 的软件开发工程师 Jianneng Li 在 Spark Summit North America 2020 的 《On Improving Broadcast Joins in Spark SQL》议题的分享。背景相信使用 Apache Spark 进行数据分析的同学对 Spark 中的 Broadcast Join 比较熟悉,其在 Join 之前会把一端比较小的表广播到参与 Join 的 worker 端,具体如下:如果想及时了解Spark、Hadoop或者HBase相关的文

w397090770   4年前 (2020-07-05) 1824℃ 0评论4喜欢

Spark

Spark 2.0介绍:在Spark SQL中定义查询优化规则

Spark 2.0介绍:在Spark SQL中定义查询优化规则
《Spark 2.0技术预览:更容易、更快速、更智能》文章中简单地介绍了Spark 2.0带来的新技术等。Spark 2.0是Apache Spark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大的变化,为该框架明年的发展奠定了方向,所以了解Spark 2.0的一些特性对我们能够使用它有着非常重要的作用。本博客将对Spark 2.0进行一序列的介

w397090770   8年前 (2016-07-14) 7543℃ 2评论4喜欢

Apache Iceberg

Apache iceberg:Netflix 数据仓库的基石

Apache iceberg:Netflix 数据仓库的基石
如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoopApache Iceberg 是一种用于跟踪超大规模表的新格式,是专门为对象存储(如S3)而设计的。 本文将介绍为什么 Netflix 需要构建 Iceberg,Apache Iceberg 的高层次设计,并会介绍那些能够更好地解决查询性能问题的细节。如果想及时了解Spark、Hadoop或者HBase

w397090770   4年前 (2020-02-23) 2934℃ 0评论6喜欢

Kafka

Apache Kafka 不需要管理员:删除 Apache ZooKeeper 的依赖

Apache Kafka 不需要管理员:删除 Apache ZooKeeper 的依赖
目前,Apache Kafka 使用 Apache ZooKeeper 来存储它的元数据,比如分区的位置和主题的配置等数据就是存储在 ZooKeeper 集群中。在 2019 年社区提出了一个计划,以打破这种依赖关系,并将元数据管理引入 Kafka 本身。所以 Apache Kafka 为什么要移除 Zookeeper 的依赖?Zookeeper 有什么问题?实际上,问题不在于 ZooKeeper 本身,而在于外部元数据

w397090770   4年前 (2020-05-19) 1272℃ 0评论1喜欢

Hadoop

Hadoop 气数已尽?

Hadoop 气数已尽?
Hadoop我先从一个悲观的观点说起:Hadoop 正在迅速失去市场,我们可以从 Google 趋势走向看出这个现象:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop下面的炒作生命周期表也上面的趋势很类似:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop看起来 Hadoo

w397090770   5年前 (2019-06-23) 3666℃ 0评论32喜欢

Distributed System

一篇文章搞清楚什么是分布式系统 CAP 定理

一篇文章搞清楚什么是分布式系统 CAP 定理
本文是对 Gilbert and Lynch's specification and proof of the CAP Theorem 文章的概括版本。大部分内容参照 An Illustrated Proof of the CAP Theorem 文章的。什么是 CAP 定理CAP 定理是分布式系统中的基本定理,这个理论表明任何分布式系统最多可以满足以下三个属性中的两个。一致性(Consistency)可用性(Availability)分区容错性(Partition tolerance

w397090770   6年前 (2018-07-17) 2887℃ 1评论12喜欢

HDFS

Ozone:Hadoop 原生分布式对象存储

Ozone:Hadoop 原生分布式对象存储
Hadoop 社区推出了新一代分布式Key-value对象存储系统 Ozone,同时提供对象和文件访问的接口,从构架上解决了长久以来困扰HDFS的小文件问题。本文作为Ozone系列文章的第一篇,抛个砖,介绍Ozone的产生背景,主要架构和功能。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop背景HDFS是业界默认的

w397090770   4年前 (2020-05-26) 1830℃ 1评论1喜欢