欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

Hadoop

Hadoop 气数已尽?

Hadoop 气数已尽?
Hadoop我先从一个悲观的观点说起:Hadoop 正在迅速失去市场,我们可以从 Google 趋势走向看出这个现象:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop下面的炒作生命周期表也上面的趋势很类似:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop看起来 Hadoo

w397090770   5年前 (2019-06-23) 3666℃ 0评论32喜欢

Scala

Scala模式匹配和函数组合

Scala模式匹配和函数组合
函数组合让我们来创建两个函数[code lang="scala"]scala> def f(s: String) = "f(" + s + ")"f: (String)java.lang.Stringscala> def g(s: String) = "g(" + s + ")"g: (String)java.lang.String[/code]compose方法compose组合其他函数形成一个新的函数f(g(x))[code lang="scala"]scala> val fComposeG = f _ compose g _fComposeG: (String) => j

w397090770   8年前 (2016-05-08) 36007℃ 0评论7喜欢

Presto

Presto 基本概念:Driver, Split 和 Pipeline

Presto 基本概念:Driver, Split 和 Pipeline
在使用 Presto 时,我们经常会听说 Query、Stage、Task 等概念,很多人会搞不清楚这些概念,所以会导致一些误解,本文将简单地介绍一下这些基本的概念是指StatementStatement语句。其实就是指我们输入的SQL语句。Presto支持需要ANSI标准的SQL语句。这种语句由子句(Clause)、表达式(Expression)和断言(Predicate)组成。Presto为什么将语句(S

w397090770   2年前 (2021-11-01) 1655℃ 0评论4喜欢

Delta Lake

Spark Delta Lake 现在由Linux基金会托管,将成为数据湖的开放标准

Spark Delta Lake 现在由Linux基金会托管,将成为数据湖的开放标准
如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop一年一度的 Spark + AI Summit Europe 峰会于2019年10月15-17日在欧洲的阿姆斯特丹举行。在10年16日 数砖和 Linux 基金会共同宣布 Delta Lake 和 将成为一个 Linux 基金会项目(参考:The Delta Lake Project Turns to Linux Foundation to Become the Open Standard for Data Lakes)。该项

w397090770   5年前 (2019-10-16) 1207℃ 0评论2喜欢

Hadoop

Apache YARN各组件功能概述

Apache YARN各组件功能概述
Apache YARN是将之前Hadoop 1.x的 JobTracker 功能分别拆到不同的组件里面了,每个组件分别负责不同的功能。在Hadoop 1.x中, JobTracker 负责管理集群的资源,作业调度以及作业监控;YARN把这些功能分别拆到ResourceManager 和 ApplicationMaster 中了。而之前的TaskTracker被NodeManager替代。下面分别介绍YAEN的各个组件的作用。如果想及时了解Spark、Had

w397090770   7年前 (2017-06-01) 3877℃ 0评论31喜欢

Hadoop

大规模 Hadoop 升级在 Pinterest 的实践

大规模 Hadoop 升级在 Pinterest 的实践
Monarch 是 Pinterest 的批处理平台,由30多个 Hadoop YARN 集群组成,其中17k+节点完全建立在 AWS EC2 之上。2021年初,Monarch 还在使用五年前的 Hadoop 2.7.1。由于同步社区分支(特性和bug修复)的复杂性不断增加,我们决定是时候进行版本升级了。我们最终选择了Hadoop 2.10.0,这是当时 Hadoop 2 的最新版本。本文分享 Pinterest 将 Monarch 升级到 Ha

w397090770   2年前 (2022-08-12) 511℃ 0评论0喜欢

Spark

Apache Spark 中编写可伸缩代码的4个技巧

Apache Spark 中编写可伸缩代码的4个技巧
在本文中,我将分享一些关于如何编写可伸缩的 Apache Spark 代码的技巧。本文提供的示例代码实际上是基于我在现实世界中遇到的。因此,通过分享这些技巧,我希望能够帮助新手在不增加集群资源的情况下编写高性能 Spark 代码。背景我最近接手了一个 notebook ,它主要用来跟踪我们的 AB 测试结果,以评估我们的推荐引擎的性能

w397090770   4年前 (2019-11-26) 1558℃ 0评论4喜欢

Linux

给Fedora修改默认的软件下载源

给Fedora修改默认的软件下载源
Fedora安装完毕之后最头疼的问题就是软件更新,因为Fedora默认的更新源服务器是在国外,所以每次更新的速度奇慢!那么,我们是否可以修改Fedora的默认下载源呢?答案是可以的。目前国内有很多大学都提供了Fedora的更新包下载服务器,下载速度相对国外的快。下面以华中科技大学的源(http://mirrors.ustc.edu.cn/)为例(只能用在Fedora15、1

w397090770   11年前 (2013-04-02) 8634℃ 0评论0喜欢

Kafka

在Spring中使用Kafka:Producer篇

在Spring中使用Kafka:Producer篇
  在某些情况下,我们可能会在Spring中将一些WEB上的信息发送到Kafka中,这时候我们就需要在Spring中编写Producer相关的代码了;不过高兴的是,Spring本身提供了操作Kafka的相关类库,我们可以直接通过xml文件配置然后直接在后端的代码中使用Kafka,非常地方便。本文将介绍如果在Spring中将消息发送到Kafka。在这之前,请将下面的依赖

w397090770   8年前 (2016-11-01) 6192℃ 0评论11喜欢

Data + AI Summit

Spark SQL 查询 Parquet 文件的性能提升 30%,字节是如何做到的?

Spark SQL 查询 Parquet 文件的性能提升 30%,字节是如何做到的?
本文来自11月举办的 Data + AI Summit 2020 (原 Spark+AI Summit),主题为《Improving Spark SQL Performance by 30%: How We Optimize Parquet Filter Pushdown and Parquet Reader》的分享,作者为字节跳动的孙科和郭俊。相关 PPT 可以关注 Java与大数据架构 公众号并回复 9912 获取。Parquet 是一种非常流行的列式存储格式。Spark 的算子下推(pushdown filters)可以利用 P

w397090770   3年前 (2020-12-14) 2123℃ 2评论4喜欢

Alluxio

Presto Alluxio Local Cache 监控指南

Presto Alluxio Local Cache 监控指南
什么是 Alluxio Local Cache随着云计算在基础设施领域的市场份额持续上升,主流数据分析引擎纷纷选择独立扩展存储、计算来适配云基础设施,并以此为云提供商降低成本。但是,存储计算分离也为查询延迟带来了新的挑战,因为当网络饱和时,通过网络扫描大量数据将受到 IO 限制。此外,元数据也面临远程网络来检索的性能问题。

w397090770   2年前 (2022-03-21) 609℃ 0评论2喜欢

Spark

北京第五次Spark meetup会议资料分享

北京第五次Spark meetup会议资料分享
  《Spark meetup(Beijing)资料分享》  《Spark meetup(杭州)PPT资料分享》  《北京第二次Spark meetup会议资料分享》  《北京第三次Spark meetup会议资料分享》  《北京第四次Spark meetup会议资料分享》  《北京第五次Spark meetup会议资料分享》》  《北京第六次Spark meetup会议资料分享》  北京第五次Spark meetup会议

w397090770   9年前 (2015-01-31) 3712℃ 0评论4喜欢

Kafka

Spark 从 Kafka 读数并发问题

Spark 从 Kafka 读数并发问题
经常使用 Apache Spark 从 Kafka 读数的同学肯定会遇到这样的问题:某些 Spark 分区已经处理完数据了,另一部分分区还在处理数据,从而导致这个批次的作业总消耗时间变长;甚至导致 Spark 作业无法及时消费 Kafka 中的数据。为了简便起见,本文讨论的 Spark Direct 方式读取 Kafka 中的数据,这种情况下 Spark RDD 中分区和 Kafka 分区是一一对

w397090770   6年前 (2018-09-08) 6553℃ 0评论25喜欢

流系统月刊

大数据流处理系统精彩资源月刊(第2期)

大数据流处理系统精彩资源月刊(第2期)
  流处理系统月刊是一份专门收集关于Spark、Flink、Kafka、Apex等流处理系统的技术干货月刊,完全免费,每天更新,欢迎关注。下面资源如无法正常访问,请使用《最新可访问Google的Hosts文件》或《Tunnello:免费的浏览器翻墙插件》进行科学上网。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoo

w397090770   8年前 (2016-10-07) 4339℃ 0评论5喜欢

Kafka

Apache Kafka 原理与架构

Apache Kafka 原理与架构
本文主要讲解 Kafka 是什么、Kafka 的架构包括工作流程和存储机制,以及生产者和消费者,最终大家会掌握 Kafka 中最重要的概念,分别是 broker、producer、consumer、consumer group、topic、partition、replica、leader、follower,这是学会和理解 Kafka 的基础和必备内容。1. 定义Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主

w397090770   4年前 (2020-03-14) 1570℃ 0评论10喜欢

Hadoop

Hadoop作业JVM堆大小设置优化

Hadoop作业JVM堆大小设置优化
  前段时间,公司Hadoop集群整体的负载很高,查了一下原因,发现原来是客户端那边在每一个作业上擅自配置了很大的堆空间,从而导致集群负载很高。下面我就来讲讲怎么来现在客户端那边的JVM堆大小的设置。  我们知道,在mapred-site.xml配置文件里面有个mapred.child.java.opts配置,专门来配置一些诸如堆、垃圾回收之类的。看

w397090770   10年前 (2014-03-18) 19010℃ 0评论10喜欢

Java

Servlet过滤器和监听器

Servlet过滤器和监听器
一、过滤器 从过滤器这个名字上可以得知就是在源数据和目标数据之间起到过滤作用的中间组件。例如家里用的纯净水过滤器,将自来水过滤为纯净水。过滤器是在Servlet2.3规范中引入的新功能,并在Servlet2.4规范中得到增强。它是在服务端运行的Web组件程序,可以截取客户端给服务器发的请求,也可以截取服务器给客户端的响应。

w397090770   11年前 (2013-08-01) 3636℃ 0评论5喜欢

Spark

Spark Streaming作业提交源码分析数据处理篇

Spark Streaming作业提交源码分析数据处理篇
  《Spark Streaming作业提交源码分析接收数据篇》、《Spark Streaming作业提交源码分析数据处理篇》  在昨天的文章中介绍了Spark Streaming作业提交的数据接收部分的源码(《Spark Streaming作业提交源码分析接收数据篇》),今天来介绍Spark Streaming中如何处理这些从外部接收到的数据。  在调用StreamingContext的start函数的时候,

w397090770   9年前 (2015-04-29) 4300℃ 2评论9喜欢

Spark

Apache Spark SQL 参数介绍

Apache Spark SQL 参数介绍
我们可以在初始化 SparkSession 的时候进行一些设置:[code lang="scala"]import org.apache.spark.sql.SparkSessionval spark: SparkSession = SparkSession.builder .master("local[*]") .appName("My Spark Application") .config("spark.sql.warehouse.dir", "c:/Temp") (1) .getOrCreateSets spark.sql.warehouse.dir for the Spark SQL session[/code]也可以使用 SQL SET

w397090770   4年前 (2020-09-09) 3102℃ 0评论2喜欢

行业资讯

IndexR:千亿级别的实时分析数据库

IndexR:千亿级别的实时分析数据库
背景  舜飞科技的各个业务线对接全网的各大媒体及APP,从而产生大量数据,实时分析这些数据不仅仅用于监控业务的发展,还会影响产品的服务质量,直接创造价值。比如优化师要时刻关注活动的投放质量,竞价算法会根据投放数据实时调整策略,网站主会进行流量分析和快速事故反馈等等。这些分析需求的特点:  1

w397090770   7年前 (2017-01-03) 4600℃ 0评论6喜欢

Flume

Flume-ng禁用自动加载配置文件功能

Flume-ng禁用自动加载配置文件功能
  默认情况下,Flume中的PollingPropertiesFileConfigurationProvider会每隔30秒去重新加载Flume agent的配置文件,如果监听到配置文件变化了,Flume会试图重新加载变化的配置文件。判断配置文件是否变化主要是基于文件的最后修改时间来的,代码片段如下:[code lang="java"]///////////////////////////////////////////////////////////////////// User: 过往记忆

w397090770   9年前 (2015-08-20) 6574℃ 0评论11喜欢

ElasticSearch

基于 MySQL Binlog 的 ElasticSearch 数据同步实践

基于 MySQL Binlog 的 ElasticSearch 数据同步实践
背景随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。现有方法及问题对于数据同步,我们目前

w397090770   4年前 (2020-01-04) 1124℃ 0评论4喜欢

算法

2012年腾讯招聘实习生笔试题

2012年腾讯招聘实习生笔试题
程序的问题:已知数组a[n],求数组b[n].要求:b[i]=a[0]*a[1]*……*a[n-1]/a[i],不能用除法。a.时间复杂度O(n),空间复杂度O(1)。 b.除了迭代器i,不允许使用任何其它变量(包括栈临时变量等)大家有什么解法?先不要看我下面的解法。希望大家讨论讨论一下,留个言,一起交流一下。下面给出我的解法一:[code lang="CPP"]#include <stdio.

w397090770   11年前 (2013-04-03) 4156℃ 0评论3喜欢

前端框架

分享一款基于Bootstrap扁平化的后台框架Ace

分享一款基于Bootstrap扁平化的后台框架Ace
最近一段时间在做一个管理系统,在网上找了很久的前端展示框架,终于找到一款基于Bootstrap的后台管理系统模版:Ace。Bootstrap是Twitter 于2010年开发出来的前端框架,用过的同学应该知道,这款前端框架不仅界面很美观,而且兼容了很多的浏览器,大大加速了我们开发网站的速度!这篇文章讲到的Ace是基于Bootstrap的,所以界面自然

w397090770   9年前 (2015-01-19) 172072℃ 15评论459喜欢

网站建设

如何让网页的footer一直固定在底端

如何让网页的footer一直固定在底端
  我们在开发网站的时候一般都会分header、main、side、footer。这些模块分别包含了各自公用的信息,比如header一般都是本网站所有页面需要引入的模块,里面一般都是放置菜单等信息;而footer一般是放在网站所有页面的底部。当网页的内容比较多的时候,我们可以看到footer一般都是在页面的底部。但是,当页面的内容不足以填满一

w397090770   9年前 (2015-10-28) 4438℃ 0评论8喜欢

Flink

官宣|Apache Flink 1.14.0 发布公告

官宣|Apache Flink 1.14.0 发布公告
在 Apache 软件基金会近期发布的年度报告中,Apache Flink 再次跻身最活跃项目前 5 名!该项目最新发布的 1.14.0 版本同样体现了其非凡的活跃力,囊括了来自超过 200 名贡献者的 1000 余项贡献。整个社区为项目的推进付出了持之以恒的努力,我们引以为傲。新版本在 SQL API、更多连接器支持、Checkpoint 机制、PyFlink 等多个方面带来了大

zz~~   3年前 (2021-10-09) 862℃ 0评论2喜欢

Distributed System

分布式系统一致性问题、CAP定律以及 BASE 理论

分布式系统一致性问题、CAP定律以及 BASE 理论
一致性问题在介绍分布式系统一致性问题之前,我们先来了解一下副本概念。分布式系统会存在许多异常问题,比如机器宕机;为了提供高可用服务,一般会将数据或者服务部署到很多机器上,这些机器中的数据或服务可以称为副本。如果其中任何一台节点出现故障,用户可以访问其他机器上的数据或服务。由于副本的存在,如

w397090770   6年前 (2018-05-04) 4530℃ 0评论10喜欢

Hadoop

Apache Hadoop 3.0.0-alpha1正式发布及其更新介绍

Apache Hadoop 3.0.0-alpha1正式发布及其更新介绍
Apache Hadoop 3.0.0-alpha1相对于hadoop-2.x来说包含了许多重要的改进。这里介绍的是Hadoop 3.0.0的alpha版本,主要是便于检测和收集应用开发人员和其他用户的使用反馈。因为是alpha版本,所以本版本的API稳定性和质量没有保证,如果需要在正式开发中使用,请耐心等待稳定版的发布吧。本文将对Hadoop 3.0.0重要的改进进行介绍。Java最低

zz~~   8年前 (2016-09-22) 3338℃ 0评论7喜欢

Spark

Spark+AI Summit Europe 2019 PPT 下载[共122个]

Spark+AI Summit Europe 2019 PPT 下载[共122个]
为期三天的 SPARK + AI SUMMIT Europe 2019 于 2019年10月15日-17日荷兰首都阿姆斯特丹举行。数据和 AI 是需要结合的,而 Spark 能够处理海量数据的分析,将 Spark 和 AI 进行结合,无疑会带来更好的产品。Spark+AI Summit Europe 2019 是欧洲最大的数据和机器学习会议,大约有1700多名数据科学家、工程师和分析师参加此次会议。本次会议的提议包括了A

w397090770   4年前 (2019-11-01) 1424℃ 1评论0喜欢