欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

Presto

Starburst 性能白皮书一 - Presto CBO 优化

Starburst 性能白皮书一 - Presto CBO 优化
Depending on the complexity of your SQL query there are many, often exponential, query plans that return the same result. However, the performance of each plan can vary drastically; taking only seconds to finish or days given the chosen plan.That places a significant burden on analysts who will then have to know how to write performant SQL. This problem gets worse as the complexity of questions and SQL queries increases. In the abse

w397090770   2年前 (2022-04-20) 511℃ 0评论1喜欢

Flink

Flink部署在Google计算引擎平台上

Flink部署在Google计算引擎平台上
  本文将介绍如何在Google Compute Engine(https://cloud.google.com/compute/)平台上基于 Hadoop 1 或者 Hadoop 2 自动部署 Flink 。借助 Google 的 bdutil(https://cloud.google.com/hadoop/bdutil) 工具可以启动一个集群并基于 Hadoop 部署 Flink 。根据下列步骤开始我们的Flink部署吧。要求(Prerequisites)安装(Google Cloud SDK)  请根据该指南了解如何安装 Google Cl

w397090770   8年前 (2016-04-21) 1734℃ 0评论3喜欢

Spark

深入理解 Spark SQL 的 Catalyst 优化器

深入理解 Spark SQL 的 Catalyst 优化器
Spark SQL 是 Spark 最新且技术最复杂的组件之一。它同时支持 SQL 查询和新的 DataFrame API。Spark SQL 的核心是 Catalyst 优化器,它以一种全新的方式利用高级语言的特性(例如:Scala 的模式匹配和 Quasiquotes ①)构建一个可扩展的查询优化器。最近我们在 SIGMOD 2015 发表了一篇论文(合作者:Davies Liu,Joseph K. Bradley,Xiangrui Meng,Tomer Kaftan

w397090770   5年前 (2019-07-21) 3178℃ 0评论5喜欢

面试题

字符串相似度计算

字符串相似度计算
思想是编程之美上面的,我只是做了一点点优化。。。许多程序会大量使用字符串。对于不同的字符串,我们希望能够有办法判断其相似程序。我们定义一套操作方法来把两个不相同的字符串变得相同,具体的操作方法为:1.修改一个字符(如把“a”替换为“b”); 2.增加一个字符(如把“abdd”变为“aebdd”); 3.删除一个字

w397090770   11年前 (2013-03-31) 5244℃ 0评论6喜欢

Spark

Spark+AI Summit 2019 PPT 下载[共124个]

Spark+AI Summit 2019 PPT 下载[共124个]
为期三天的 SPARK + AI SUMMIT 2019 于 2019年04月23日-25日在旧金山(San Francisco)进行。数据和 AI 是需要结合的,而 Spark 能够处理海量数据的分析,将 Spark 和 AI 进行结合,无疑会带来更好的产品。作为大数据领域的顶级会议,Spark+AI Summit 2019 吸引了全球大量技术大咖参会,而且 Spark+AI Summit 越做越大,本次会议议题快接近200多个。会议的

w397090770   5年前 (2019-05-07) 813℃ 0评论0喜欢

Spark

Spark meetup(Beijing)资料分享

Spark meetup(Beijing)资料分享
  《Spark meetup(Beijing)资料分享》  《Spark meetup(杭州)PPT资料分享》  《北京第二次Spark meetup会议资料分享》  《北京第三次Spark meetup会议资料分享》  《北京第四次Spark meetup会议资料分享》  《北京第五次Spark meetup会议资料分享》》  《北京第六次Spark meetup会议资料分享》  下面是Spark meetup(Beijing)第

w397090770   10年前 (2014-08-29) 23664℃ 204评论16喜欢

CPP编程

Linux库memcpy函数实现

Linux库memcpy函数实现
memcpy函数在面试中很容易被问到如何去实现。memcpy函数是内存拷贝函数,用于将一段内存空间数据拷贝到另一段内存空间中,但是它和memmove函数不同的是,它对内存空间有要求的,dest和src所指向的内存空间不能重叠,否则的数据是错误的。例如:src所指向的内存空间后面部分数据被新拷贝的数据给覆盖了,所以拷贝到最后,数

w397090770   11年前 (2013-04-05) 20178℃ 8喜欢

Presto

Presto 动态过滤(dynamic filtering)原理与应用

Presto 动态过滤(dynamic filtering)原理与应用
早在2005年,Oracle 数据库就支持比较丰富的 dynamic filtering 功能,而 Spark 和 Presto 在最近版本才开始支持这个功能。本文将介绍 Presto 动态过滤的原理以及具体使用。Apache Spark 的动态分区裁减Apache Spark 3.0 给我们带来了许多的新特性用于加速查询性能,其中一个就是动态分区裁减(Dynamic Partition Pruning,DPP),所谓的动态分区裁剪就

w397090770   3年前 (2021-06-01) 1220℃ 0评论2喜欢

Hadoop

汽车之家离线计算平台的演进之路

汽车之家离线计算平台的演进之路
本次的分享内容分成四个部分: 1.汽车之家离线计算平台现状2.平台构建过程中遇到的问题3.基于构建过程中问题的解决方案4.离线计算平台未来规划 汽车之家离线计算平台现状 1. 汽车之家离线计算平台发展历程如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据 2013年的时候汽

w397090770   3年前 (2021-08-30) 502℃ 0评论2喜欢

Hadoop

HDFS Federation在美团点评的应用与改进

HDFS Federation在美团点评的应用与改进
  HDFS Federation为HDFS系统提供了NameNode横向扩容能力。然而作为一个已实现多年的解决方案,真正应用到已运行多年的大规模集群时依然存在不少的限制和问题。本文以实际应用场景出发,介绍了HDFS Federation在美团点评的实际应用经验。 背景   2015年10月,经过一段时间的优化与改进,美团点评HDFS集群稳定性和性能有显著

zz~~   7年前 (2017-03-17) 1979℃ 0评论7喜欢

Delta Lake

Delta Lake: The Definitive Guide 预览版下载

Delta Lake: The Definitive Guide 预览版下载
本书作者 Denny Lee, Tathagata Das, Vini Jaiswal,预计2022年4月出版,出版社 O'Reilly Media, Inc.,ISBN:9781098104528分析和机器学习模型的好坏取决于它们所依赖的数据。查询处理过的数据并从中获得见解需要一个健壮的数据管道——以及一个有效的存储解决方案,以确保数据质量、数据完整性和性能。本指南向您介绍 Delta Lake,这是一种开

w397090770   3年前 (2021-05-27) 521℃ 0评论2喜欢

Java

CentOS 6.4安装谷歌浏览器(Chrome)

CentOS 6.4安装谷歌浏览器(Chrome)
  Google的Chrome浏览器很不错,很多人都希望能在CentOS里面用上chrome,于是用下面的命令来安装Chrome:[code lang="JAVA"]yum install google-chrome-stable[/code]但是一般都会出现以下的情况:[code lang="JAVA"]Error: Package: google-chrome-stable-28.0.1500.95-213514.x86_64 (google64) Requires: libstdc++.so.6(GLIBCXX_3.4.15)(64bit) You could try using --skip-broken to work

w397090770   11年前 (2013-10-24) 6748℃ 1评论6喜欢

Spark

Spark Standalone模式应用程序开发

Spark Standalone模式应用程序开发
  在本博客的《Spark快速入门指南(Quick Start Spark)》文章中简单地介绍了如何通过Spark shell来快速地运用API。本文将介绍如何快速地利用Spark提供的API开发Standalone模式的应用程序。Spark支持三种程序语言的开发:Scala (利用SBT进行编译), Java (利用Maven进行编译)以及Python。下面我将分别用Scala、Java和Python开发同样功能的程序:一、Scala

w397090770   10年前 (2014-06-10) 16401℃ 2评论7喜欢

Spark meetup

上海Spark Meetup第九次聚会

上海Spark Meetup第九次聚会
  Shanghai Apache Spark Meetup第九次聚会将在6月18日下午13:00-17:00由Intel联手饿了么在上海市普陀区金沙江路1518弄2号近铁城市广场饿了么公司5楼会议室(榴莲酥+螺狮粉)举行。欢迎大家前来参加!会议主题开场/Opening Keynote: 毕洪宇,饿了么数据运营部副总监  毕洪宇个人介绍:饿了么数据运营部副总监。本科和研究生都是同济

w397090770   8年前 (2016-06-12) 1710℃ 0评论5喜欢

Hadoop

Hadoop 2.2.0编译hadoop-eclipse-plugin插件

Hadoop 2.2.0编译hadoop-eclipse-plugin插件
  前提条件:  1、安装好jdk1.6或以上版本  2、部署好Hadoop 2.2.0(可以参见本博客《Hadoop2.2.0完全分布式集群平台安装与设置》)  3、安装好ant,这很简单:[code lang="JAVA"]$ wget http://mirrors.cnnic.cn/apache/ant/binaries/apache-ant-1.9.3-bin.tar.gz$ tar -zxvf apache-ant-1.9.3-bin.tar.gz[/code]然后设置好ANT_HOME和PATH就行  4、安装好相

w397090770   10年前 (2014-03-26) 23687℃ 1评论35喜欢

Spark

Spark Streaming中空batches处理的两种方法

Spark Streaming中空batches处理的两种方法
  Spark Streaming是近实时(near real time)的小批处理系统。对给定的时间间隔(interval),Spark Streaming生成新的batch并对它进行一些处理。每个batch中的数据都代表一个RDD,但是如果一些batch中没有数据会发生什么事情呢?Spark Streaming将会产生EmptyRDD的RDD,它的定义如下:[code lang="scala"]package org.apache.spark.rddimport scala.reflect.ClassTagimport

w397090770   9年前 (2015-04-08) 10084℃ 1评论11喜欢

WP技巧

为WordPress的suffusion主题添加文章浏览次数

为WordPress的suffusion主题添加文章浏览次数
  Suffusion 是一款功能十分强大的免费WordPress主题,可以对样式模板、整体框架、内容调用进行自定义设置。本文主要来分享一下如何给文章添加统计次数。 安装WP-PostViews插件,这个是用来统计文章浏览次数的。 依次选择 外观-->编辑-->post-header.php 在里面找到[code lang="CPP"]<span class="comments">[/code]  可以

w397090770   11年前 (2013-04-20) 3462℃ 0评论4喜欢

Kafka

Apache Kafka 2.5.0 稳定版正式发布

Apache Kafka 2.5.0 稳定版正式发布
Apache Kafka 2.5.0 稳定版于美国当地时间2020年4月15日正式发布,这个版本包含了一系列的重要功能发布,比较重要的可以特性重要包括:支持 TLS 1.3 (目前默认是用 1.2)Kafka Streams DSL 中支持 Co-groups; Kafka Consumer 支持增量再平衡(Incremental rebalance)为更好地洞察算子运行,引入了新的指标;Apache Zookeeper 升级到 3.5.7不再支持 Scala

w397090770   4年前 (2020-04-19) 1478℃ 0评论3喜欢

Flink

Blink: 阿里巴巴是如何使用Apache Flink的

Blink: 阿里巴巴是如何使用Apache Flink的
  阿里巴巴是世界上最大的电子商务零售商。 我们在2015年的年销售额总计3940亿美元,超过eBay和亚马逊之和。阿里巴巴搜索(个性化搜索和推荐平台)是客户的关键入口,并承载了大部分在线收入,因此搜索基础架构团队需要不断探索新技术来改进产品。  在电子商务网站应用场景中,什么能造就一个强大的搜索引擎?答案

w397090770   7年前 (2017-02-16) 6862℃ 0评论6喜欢

Kafka

Spring Boot 中读写 Kafka header 信息

Spring Boot 中读写 Kafka header 信息
Apache Kafka 从 0.11.0.0 版本开始支持在消息中添加 header 信息,具体参见 KAFKA-4208。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop本文将介绍如何使用 spring-kafka 在 Kafka Message 中添加或者读取自定义 headers。本文使用各个系统的版本为:Spring Kafka: 2.1.4.RELEASESpring Boot: 2.0.0.RELEASEApache Kafka: kafka

w397090770   6年前 (2018-05-13) 4482℃ 0评论0喜欢

ElasticSearch

Elasticsearch 5.0.0版本新特性介绍

Elasticsearch 5.0.0版本新特性介绍
  Elasticsearch 5.0.0在2016年10月26日发布,该版本基于Lucene 6.2.0,这是最新的稳定版本,并且已经在Elastic Cloud上完成了部署。Elasticsearch 5.0.0是目前最快、最安全、最具弹性、最易用的版本,此版本带来了一系列的新功能和性能优化。ElasticSearch 5.0.0 release Note点击下载ElasticSearch 5.0.0阅读最新文档如果想及时了解Spark、Hadoop或者Hbase

w397090770   8年前 (2016-11-02) 4930℃ 0评论10喜欢

Spark

Apache Spark 3.0 是如何提高 SQL 工作负载的性能

Apache Spark 3.0 是如何提高 SQL 工作负载的性能
在几乎所有处理复杂数据的领域,Spark 已经迅速成为数据和分析生命周期团队的事实上的分布式计算框架。Spark 3.0 最受期待的特性之一是新的自适应查询执行框架(Adaptive Query Execution,AQE),该框架解决了许多 Spark SQL 工作负载遇到的问题。AQE 在2018年初由英特尔和百度组成的团队最早实现。AQE 最初是在 Spark 2.4 中引入的, Spark 3.0 做

w397090770   3年前 (2021-05-23) 1052℃ 0评论2喜欢

Cassandra

欢迎加入中国 Cassandra 技术社区

欢迎加入中国 Cassandra 技术社区
Apache Cassandra 是一个开源的、分布式、无中心、弹性可扩展、高可用、容错、一致性可调、面向行的数据库,它基于 Amazon Dynamo 的分布式设计和 Google Bigtable 的数据模型,由 Facebook 创建,在一些最流行的网站中得到应用。更多特点请参见 一篇文章了解 Apache Cassandra 是什么。由于 Cassandra 数据库的众多优点,在国内外多达 1500+ 家公

w397090770   5年前 (2019-05-08) 1679℃ 0评论5喜欢

Beam

Apache Beam 0.5.0正式发布

Apache Beam 0.5.0正式发布
  今天,Apache Beam 0.5.0 发布了,此版本通过新的State API添加对状态管道的支持,并通过新的Timer API添加对计时器的支持。 此外,该版本还为Elasticsearch和MQ Telemetry Transport(MQTT)添加了新的IO连接器,以及常见的一些错误修复和改进。对于此版本中的所有主要更改,请参阅release notes。如果想及时了解Spark、Hadoop或者Hbase相关的文

w397090770   7年前 (2017-02-10) 932℃ 0评论2喜欢

大数据

过往记忆大数据,2019年原创精选69篇

过往记忆大数据,2019年原创精选69篇
这是一份迟来的年终报告,本来昨天就要发出来的,实在是没忙开,今天我就把它当作新年礼物送给各位看官,以下文章都是我结合日常工作、学习,每当“夜深人静"的时候写出来的一些小总结,希望能给大家一些技术上的帮助。关注我的朋友都知道,我在今年八月份发了一篇文章,里面整理了我五年来写在这个公众号上面的原

w397090770   4年前 (2020-01-04) 1327℃ 0评论1喜欢

Flink

Flink快速上手之Scala API使用

Flink快速上手之Scala API使用
  本文将介绍如何通过简单地几步来开始编写你的 Flink Scala 程序。构建工具  Flink工程可以使用不同的工具进行构建,为了快速构建Flink工程, Flink为下面的构建工具分别提供了模板:  1、SBT  2、Maven这些模板可以帮助我们组织项目结构并初始化一些构建文件。SBT创建工程1、使用Giter8可以使用下

w397090770   8年前 (2016-04-07) 10087℃ 0评论8喜欢

Spark

Spark Streaming性能调优详解

Spark Streaming性能调优详解
  Spark Streaming提供了高效便捷的流式处理模式,但是在有些场景下,使用默认的配置达不到最优,甚至无法实时处理来自外部的数据,这时候我们就需要对默认的配置进行相关的修改。由于现实中场景和数据量不一样,所以我们无法设置一些通用的配置(要不然Spark Streaming开发者就不会弄那么多参数,直接写死不得了),我们需

w397090770   9年前 (2015-04-27) 26864℃ 0评论34喜欢

Cassandra

印度版的“大众点评”如何将 Food Feed 业务从 Redis 迁移到 Cassandra

印度版的“大众点评”如何将 Food Feed 业务从 Redis 迁移到 Cassandra
Zomato 是一家食品订购、外卖及餐馆发现平台,被称为印度版的“大众点评”。目前,该公司的业务覆盖全球24个国家(主要是印度,东南亚和中东市场)。本文将介绍该公司的 Food Feed 业务是如何从 Redis 迁移到 Cassandra 的。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公众号:iteblog_hadoopFood Feed 是 Zomato 社交场景

w397090770   5年前 (2019-09-08) 1117℃ 0评论2喜欢

Spark meetup

上海Spark meetup第七次聚会

上海Spark meetup第七次聚会
  新年伊始,上海Spark meetup第七次聚会将于2016年1月23日(周六)在上海市长宁区金钟路968号凌空SOHO 8号楼 进行。此次聚会由Intel联合携程举办,此次活动特别邀请到来自 携程,Splunk以及intel大数据的专家和大家分享Spark技术及实践经验,幸运听众还会得到一本签名版的Spark技术书籍。 大会主题  1、开场/Opening Keynote: 张翼,携

w397090770   8年前 (2016-01-16) 2700℃ 0评论3喜欢

Kafka

在Kafka中使用Avro编码消息:Consumer篇

在Kafka中使用Avro编码消息:Consumer篇
我在《在Kafka中使用Avro编码消息:Producter篇》文章中简单介绍了如何发送 Avro 类型的消息到 Kafka。本文接着上文介绍如何从 Kafka 读取 Avro 格式的消息。关于 Avro 我这就不再介绍了。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop从 Kafka 中读取 Avro 格式的消息从 Kafka 中读取 Avro 格式的消

w397090770   7年前 (2017-09-25) 6216℃ 0评论16喜欢