欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

Flink

Apache Flink 1.2.0新功能概述

Apache Flink 1.2.0新功能概述
  本文将概述即将发布的Apache Flink 1.2.0新功能。在Apache Flink 1.1+版本上,社区主要的集中点在操作性(Operations)、生态系统(Ecosystem)、更广泛的用户(Broader Audience)以及应用特性(Application Features)等方面的开发。各个模块的开发主要包括了如下的方向:如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号

w397090770   7年前 (2016-12-18) 2713℃ 0评论4喜欢

Kafka

[电子书]Building Data Streaming Applications with Apache Kafka PDF下载

[电子书]Building Data Streaming Applications with Apache Kafka PDF下载
本书于2017-08由 Packt 出版,作者 Manish Kumar, Chanchal Singh,全书269页。关注大数据猿(bigdata_ai)公众号及时获取最新大数据相关电子书、资讯等通过本书你将学到以下知识Learn the basics of Apache Kafka from scratchUse the basic building blocks of a streaming applicationDesign effective streaming applications with Kafka using Spark, Storm &, and HeronUnderstand the i

zz~~   6年前 (2017-11-08) 6566℃ 0评论30喜欢

Spark

2014 Spark亚太峰会会议资料下载

2014 Spark亚太峰会会议资料下载
  2014 Spark亚太峰会12月6日在北京珠三角万豪酒店圆满收官,来自易观国际、Intel 、亚信科技、TalkingData、Spark亚太研究院、百度、京东、携程、IBM、星环科技、南京大学、洞庭国际智能硬件检测基地、 AdMaster、Docker中文社区、安徽象形科技的十八位演讲嘉宾为来自国内近305家企业,800多位一线开发者,带来了最干货的分享及一手的

w397090770   9年前 (2014-12-18) 29248℃ 251评论34喜欢

HBase

Apache HBase 1.2.1正式发布

Apache HBase 1.2.1正式发布
  Apache HBase 1.2.1 于2016-04-12正式发布了,HBase 1.2.1是HBase 1.2.z版本线上的第一个维护版本,该版本的主题仍然是为Hadoop和NoSQL社区带来稳定和可靠的数据库。此版本在1.2.0版本上解决了27个issues。主要的Bug修改* [HBASE-15441] - Fix WAL splitting when region has moved multiple times* [HBASE-15219] - Canary tool does not return non-zero exit code when

w397090770   8年前 (2016-04-14) 3103℃ 0评论2喜欢

Spark

一条 SQL 在 Apache Spark 之旅(中)

一条 SQL 在 Apache Spark 之旅(中)
在 《一条 SQL 在 Apache Spark 之旅(上)》 文章中我们介绍了一条 SQL 在 Apache Spark 之旅的 Parser 和 Analyzer 两个过程,本文接上文继续介绍。优化逻辑计划阶段 - Optimizer在前文的绑定逻辑计划阶段对 Unresolved LogicalPlan 进行相关 transform 操作得到了 Analyzed Logical Plan,这个 Analyzed Logical Plan 是可以直接转换成 Physical Plan 然后在 Spark 中执

w397090770   5年前 (2019-06-18) 5518℃ 4评论21喜欢

Hive

用Hive分析nginx日志

用Hive分析nginx日志
  这里用到的nginx日志是网站的访问日志,比如:[code lang="java"]180.173.250.74 - - [08/Jan/2015:12:38:08 +0800] "GET /avatar/xxx.png HTTP/1.1" 200 968 "/archives/994" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36"[/code]  这条日志里面有九列(为了展示的美观,我在里面加入了换行

w397090770   9年前 (2015-01-08) 14208℃ 2评论17喜欢

Hadoop

Apache Hadoop 3.x 最新状态以及升级指南

Apache Hadoop 3.x 最新状态以及升级指南
本文来自 2019年9月23日至26日在纽约举办的 Strata Data Conference,分享者是来自 Cloudera 的 Wangda Tan 和 Wei-Chiu Chuang,会议页面 https://conferences.oreilly.com/strata/strata-ny-2019/public/schedule/detail/77506。请关注 过往记忆大数据 微信公众号,并在后台回复 hadoop_3 关键字获取本文的 PPT 下载地址。如果想及时了解Spark、Hadoop或者HBase相关的文章,

w397090770   4年前 (2020-02-04) 2158℃ 2评论5喜欢

TubeMQ

TubeMQ:腾讯开源的万亿级分布式消息中间件

TubeMQ:腾讯开源的万亿级分布式消息中间件
TubeMQ 是腾讯在 2013 年自研的分布式消息中间件系统,专注服务大数据场景下海量数据的高性能存储和传输,经过近7年上万亿的海量数据沉淀,目前日均接入量超过25万亿条。较之于众多明星的开源MQ组件,TubeMQ 在海量实践(稳定性+性能)和低成本方面有着比较好的核心优势。该项目于 2019年11月03日正式进入 Apache 孵化器。TubeMQ的

w397090770   5年前 (2019-09-18) 613℃ 0评论2喜欢

Spark

上海第四次Spark meetup会议资料分享

上海第四次Spark meetup会议资料分享
  《Spark meetup(Beijing)资料分享》  《Spark meetup(杭州)PPT资料分享》  《北京第二次Spark meetup会议资料分享》  《北京第三次Spark meetup会议资料分享》  《北京第四次Spark meetup会议资料分享》  《北京第五次Spark meetup会议资料分享》》  《北京第六次Spark meetup会议资料分享》  《杭州第三次Spark meetup会议

w397090770   9年前 (2015-05-29) 5381℃ 0评论3喜欢

Apache Iceberg

Apache iceberg:Netflix 数据仓库的基石

Apache iceberg:Netflix 数据仓库的基石
如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoopApache Iceberg 是一种用于跟踪超大规模表的新格式,是专门为对象存储(如S3)而设计的。 本文将介绍为什么 Netflix 需要构建 Iceberg,Apache Iceberg 的高层次设计,并会介绍那些能够更好地解决查询性能问题的细节。如果想及时了解Spark、Hadoop或者HBase

w397090770   4年前 (2020-02-23) 2934℃ 0评论6喜欢

其他

欢迎加入阿里云 Dala Lake Analytics 团队

欢迎加入阿里云 Dala Lake Analytics 团队
如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop回望过去10年,数据技术发展迅速,数据也在呈现爆炸式的增长,这也伴随着如下两个现象。一、数据更加分散:企业的数据是散落在不同的数据存储之中,如对象存储OSS,OLTP的MySQL,NoSQL的Mongo及HBase,以及数据仓库ADB之中,甚至是以服务的形式

w397090770   4年前 (2020-01-07) 1163℃ 0评论3喜欢

Hadoop

HDFS 归档存储编程指南

HDFS 归档存储编程指南
介绍HDFS 归档存储(Archival Storage)是从 Hadoop 2.6.0 开始引入的(参见 HDFS-6584)。归档存储是一种将增长的存储容量与计算容量解耦的解决方案。我们可以在集群中部署一些具有更高密度、更便宜的存储且提供更低计算能力的节点,并且可以用作集群中的冷数据存储器。根据我们的设置,可以将热数据移到冷存储介质中。通过添加更

w397090770   4年前 (2020-04-15) 1640℃ 0评论3喜欢

Apache SeaTunnel

Waterdrop:构建在Spark之上的简单高效数据处理系统

Waterdrop:构建在Spark之上的简单高效数据处理系统
Databricks 开源的 Apache Spark 对于分布式数据处理来说是一个伟大的进步。我们在使用 Spark 时发现了很多可圈可点之处,我们在此与大家分享一下我们在简化Spark使用和编程以及加快Spark在生产环境落地上做的一些努力。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop一个Spark Streaming读取Kafka

w397090770   6年前 (2018-02-28) 6561℃ 0评论13喜欢

ElasticSearch

滴滴ElasticSearch千万级TPS写入性能翻倍技术剖析

滴滴ElasticSearch千万级TPS写入性能翻倍技术剖析
桔妹导读:滴滴ElasticSearch平台承接了公司内部所有使用ElasticSearch的业务,包括核心搜索、RDS从库、日志检索、安全数据分析、指标数据分析等等。平台规模达到了3000+节点,5PB 的数据存储,超过万亿条数据。平台写入的峰值写入TPS达到了2000w/s,每天近 10 亿次检索查询。为了承接这么大的体量和丰富的使用场景,滴滴ElasticSearch需要

w397090770   4年前 (2020-08-19) 1318℃ 0评论6喜欢

Spark

Spark北京Meetup第九次活动-Zeppelin主题

Spark北京Meetup第九次活动-Zeppelin主题
一、活动时间  北京第九次Spark Meetup活动将于2015年08月22日进行;下午14:00-18:00。二、活动地点  北京市海淀区丹棱街5号 微软亚太研发集团总部大厦1号楼三、活动内容  1、《Keynote》 ,分享人:Sejun Ra ,CEO of NFLabs.com  2、《An introduction to Zeppelin with a demo》,分享人: Anthony Corbacho, Engineer from NFLabs and

w397090770   9年前 (2015-08-07) 2808℃ 0评论1喜欢

Hive

使用Python编写Hive UDF

使用Python编写Hive UDF
Hive 内置为我们提供了大量的常用函数用于日常的分析,但是总有些情况这些函数还是无法满足我们的需求;值得高兴的是,Hive 允许用户自定义一些函数,用于扩展 HiveQL 的功能,这类函数叫做 UDF(用户自定义函数)。使用 Java 编写 UDF 是最常见的方法,但是本文介绍的是如何使用 Python 来编写 Hive 的 UDF 函数。如果想及时了解S

w397090770   6年前 (2018-01-24) 14372℃ 0评论26喜欢

Hadoop

Hive:用Java代码通过JDBC连接Hiveserver

Hive:用Java代码通过JDBC连接Hiveserver
我们可以通过CLI、Client、Web UI等Hive提供的用户接口来和Hive通信,但这三种方式最常用的是CLI;Client 是Hive的客户端,用户连接至 Hive Server。在启动 Client 模式的时候,需要指出Hive Server所在节点,并且在该节点启动 Hive Server。 WUI 是通过浏览器访问 Hive。今天我们来谈谈怎么通过HiveServer来操作Hive。Hive提供了jdbc驱动,使得我们可以

w397090770   10年前 (2013-12-17) 65409℃ 6评论55喜欢

Spark meetup

上海Spark Meetup第六次聚会

上海Spark Meetup第六次聚会
  上海Spark Meetup第六次聚会将于2015年08月08日下午1:30 PM to 5:00 PM在上海市杨浦云计算创新基地发展有限公司举办,详细地址上海市杨浦区伟德路6号云海大厦13楼。本次聚会由Intel举办。大会主题主讲题目:Tachyon: 内存为中心可容错的分布式存储系统  摘要:在越来越多的大数据应用场景诸如机器学习,数据分析等, 内存成

w397090770   9年前 (2015-08-28) 4441℃ 0评论1喜欢

Data + AI Summit

Spark SQL 查询 Parquet 文件的性能提升 30%,字节是如何做到的?

Spark SQL 查询 Parquet 文件的性能提升 30%,字节是如何做到的?
本文来自11月举办的 Data + AI Summit 2020 (原 Spark+AI Summit),主题为《Improving Spark SQL Performance by 30%: How We Optimize Parquet Filter Pushdown and Parquet Reader》的分享,作者为字节跳动的孙科和郭俊。相关 PPT 可以关注 Java与大数据架构 公众号并回复 9912 获取。Parquet 是一种非常流行的列式存储格式。Spark 的算子下推(pushdown filters)可以利用 P

w397090770   3年前 (2020-12-14) 2123℃ 2评论4喜欢

资料分享

2021年最新美区 Apple ID 注册教程

2021年最新美区 Apple ID 注册教程
国内区 Apple ID 转美国区的教程参见:2021年最新中国区 Apple ID 转美国区教程注意:下面的操作步骤是在2021年10月29日进行的,过程中都没有使用到 VPN 软件。使用苹果手机的有可能知道,国内使用的 App Store 只能下载国内的一些 APP 应用。有一些 APP 并没有在国内 App Store 上架,这时候就无法下载。我们需要使用一个国外的 Apple I

w397090770   2年前 (2021-10-22) 3913℃ 0评论5喜欢

Linux

六种使用Linux命令发送带附件的邮件

六种使用Linux命令发送带附件的邮件
在很多场景中我们会使用Shell命令来发送邮件,而且我们还可能在邮件里面添加附件,本文将介绍使用Shell命令发送带附件邮件的几种方式,希望对大家有所帮助。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop使用mail命令mail命令是mailutils(On Debian)或mailx(On RedHat)包中的一部分,我们可以使

w397090770   7年前 (2017-02-23) 15949℃ 0评论12喜欢

Spark

Apache Spark 2.0重大功能介绍

Apache Spark 2.0重大功能介绍
  Apache Spark 2.0发布信息可以参见《Apache Spark 2.0.0正式发布及其功能介绍》  我们很荣幸地宣布,自7月26日起Databricks开始提供Apache Spark 2.0的下载,这个版本是基于社区在过去两年的经验总结而成,不但加入了用户喜爱的功能,也修复了之前的痛点。  本文总结了Spark 2.0的三大主题:更简单、更快速、更智能,另有Spark

w397090770   8年前 (2016-07-28) 14298℃ 0评论28喜欢

Hive

Hive SQL迁移 Spark SQL 在网易传媒的实践

Hive SQL迁移 Spark SQL 在网易传媒的实践
引言:把基于mapreduce的离线hiveSQL任务迁移到sparkSQL,不但能大幅缩短任务运行时间,还能节省不少计算资源。最近我们也把组内2000左右的hivesql任务迁移到了sparkSQL,这里做个简单的记录和分享,本文偏重于具体条件下的方案选择。迁移背景 SQL任务运行慢Hive SQL处理任务虽然较为稳定,但是其时效性已经达瓶颈,无法再进一

w397090770   2年前 (2021-10-19) 749℃ 0评论2喜欢

Kafka

Apache Kafka 2.5.0 稳定版正式发布

Apache Kafka 2.5.0 稳定版正式发布
Apache Kafka 2.5.0 稳定版于美国当地时间2020年4月15日正式发布,这个版本包含了一系列的重要功能发布,比较重要的可以特性重要包括:支持 TLS 1.3 (目前默认是用 1.2)Kafka Streams DSL 中支持 Co-groups; Kafka Consumer 支持增量再平衡(Incremental rebalance)为更好地洞察算子运行,引入了新的指标;Apache Zookeeper 升级到 3.5.7不再支持 Scala

w397090770   4年前 (2020-04-19) 1478℃ 0评论3喜欢

Spark

Spark源码分析:多种部署方式之间的区别与联系(1)

Spark源码分析:多种部署方式之间的区别与联系(1)
  《Spark源码分析:多种部署方式之间的区别与联系(1)》  《Spark源码分析:多种部署方式之间的区别与联系(2)》  从官方的文档我们可以知道,Spark的部署方式有很多种:local、Standalone、Mesos、YARN.....不同部署方式的后台处理进程是不一样的,但是如果我们从代码的角度来看,其实流程都差不多。  从代码中,我们

w397090770   10年前 (2014-10-24) 7659℃ 2评论14喜欢

Alluxio

Alluxio 对 Presto 的查询性能加速测试报告

Alluxio 对 Presto 的查询性能加速测试报告
金山云-企业云团队(赵侃、李金辉)在交互查询场景下对Presto与Alluxio相结合进行了一系列测试,并总结了一些Presto搭配Alluxio使用的建议。本次测试未使用对象存储,计算引擎与存储间的网络延时也比较低。如果存储IO耗时和网络耗时较大时,Alluxio加速收益应会更明显。测试目的验证影响Alluxio加速收益的各种因素记录Alluxio

w397090770   2年前 (2022-03-29) 655℃ 0评论1喜欢

Memsql

使用Spark和MemSQL Spark连接器运行实时应用

使用Spark和MemSQL Spark连接器运行实时应用
  Apache Spark是目前非常强大的分布式计算框架。其简单易懂的计算框架使得我们很容易理解。虽然Spark是在操作大数据集上很有优势,但是它仍然需要将数据持久化存储,HDFS是最通用的选择,和Spark结合使用,因为它基于磁盘的特点,导致在实时应用程序中会影响性能(比如在Spark Streaming计算中)。而且Spark内置就不支持事务提交(

w397090770   9年前 (2015-04-22) 10143℃ 0评论8喜欢

CarbonData

Apache CarbonData快速入门编程指南

Apache CarbonData快速入门编程指南
  CarbonData是由华为开发、开源并支持Apache Hadoop的列式存储文件格式,支持索引、压缩以及解编码等,其目的是为了实现同一份数据达到多种需求,而且能够实现更快的交互查询。目前该项目正处于Apache孵化过程中。详情参见《CarbonData:华为开发并支持Hadoop的列式文件格式》,本文是单机模式下使用CarbonData的,如果你需要集群模

w397090770   8年前 (2016-07-01) 8312℃ 3评论6喜欢

ClickHouse

京东 ClickHouse 高可用实践

京东 ClickHouse 高可用实践
导读:京东OLAP采取ClickHouse为主Doris为辅的策略,有3000台服务器,每天亿次查询万亿条数据写入,广泛服务于各个应用场景,经过历次大促考验,提供了稳定的服务。本文介绍了ClickHouse在京东的高可用实践,包括选型过程、集群部署、高可用架构、问题和规划。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公共帐

w397090770   3年前 (2021-09-03) 612℃ 0评论0喜欢

Scala

Scala正则表达式替换

Scala正则表达式替换
在之前的博文《Scala正则表达式》我简单地介绍了如何在Scala中使用正则表达式来匹配一些我们需要的内容。本篇文章将接着此文继续简单介绍如何使用Scala来匹配出我们需要的字符串,然后使用某种规则来替换匹配出来的字符串。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop简单正则表

w397090770   7年前 (2017-06-26) 8095℃ 0评论15喜欢