欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

Spark

Spark Structured Streaming特性介绍

Spark Structured Streaming特性介绍
为帮助开发者更深入的了解这三个大数据开源技术及其实际应用场景,9月8日,InfoQ联合华为云举办了一场实时大数据Meetup,集结了来自Databricks、华为及美团点评的大咖级嘉宾前来分享。作为Spark Structured Streaming最核心的开发人员、Databricks工程师,Tathagata Das(以下简称“TD”)在开场演讲中介绍了Structured Streaming的基本概念

w397090770   6年前 (2018-09-21) 4780℃ 0评论10喜欢

Spark

Spark 1.1.1发布

Spark 1.1.1发布
  Spark 1.1.1于美国时间的2014年11月26日正式发布。基于branch-1.1分支,主要修复了一些bug。推荐所有的1.1.0用户更新到这个稳定版本。本次更新共有55位开发者参与。  spark.shuffle.manager仍然使用Hash作为默认值,说明了SORT的Shuffle还不怎么成熟。等待1.2版本吧。Fixes  Spark 1.1.1修复了几个组件的bug。在下面将会列出一些代表性的b

w397090770   9年前 (2014-11-28) 3235℃ 0评论5喜欢

Spark

Apache Spark 动态分区 OverWrite 问题

Apache Spark 动态分区 OverWrite 问题
如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop假设我们有以下表:[code lang="scala"]scala> spark.sql("""CREATE TABLE iteblog_test (name STRING, id int) using orc PARTITIONED BY (id)""").show(100)[/code]我们往里面插入一些数据:[code lang="sql"]scala> spark.sql("insert into table iteblog_test select

w397090770   4年前 (2020-08-03) 3043℃ 0评论4喜欢

Zookeeper

Apache Zookeeper 磁盘空间预分配策略

Apache Zookeeper 磁盘空间预分配策略
我们知道,Zookeeper 会将所有事务操作的数据记录到日志文件中,这个文件的存储路径可以通过 dataLogDir 参数配置。在写数据之前,Zookeeper 会采用磁盘空间预分配策略;磁盘空间预分配策略主要有以下几点好处:可以让文件尽可能的占用连续的磁盘扇区,减少后续写入和读取文件时的磁盘寻道开销;迅速占用磁盘空间,防止使用

w397090770   6年前 (2018-03-23) 2014℃ 0评论5喜欢

Web服务

理解WSDL的重要性

理解WSDL的重要性
  在昨天我谈到了WSDL的一些概念,今天打算谈谈为什么理解WSDL非常重要。  许多用户可能会提到的一个问题是,既然WSDL文件可以在各种主要的平台上使用工具创建,为什么还要花时间学习WSDL呢?这是因为WSDL文档非常新,学习其内容和工作原理是明智的。由于Web服务正在变得无所不在,所以,理解和掌握WSDL文档的必要性越来

w397090770   11年前 (2013-04-25) 3075℃ 1评论1喜欢

Presto

Presto on Spark:通过 Spark 来扩展 Presto

Presto on Spark:通过 Spark 来扩展 Presto
概述Presto 最初设计是对数据仓库中的数据运行交互式查询,但现在它已经发展成为一个位于开放数据湖分析之上的统一 SQL 引擎,用于交互式和批处理工作负载,数据湖上的流行工作负载包括:报告和仪表盘:这包括为内部和外部开发人员提供自定义报告以获取业务洞察力,以及许多使用 Presto 进行交互式 A/B 测试分析的组织

w397090770   2年前 (2021-11-14) 1223℃ 0评论1喜欢

Spark

Spark函数讲解:collectAsMap

Spark函数讲解:collectAsMap
  功能和collect函数类似。该函数用于Pair RDD,最终返回Map类型的结果。官方文档说明:Return the key-value pairs in this RDD to the master as a Map.Warning: this doesn't return a multimap (so if you have multiple values to the same key, only one value per key is preserved in the map returned)函数原型[code lang="scala"]def collectAsMap(): Map[K, V][/code]实例[code lang="scala

w397090770   9年前 (2015-03-16) 16427℃ 0评论18喜欢

Spark

Apache Spark 2.0重大功能介绍

Apache Spark 2.0重大功能介绍
  Apache Spark 2.0发布信息可以参见《Apache Spark 2.0.0正式发布及其功能介绍》  我们很荣幸地宣布,自7月26日起Databricks开始提供Apache Spark 2.0的下载,这个版本是基于社区在过去两年的经验总结而成,不但加入了用户喜爱的功能,也修复了之前的痛点。  本文总结了Spark 2.0的三大主题:更简单、更快速、更智能,另有Spark

w397090770   8年前 (2016-07-28) 14298℃ 0评论28喜欢

Spark

[电子书]Apache Spark for Data Science Cookbook PDF下载

[电子书]Apache Spark for Data Science Cookbook PDF下载
  Spark已经成为数据科学专业人士最有前途的大数据分析引擎。Apache Spark真正的力量和价值在于它能够以高速和准确的方式执行数据科学任务;Spark的卖点是它结合ETL,批处理分析,实时流分析,机器学习,图形处理和可视化;它允许您轻松处理非结构化的原始数据集。  本书将让您舒适和自信地使用Spark完成数据科学任务。

w397090770   7年前 (2017-02-10) 2127℃ 0评论6喜欢

Spark

Spark函数讲解:coalesce

Spark函数讲解:coalesce
  对RDD中的分区重新进行合并。函数原型[code lang="scala"]def coalesce(numPartitions: Int, shuffle: Boolean = false)    (implicit ord: Ordering[T] = null): RDD[T][/code]  返回一个新的RDD,且该RDD的分区个数等于numPartitions个数。如果shuffle设置为true,则会进行shuffle。实例[code lang="scala"]/** * User: 过往记忆 * Date: 15-03-09 * Time: 上午0

w397090770   9年前 (2015-03-09) 14108℃ 1评论5喜欢

Hive

Hive内置数据类型

Hive内置数据类型
写在前面的话,学Hive这么久了,发现目前国内还没有一本完整的介绍Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关Hive的资料,如果对Hive的东西感兴趣,请关注本博客。https://www.iteblog.com/archives/tag/hive-technology/  Hive的内置数据类型可以分

w397090770   10年前 (2013-12-23) 15434℃ 1评论14喜欢

TubeMQ

TubeMQ:腾讯开源的万亿级分布式消息中间件

TubeMQ:腾讯开源的万亿级分布式消息中间件
TubeMQ 是腾讯在 2013 年自研的分布式消息中间件系统,专注服务大数据场景下海量数据的高性能存储和传输,经过近7年上万亿的海量数据沉淀,目前日均接入量超过25万亿条。较之于众多明星的开源MQ组件,TubeMQ 在海量实践(稳定性+性能)和低成本方面有着比较好的核心优势。该项目于 2019年11月03日正式进入 Apache 孵化器。TubeMQ的

w397090770   5年前 (2019-09-18) 613℃ 0评论2喜欢

Scala

在 json4s 中自定义 CustomSerializer

在 json4s 中自定义 CustomSerializer
到目前为止,Scala 环境下至少存在6种 Json 解析的类库,这里面不包括 Java 语言实现的 Json 类库。所有这些库都有一个非常相似的抽象语法树(AST)。而 json4s 项目旨在提供一个单一的 AST 树供其他 Scala 类库来使用。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoopjson4s 的使用非常的简单,它可以将

w397090770   5年前 (2018-11-15) 1078℃ 0评论4喜欢

Spark

[电子书]Machine Learning with Spark PDF下载

[电子书]Machine Learning with Spark PDF下载
  本书介绍了用作各种机器学习模型输入的数据集加载和处理的Spark API的基础知识。书中有详细的示例和现实世界的用例,并探索常见的机器学习模型,包括推荐系统,分类,回归,聚类和降维。最后涵盖了一些高级主题,如使用大规模文本数据以及使用Spark Streaming进行在线机器学习和模型评估的方法。通过本书将学习到以下

w397090770   7年前 (2017-02-12) 2631℃ 0评论4喜欢

Spark

Apache Spark 2.4 新增内置函数和高阶函数使用介绍

Apache Spark 2.4 新增内置函数和高阶函数使用介绍
Apache Spark 2.4 新增了24个内置函数和5个高阶函数,本文将对这29个函数的使用进行介绍。关于 Apache Spark 2.4 的新特性,可以参见 《Apache Spark 2.4 正式发布,重要功能详细介绍》。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop针对数组类型的函数array_distinctarray_distinct(array<T>): array<T

w397090770   5年前 (2018-11-25) 7065℃ 0评论18喜欢

Spark

Spark SQL中Join常用的几种实现

Spark SQL中Join常用的几种实现
引言Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。SparkSQL作为大数据领域的SQL实现,自然也对Join操作做了不少优化,今天主要看一下在SparkSQL中对于Join,常见的3种实现。Spark SQL中Join常用的实现Broadc

zz~~   7年前 (2017-07-09) 8273℃ 0评论16喜欢

CPP编程

C++中构造函数何时才会构建

C++中构造函数何时才会构建
当用户未定义一个默认的构造函数,编译器并不是在任何时候都给自动给我们定义一个默认的构造函数,它只会在编译器需要的时候才会生成,并且只有class类型的变量会被初始化,其他的诸如内置类型变量或者指针都不会被初始化,这些变量的初始化工作是程序员的责任。同样,一个类的默认复制构造函数也不是什么时候都会

w397090770   11年前 (2013-04-04) 31957℃ 0评论1喜欢

Hive

如何彻底解决 Hive 小文件问题

如何彻底解决 Hive 小文件问题
最近发现离线任务对一个增量Hive表的查询越来越慢,这引起了我的注意,我在cmd窗口手动执行count操作查询发现,速度确实很慢,才不到五千万的数据,居然需要300s,这显然是有问题的,我推测可能是有小文件。我去hdfs目录查看了一下该目录:发现确实有很多小文件,有480个小文件,我觉得我找到了问题所在,那么合并一

zz~~   3年前 (2021-08-20) 1054℃ 0评论3喜欢

Spark

通过spark-redshift工具包读取Redshift上的表

通过spark-redshift工具包读取Redshift上的表
  Spark Data Source API是从Spark 1.2开始提供的,它提供了可插拔的机制来和各种结构化数据进行整合。Spark用户可以从多种数据源读取数据,比如Hive table、JSON文件、Parquet文件等等。我们也可以到http://spark-packages.org/(这个网站貌似现在不可以访问了)网站查看Spark支持的第三方数据源工具包。本文将介绍新的Spark数据源包,通过它我们

w397090770   9年前 (2015-10-21) 3756℃ 0评论4喜欢

Kafka

Apache Kafka 2.3 发布,新特性讲解

Apache Kafka 2.3 发布,新特性讲解
Apache Kafka 近期发布了 2.3.0 版本,主要的新特性如下:Kafka Connect REST API 已经有了一些改进。Kafka Connect 现在支持增量协同重新均衡(incremental cooperative rebalancing)Kafka Streams 现在支持内存会话存储和窗口存储;AdminClient 现在允许用户确定他们有权对主题执行哪些操作;broker 增加了一个新的启动时间指标;JMXTool现在可以连接到安

w397090770   5年前 (2019-06-27) 2971℃ 0评论6喜欢

Presto

ASM 与 Presto 动态代码生成简介

ASM 与 Presto 动态代码生成简介
代码生成是很多计算引擎中常用的执行优化技术,比如我们熟悉的 Apache Spark 和 Presto 在表达式等地方就使用到代码生成技术。这两个计算引擎虽然都用到了代码生成技术,但是实现方式完全不一样。在 Spark 中,代码生成其实就是在 SQL 运行的时候根据相关算子动态拼接 Java 代码,然后使用 Janino 来动态编译生成相关的 Java 字节码并

w397090770   3年前 (2021-09-28) 552℃ 0评论3喜欢

Flume

用Maven编译Apache flume-ng 1.5.0源码及问题解决

用Maven编译Apache flume-ng 1.5.0源码及问题解决
  在今年的5月22号,Flume-ng 1.5.0版本正式发布,关于Flume-ng 1.5.0版本的新特性可以参见本博客的《Apache Flume-ng 1.5.0正式发布》进行了解。关于Apache flume-ng 1.4.0版本的编译可以参见本博客《基于Hadoop-2.2.0编译flume-ng 1.4.0及错误解决》。本文将讲述如何用Maven编译Apache flume-ng 1.5.0源码。一、到官方网站下载相应版本的flume-ng源码[code lan

w397090770   10年前 (2014-06-16) 20685℃ 23评论14喜欢

Spark

Apache Spark 2.0预览: 机器学习模型持久化

Apache Spark 2.0预览: 机器学习模型持久化
  在即将发布的Apache Spark 2.0中将会提供机器学习模型持久化能力。机器学习模型持久化(机器学习模型的保存和加载)使得以下三类机器学习场景变得容易:  1、数据科学家开发ML模型并移交给工程师团队在生产环境中发布;  2、数据工程师把一个Python语言开发的机器学习模型训练工作流集成到一个Java语言开发的机器

w397090770   8年前 (2016-06-04) 3385℃ 3评论3喜欢

Web服务

软件即为服务

软件即为服务
  虽然Web网页也提供了垮因特网和组织界限访问应用的方式,但Web服务与Web网页并不一样。Web网页直接面向的是人,而Web服务的开发目标是访问者既可以是人也可以是自动化的应用程序。因此,分析一下“软件即为服务”的理念是非常有价值的,这个理念也是Web服务技术的基础。  “软件即为服务”这一理念非常新颖,它首先

w397090770   11年前 (2013-05-07) 3161℃ 0评论1喜欢

Flink

Flink动态表的连续查询(Continuous Queries on Dynamic Tables)

Flink动态表的连续查询(Continuous Queries on Dynamic Tables)
越来越多的公司采用流处理,并将现有的批处理应用迁移到流处理,或者对新的用例采用流处理实现的解决方案。其中许多应用集中在流数据分析上,分析的数据流来自各种源,例如数据库事务、点击、传感器测量或 IoT 设备。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoopApache Flink 非常

w397090770   7年前 (2017-07-20) 3463℃ 0评论16喜欢

HBase

滴滴 HBase 大版本滚动升级之旅

滴滴 HBase 大版本滚动升级之旅
滴滴HBase团队日前完成了0.98版本 -> 1.4.8版本滚动升级,用户无感知。新版本为我们带来了丰富的新特性,在性能、稳定性与易用性方便也均有很大提升。我们将整个升级过程中面临的挑战、进行的思考以及解决的问题总结成文,希望对大家有所帮助。背景目前HBase服务在我司共有国内、海外共计11个集群,总吞吐超过1kw+/s,服务

w397090770   4年前 (2020-06-10) 1459℃ 0评论5喜欢

Java

比较安全的两整数平均值算法实现

比较安全的两整数平均值算法实现
  求两个整数的平均值这个问题相信大家都想过,大家肯定会很快的写出以下的算法:[code lang="JAVA"]public static int mean(int a, int b){ return (a + b) / 2;}或者public static int mean(int a, int b){ return (a + b) >> 1;}或者public static int mean(int a, int b){ return (a + b) >>> 1;}[/code]  不错,上面的函数是能够求出a和b的平

w397090770   11年前 (2013-09-18) 5494℃ 5评论3喜欢

Data + AI Summit

Data + AI Summit 2022 超清视频下载

Data + AI Summit 2022 超清视频下载
Data + AI Summit 2022 于2022年06月27日至30日举行。本次会议是在旧金山进行,中国的小伙伴是可以在线收听的,一共为期四天,第一天是培训,后面几天才是正式会议。本次会议有超过200个议题,演讲嘉宾包括业界、研究和学术界的专家,本次会议主要分为六大块:数据分析, BI 以及可视化:了解最新的数据分析、BI 和可视化技术以及

w397090770   2年前 (2022-07-10) 508℃ 0评论3喜欢

行业资讯

IndexR:千亿级别的实时分析数据库

IndexR:千亿级别的实时分析数据库
背景  舜飞科技的各个业务线对接全网的各大媒体及APP,从而产生大量数据,实时分析这些数据不仅仅用于监控业务的发展,还会影响产品的服务质量,直接创造价值。比如优化师要时刻关注活动的投放质量,竞价算法会根据投放数据实时调整策略,网站主会进行流量分析和快速事故反馈等等。这些分析需求的特点:  1

w397090770   7年前 (2017-01-03) 4600℃ 0评论6喜欢