哎哟~404了~休息一下,下面的文章你可能很感兴趣:
本文是 2021-10-13 日周三下午13:30 举办的议题为《Best Practice in Accelerating Data Applications with Spark+Alluxio》的分享,作者来自 Alluxio 的 David Zhu。本次演讲将分享 Alluxio 和 Spark 集成解决方案的设计和用例,以及在设计和实现 Alluxio分 布式系统时的最佳实践以及不要做什么。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信 w397090770 2年前 (2021-10-28) 513℃ 0评论0喜欢
怎么给wordPress3.5.1的每一篇添加文章的统计信息?wordPress提供了很多文章统计的插件,在这里以postViews为例,展示在每一篇文章后面添加统计信息。如下图所示:第一步:先在Workpress后台 插件-->安装插件-->输入postViews-->安装-->启用。这样就可以添加好postViews插件。但是默认的情况下,postViews是不能在页面显示的,需要自 w397090770 11年前 (2013-03-31) 3513℃ 1评论2喜欢
在极短的时间内,Apache Spark 迅速成长为大数据分析的技术核心。这就使得保守派担心在这个技术更新如此之快的年代它是否会同样快的被淘汰呢。我反而却坚信,spark仅仅是崭露头角。 在过去的几年时间,随着Hadoop技术爆炸和大数据逐渐占据主流地位,几件事情逐渐明晰: 1、对所有数据而言,Hadoop分布式文件系 w397090770 9年前 (2015-08-26) 2809℃ 0评论4喜欢
2014 Spark亚太峰会12月6日在北京珠三角万豪酒店圆满收官,来自易观国际、Intel 、亚信科技、TalkingData、Spark亚太研究院、百度、京东、携程、IBM、星环科技、南京大学、洞庭国际智能硬件检测基地、 AdMaster、Docker中文社区、安徽象形科技的十八位演讲嘉宾为来自国内近305家企业,800多位一线开发者,带来了最干货的分享及一手的 w397090770 9年前 (2014-12-18) 29248℃ 251评论34喜欢
随着Spark项目的逐渐成熟, 越来越多的可配置参数被添加到Spark中来。在Spark中提供了三个地方用于配置:Spark properties:这个可以控制应用程序的绝大部分属性。并且可以通过 SparkConf 对象或者Java 系统属性进行设置;环境变量(Environment variables):这个可以分别对每台机器进行相应的设置,比如IP。这个可以在每台机器的 $SPARK_HOME/co w397090770 10年前 (2014-09-24) 56981℃ 1评论22喜欢
Apache Spark Graph Processing图书由Rindra Ramamonjison所著,全书共148页;Packt Publishing出版社于2015年09月出版。 通过本书你将学习到以下内容 (1)、Write, build and deploy Spark applications with the Scala Build Tool. (2)、Build and analyze large-scale network datasets (3)、Analyze and transform graphs using RDD and graph-specific operations (4) w397090770 7年前 (2017-02-12) 1827℃ 0评论1喜欢
背景数据湖(Data Lake),湖仓一体(Data Lakehouse)俨然已经成为了大数据领域最为火热的流行词,在接受这些流行词洗礼的时候,身为技术人员我们往往会发出这样的疑问,这是一种新的技术吗,还是仅仅只是概念上的翻新(新瓶装旧酒)呢?它到底解决了什么问题,拥有什么样新的特性呢?它的现状是什么,还存在什么问题呢? w397090770 3年前 (2020-11-28) 5646℃ 0评论7喜欢
在使用Spark操作Hbase的时候,其返回的数据类型是RDD[ImmutableBytesWritable,Result],我们可能会对这个结果进行其他的操作,比如join等,但是因为org.apache.hadoop.hbase.io.ImmutableBytesWritable 和 org.apache.hadoop.hbase.client.Result 并没有实现 java.io.Serializable 接口,程序在运行的过程中可能发生以下的异常:[code lang="bash"]Serialization stack: - object not ser w397090770 7年前 (2017-03-23) 5327℃ 1评论13喜欢
基于Kubefed的多集群管理实践多集群场景主要分以下几个方面:1)高可用低延时:应用部署到不同的集群去做高可用2)容灾备份:特别是针对于数据库这类的应用 在a集群对外提供服务的同时给b集群做一次备份 这样在发生故障的时候 可以无缝的迁移到另一个集群去3)业务隔离:尽管kubernetes提供了ns级别的隔离, zz~~ 3年前 (2021-09-24) 195℃ 0评论0喜欢
大家对加州大学伯克利分校的AMPLab可能不太熟悉,但是它的项目我们都有所耳闻——没错,它就是Spark和Mesos的诞生之地。AMPLab是加州大学伯克利分校一个为期五年的计算机研究计划,其初衷是为了理解机器和人如何合作处理和解决数据中的问题——使用数据去训练更加丰富的模型,有效的数据清理,以及进行可衡量的数据扩展。 w397090770 7年前 (2017-02-09) 1289℃ 0评论3喜欢
在本博客的《Flume-1.4.0和Hbase-0.96.0整合》我们已经学习了如何使用Flume-1.4.0和Hbase-0.96.0进行整合。我们可以很容易的配置Hbase sink,并和最新版的Hbase整合,但是由于项目的特殊情况,我需要将Flume-0.9.4和Hbase-0.96整合,搞过这个的人应该知道,Flume-0.9.4和Hbase-0.96非常棘手,各种版本的不兼容等情况,最终通过我和同事的两天奋战 w397090770 10年前 (2014-01-25) 7059℃ 1评论2喜欢
架构B站SQL On Hadoop 整体架构在介绍Presto在B站的实践之前,先从整体来看看SQL在B站的使用情况,在B站的离线平台,核心由三大计算引擎Presto、Spark、Hive以及分布式存储系统HDFS和调度系统Yarn组成。如下架构图所示,我们的ADHOC、BI、DQC以及数据探查等服务都是通过自研的Dispatcher路由服务来进行统一SQL调度,Dispatcher会结合查询 w397090770 2年前 (2022-04-14) 1714℃ 0评论3喜欢
本文作者:汪愈舟 俞育才 郭晨钊 程浩(英特尔),李元健(百度)Spark SQL是Apache Spark最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据,在很多应用领域都有成功的生产实践,但是在超大规模集群和数据集上,Spark SQL仍然遇到不少易用性和可扩展性的挑战。为了应对这些挑战,英特尔大数据技术团 w397090770 6年前 (2018-01-11) 90799℃ 0评论75喜欢
Apache Spark 2.4 新增了24个内置函数和5个高阶函数,本文将对这29个函数的使用进行介绍。关于 Apache Spark 2.4 的新特性,可以参见 《Apache Spark 2.4 正式发布,重要功能详细介绍》。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop针对数组类型的函数array_distinctarray_distinct(array<T>): array<T w397090770 5年前 (2018-11-25) 7065℃ 0评论18喜欢
为期两个月开发的 Apache Flink 1.6.0 于今天(2018-08-09)正式发布了。Flink 社区艰难地解决了 360 个 issues,到这里查看完整版的 changelog 。Flink 1.6.0 是 1.x.y 版本系列上的第七个版本,1.x.y 中所有使用 @Public 标注的 API 都是兼容的。此版本继续使 Flink 用户能够无缝地运行快速数据处理并轻松构建数据驱动和数据密集型应用程序。Apache Fli w397090770 6年前 (2018-08-09) 1904℃ 0评论10喜欢
假设有k个称为顺串的有序序列,我们希望将他们归并到一个单独的有序序列中。每一个顺串包含一些记录,并且这些记录按照键值的大小,以非递减的顺序排列。令n为k个顺串中的所有记录的总数。并归的任务可以通过反复输出k个顺串中键值最小的记录来完成。键值最小的记录的选择有k种可能,它可能是任意有一个顺串中的第1个 w397090770 11年前 (2013-04-01) 6595℃ 2评论7喜欢
由CSDN主办OpenCloud 2015大会于4月16日-18日在国家会议中心成功举办。“2015 OpenStack技术大会”、“2015 Spark技术峰会”、“2015 Container技术峰会”三大峰会及三场深度行业实战培训赢得了讲师和听众们高度认可,40余位一线专家的深度主题演讲赢得阵阵掌声。 2015 spark技术峰会.pushed{color:#f60;}时间议题演讲者09: w397090770 9年前 (2015-04-28) 7517℃ 0评论2喜欢
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 但是Spark官方文档给出的属性只是简单的介绍了一下含义,许多细节并没有涉及到。本文及以后几篇文章将会对Spark官方的各个属性进行说明介绍。以下是根据Spark 1.1.0文档中的属性进行说明。Application相关属性绝大多数的属性控制应用程序的内部设置,并且默认值 w397090770 10年前 (2014-09-25) 17921℃ 1评论20喜欢
Spark Summit 2017 Europe 于2017-10-24 至 26在柏林进行,本次会议议题超过了70多个,会议的全部日程请参见:https://spark-summit.org/eu-2017/schedule/。本次议题主要包括:开发、研究、机器学习、流计算等领域。从这次会议可以看出,当前 Spark 发展两大方向:深度学习(Deep Learning)提升流系统的性能( Streaming Performance)如果想及时了解Spar w397090770 6年前 (2017-11-02) 3512℃ 0评论13喜欢
本文作者:车好多大数据 OLAP 团队-王培,由车好多大数据 OLAP 团队相关同事投稿。Presto 简介简介Presto 最初是由 Facebook 开发的一个分布式 SQL 执行引擎, 它被设计为用来专门进行高速、实时的数据分析,以弥补 Hive 在速度和对接多种数据源上的短板。发展历史如下:2012年秋季,Facebook启动Presto项目2013年冬季,Presto开源 w397090770 3年前 (2020-12-21) 845℃ 0评论3喜欢
即日起,关注@Spark技术博客 及@ 一位微博好友并转发本文章到微博有机会获取《Spark大数据分析实战》:/archives/1590。3月12日在微博抽奖平台抽取1位同学并赠送此书。本活动已经结束,抽奖信息已经在新浪微博抽奖平台公布 《Spark大数据分析实战》由高彦杰和倪亚宇编写,通过典型数据分析应用场景、算法与系统架构,结 w397090770 8年前 (2016-03-02) 8420℃ 0评论44喜欢
关注 iteblog_hadoop 公众号并在这篇文章里面文末评论区留言(认真写评论,增加上榜的机会)。留言点赞数排名前5名的粉丝,各免费赠送一本《深入浅出深度学习:原理剖析与Python实践》,活动截止至08月22日18:00。这篇文章评论区留言才有资格参加送书活动:http://mp.weixin.qq.com/s/R6mqHuaNK819aLrE4tit6A如果想及时了解Spark、Hadoop或者 w397090770 7年前 (2017-08-15) 1567℃ 0评论4喜欢
本文资料来自2020年9月23日举办的 Apache Spark Bogotá 题为《Apache Spark 3.0: Overview of What’s New and Why Care》 的分享。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoopApache Spark 3.0 继续坚持更快、更简单、更智能的目标,这个版本解决了3000多个 JIRAs。在这次演讲中,主要和 Bogota Spark 社区分享 Spark 3.0 的 w397090770 3年前 (2020-10-24) 763℃ 0评论3喜欢
本书于2017-07由Packt Publishing出版,作者Giuseppe Bonaccorso,全书580页。关注大数据猿(bigdata_ai)公众号及时获取最新大数据相关电子书、资讯等通过本书你将学到以下知识Acquaint yourself with important elements of Machine LearningUnderstand the feature selection and feature engineering processAssess performance and error trade-offs for Linear RegressionBuild a data model zz~~ 7年前 (2017-08-27) 4582℃ 0评论14喜欢
这种方法的自由度较高,并且可以创建非WordPress格式的URL,非常有用。比如我们要把 /test 转交给主题文件夹下的 /custom/test.php 来处理,就可以用这种方式来处理。这种方法用到 template redirect 钩子,template redirect 是 WordPress 在预处理好所有参数设置之后决定调用主题模板的时候调用的。 我们只需在主题的 function.php 文件的 w397090770 9年前 (2014-12-31) 3737℃ 2评论4喜欢
从本质上说,fold函数将一种格式的输入数据转化成另外一种格式返回。fold, foldLeft和foldRight这三个函数除了有一点点不同外,做的事情差不多。我将在下文解释它们的共同点并解释它们的不同点。 我将从一个简单的例子开始,用fold计算一系列整型的和。[code lang="scala"]val numbers = List(5, 4, 8, 6, 2)numbers.fold(0) { (z, i) => w397090770 9年前 (2014-12-17) 36043℃ 0评论42喜欢
最近由于工作方面的原因需要解析 Apache Phoenix 底层的原始文件,也就是存在 HDFS 上的 HFile。但是由于 Phoenix 有自身的一套数据编码方式,但是由于本人对 Phoenix 这套根本就不熟悉,所以只能自己去看相关代码。但是 Apache Phoenix 是个大工程啊,不可能一个一个文件去找的,这会相当的慢。这时候我想到的是搭建一个 Phoenix 测试环境, w397090770 4年前 (2019-10-22) 3732℃ 0评论2喜欢
Spark支持读取很多格式的文件,其中包括了所有继承了Hadoop的InputFormat类的输入文件,以及平时我们常用的Text、Json、CSV (Comma Separated Values) 以及TSV (Tab Separated Values)文件。本文主要介绍如何通过Spark来读取Json文件。很多人会说,直接用Spark SQL模块的jsonFile方法不就可以读取解析Json文件吗?是的,没错,我们是可以通过那个读取Json w397090770 9年前 (2015-01-06) 26823℃ 10评论15喜欢
安装:下载并启动 Flink可以在Linux、Mac OS X以及Windows上运行。为了能够运行Flink,唯一的要求是必须安装Java 7.x或者更高版本。对于Windows用户来说,请参考 Flink on Windows 文档,里面介绍了如何在Window本地运行Flink。下载 从下载页面(http://flink.apache.org/downloads.html)下载所需的二进制包。你可以选择任何与 Hadoop/Scala 结 w397090770 8年前 (2016-04-05) 17597℃ 0评论23喜欢
Apache Kafka 2.0.0 在昨天正式发布了,其包含了许多重要的特性,这里我列举了一些比较重要的:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop增加了前缀通配符访问控制(ACL)的支持,详见 KIP-290,这样我们可以更加细粒度的进行访问控制;更全面的数据安全支持,KIP-255 里面添加了一个框架, w397090770 6年前 (2018-07-31) 3938℃ 0评论6喜欢