哎哟~404了~休息一下,下面的文章你可能很感兴趣:
导语:此套面试题来自于各大厂的真实面试题及常问的知识点。如果能理解吃透这些问题,你的大数据能力将会大大提升,进入大厂指日可待。如果公司急招人,你回答出来面试官70%,甚至50%的问题他都会要你,如果这个公司不是真正缺人,或者只是作人才储备,那么你回答很好,他也可能不要你,只是因为没有眼缘;所以面 zz~~ 3年前 (2021-09-24) 2251℃ 0评论7喜欢
本文来自徐宇辉(微信号:xuyuhui263)的投稿,目前在中国移动从事数字营销的业务支撑工作,感谢他的文章。Apache Flume简介Apache Flume是一个Apache的开源项目,是一个分布的、可靠的软件系统,主要目的是从大量的分散的数据源中收集、汇聚以及迁移大规模的日志数据,最后存储到一个集中式的数据系统中。Apache Flume是由 zz~~ 7年前 (2017-03-08) 7175℃ 0评论17喜欢
本书于2017-07由Packt Publishing出版,作者Md. Rezaul Karim, Sridhar Alla,全书1587页。关注大数据猿(bigdata_ai)公众号及时获取最新大数据相关电子书、资讯等通过本书你将学到以下知识Understand object-oriented & functional programming concepts of ScalaIn-depth understanding of Scala collection APIsWork with RDD and DataFrame to learn Spark’s core abstractionsAnalysin zz~~ 7年前 (2017-08-21) 7764℃ 0评论31喜欢
赶在 Data + AI Summit 2021 之前,Delta Lake 1.0.0 重磅发布,这个版本是基于 Spark 3.1 的,带来了许多新特性。本文将结合 Michael Armbrust 大牛在 Data + AI Summit 2021 的演讲《Announcing Delta Lake 1.0》来介绍 Delta Lake 1.0.0 版本的一些重要的新特性。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据Delta Lake 0.1 w397090770 3年前 (2021-05-27) 798℃ 0评论1喜欢
告诉大家一件好消息:ElasticSearch官方正在开发SQL功能模块,也就是说未来版本(不是 6.x 就是 7.x)的Elasticsearch内置就支持SQL特性了!这样我们就不需要安装 NLPchina/elasticsearch-sql 插件。这个SQL模块是属于X-Pack的一部分。首先默认提供了一个 CLI 工具,可以很方便的执行 SQL 查询。如下图如果想及时了解Spark、Hadoop或者Hbase相关的 w397090770 7年前 (2017-09-06) 3091℃ 0评论12喜欢
今天,Apache Beam 0.5.0 发布了,此版本通过新的State API添加对状态管道的支持,并通过新的Timer API添加对计时器的支持。 此外,该版本还为Elasticsearch和MQ Telemetry Transport(MQTT)添加了新的IO连接器,以及常见的一些错误修复和改进。对于此版本中的所有主要更改,请参阅release notes。如果想及时了解Spark、Hadoop或者Hbase相关的文 w397090770 7年前 (2017-02-10) 932℃ 0评论2喜欢
索引是标准的数据库技术,hive 0.7版本之后支持索引。Hive提供有限的索引功能,这不像传统的关系型数据库那样有“键(key)”的概念,用户可以在某些列上创建索引来加速某些操作,给一个表创建的索引数据被保存在另外的表中。 Hive的索引功能现在还相对较晚,提供的选项还较少。但是,索引被设计为可使用内置的可插拔的java w397090770 11年前 (2013-11-15) 23200℃ 3评论16喜欢
数据库事业部承载着阿里巴巴及阿里云的数据库服务,为超过数万家中国企业提供专业的数据库服务。我们提供在线事务处理、缓存文档服务、BigData NoSQL服务 、在线分析处理的全栈数据库产品。本团队提供基于Apache HBase\Phoenix\Spark\Cassandra\Solr\ES等,结合自研技术,打造存储、检索、计算的一站式的BigData NoSQL自主可控的服务,满足客 w397090770 6年前 (2018-01-30) 6450℃ 1评论28喜欢
如果你使用 Spark RDD 或者 DataFrame 编写程序,我们可以通过 coalesce 或 repartition 来修改程序的并行度:[code lang="scala"]val data = sc.newAPIHadoopFile(xxx).coalesce(2).map(xxxx)或val data = sc.newAPIHadoopFile(xxx).repartition(2).map(xxxx)val df = spark.read.json("/user/iteblog/json").repartition(4).map(xxxx)val df = spark.read.json("/user/iteblog/json").coalesce(4).map(x w397090770 5年前 (2019-01-24) 8026℃ 0评论12喜欢
大年初二Apache CarbonData迎来了第四个稳定版本CarbonData 1.0.0。CarbonData是由华为开发、开源并支持Apache Hadoop的列式存储文件格式,支持索引、压缩以及解编码等,其目的是为了实现同一份数据达到多种需求,而且能够实现更快的交互查询。目前该项目正处于Apache孵化过程中。CarbonData 1.0.0版本,一共带来了80+ 个新特性,并且有100+ 个bugfi w397090770 7年前 (2017-01-29) 2694℃ 0评论6喜欢
SPARK SUMMIT 2015会议于美国时间2015年06月15日到2015年06月17日在San Francisco(旧金山)进行,目前PPT已经全部公布了,不过很遗憾的是这个网站被墙了,无法直接访问,本博客将这些PPT全部整理免费下载。由于源网站限制,一天只能只能下载20个PPT,所以我只能一天分享20篇。如果想获取全部的PPT,请关站本博客。会议主旨 T w397090770 9年前 (2015-06-26) 4262℃ 0评论6喜欢
Flink Forward 是由 Apache 官方授权,Apache Flink China社区支持,有来自阿里巴巴,Ververica(Apache Flink 商业母公司)、腾讯、Google、Airbnb以及 Uber 等公司参加的国际型会议。旨在汇集大数据领域一流人才共同探讨新一代大数据计算引擎技术。通过参会不仅可以了解到Flink社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕Flink生 w397090770 10年前 (2014-07-21) 44746℃ 55评论28喜欢
在《在Kafka中使用Avro编码消息:Producter篇》 和 《在Kafka中使用Avro编码消息:Consumer篇》 两篇文章里面我介绍了直接使用原生的 Kafka API生成和消费 Avro 类型的编码消息,本文将继续介绍如何通过 Spark 从 Kafka 中读取这些 Avro 格式化的消息。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop其 zz~~ 7年前 (2017-09-26) 4726℃ 0评论19喜欢
[caption id="attachment_762" align="aligncenter" width="442"] Guava学习之AbstractSortedSetMultimap[/caption] AbstractSortedSetMultimap是一个抽象类,其继承关系如上所示,关于AbstractSetMultimap和SortedSetMultimap的介绍分别在《Guava学习之AbstractSetMultimap》和《Gauva学习之SortedSetMultimap》,这里就不再介绍了。AbstractSortedSetMultimap类是SortedSetMultimap的基本实现,不过A w397090770 11年前 (2013-09-29) 3107℃ 0评论4喜欢
临时文件是一个暂时用来存储数据的文件。如果使用建立普通文件的方法来创建文件,则可能遇到文件是否存在,是否有文件读写权限的问题。Linux系统下提供的建立唯一的临时文件的方法如下:[code lang="CPP"]#include<stdio.h>char *tmpnam(char *s);FILE *tmpfile();[/code]函数tmpnam()产生一个唯一i的文件名。如果参量为NULL,则在一个内 w397090770 11年前 (2013-04-03) 5274℃ 0评论0喜欢
经过一晚上的奋战终于通过调用新浪登录的登录API替代Wordpress内置的登录注册模块。只要你有新浪微博帐号即可绑定到本博客。添加微博登录功能主要解决两个问题:(1)、方便用户登录/注册;(2)、防止机器人注册本网站。以下是登录页面图: 点击上面使用微博帐号登录即可调用微博登录。如果你是第一次登录,需 w397090770 9年前 (2015-04-04) 4935℃ 0评论3喜欢
相信很多网站为了方便使用了百度分享工具,但是官方提供的类库只支持HTTP方式来访问,如果你网站升级成HTTPS之后,将无法使用百度分享。不过大家别担心,本文就是来教大家解决这个问题的。 原理很简单,下载本文下面提供的包(static.tgz),然后放到你网站的根目录,这些文件其实就是从百度分享网站下载下来的,如 w397090770 7年前 (2016-12-31) 2839℃ 0评论8喜欢
《Spark meetup(Beijing)资料分享》 《Spark meetup(杭州)PPT资料分享》 《北京第二次Spark meetup会议资料分享》 《北京第三次Spark meetup会议资料分享》 第三次北京Spark Meetup活动将于2014年10月26日星期日的下午1:30到6:00在海淀区中关村科学院南路2号融科资讯中心A座8层举行,本次分享的主题主要是MLlib与分布式机器学 w397090770 10年前 (2014-10-09) 4441℃ 6评论5喜欢
我们知道,Flume可以和许多的系统进行整合,包括了Hadoop、Spark、Kafka、Hbase等等;当然,强悍的Flume也是可以和Mysql进行整合,将分析好的日志存储到Mysql(当然,你也可以存放到pg、oracle等等关系型数据库)。 不过我这里想多说一些:Flume是分布式收集日志的系统;既然都分布式了,数据量应该很大,为什么你要将Flume分 w397090770 10年前 (2014-09-04) 25651℃ 21评论38喜欢
一、概述有时候我们需要设计这样一种数据结构:它能快速在要求位置插入或者删除一段数据。先考虑两种简单的数据结构:数组和链表。数组的优点是能够在O(1)的时间内找到所要执行操作的位置,但其缺点是无论是插入或删除都要移动之后的所有数据,复杂度是O(n)的。链表优点是能够在O(1)的时间内插入和删除一段数据,但缺点 w397090770 11年前 (2013-04-03) 5696℃ 0评论7喜欢
《Spark RDD API扩展开发(1)》、《Spark RDD API扩展开发(2):自定义RDD》 在本博客的《Spark RDD API扩展开发(1)》文章中我介绍了如何在现有的RDD中添加自定义的函数。本文将介绍如何自定义一个RDD类,假如我们想对没见商品进行打折,我们想用Action操作来实现这个操作,下面我将定义IteblogDiscountRDD类来计算商品的打折,步骤如 w397090770 9年前 (2015-03-31) 11849℃ 0评论8喜欢
我们可能会有些需求要求MapReduce的输出全局有序,这里说的有序是指Key全局有序。但是我们知道,MapReduce默认只是保证同一个分区内的Key是有序的,但是不保证全局有序。基于此,本文提供三种方法来对MapReduce的输出进行全局排序。生成测试数据在介绍如何实现之前,我们先来生成一些测试数据,实现如下:[code lang="bash"]#! w397090770 7年前 (2017-05-10) 14209℃ 0评论29喜欢
在几年前,Oracle宣布不再维护Java 6的更新(看这里http://www.computerworld.com/article/2494112/application-security/oracle-to-stop-patching-java-6-in-february-2013.html),那么Java 6发现的新bug Oracle公司也就不再会去修改,这对用户来说就是不好的消息。 在前几天发布的Hadoop 2.7.0 (《Hadoop 2.7.0发布:不适用于生产和不支持JDK1.6》)中的一个重要的 w397090770 9年前 (2015-05-06) 7371℃ 1评论4喜欢
一、活动时间 北京第九次Spark Meetup活动将于2015年08月22日进行;下午14:00-18:00。二、活动地点 北京市海淀区丹棱街5号 微软亚太研发集团总部大厦1号楼三、活动内容 1、《Keynote》 ,分享人:Sejun Ra ,CEO of NFLabs.com 2、《An introduction to Zeppelin with a demo》,分享人: Anthony Corbacho, Engineer from NFLabs and w397090770 9年前 (2015-08-07) 2808℃ 0评论1喜欢
写在前面的话,学Hive这么久了,发现目前国内还没有一本完整的介绍Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关Hive的资料,如果对Hive的东西感兴趣,请关注本博客。https://www.iteblog.com/archives/tag/hive-technology/ Hive的设计目的是为了那 w397090770 10年前 (2014-01-06) 15976℃ 2评论8喜欢
With MongoDB 3.6 the query language gains a new level of expressivity: you can now make use of aggregation expressions in a query using the $expr operator. This feature allows you to take full advantage of all expression operators within all queries, much of which previously had to be done within application logic or was restricted to the aggregation pipeline. $expr offers better performance than the $where operator, which while still a w397090770 3年前 (2021-04-27) 2233℃ 0评论2喜欢
即日起,关注@Spark技术博客 及@ 一位微博好友并转发本文章到微博有机会获取《Spark大数据分析实战》:/archives/1590。3月12日在微博抽奖平台抽取1位同学并赠送此书。本活动已经结束,抽奖信息已经在新浪微博抽奖平台公布 《Spark大数据分析实战》由高彦杰和倪亚宇编写,通过典型数据分析应用场景、算法与系统架构,结 w397090770 8年前 (2016-03-02) 8420℃ 0评论44喜欢
今天给大家分享30款开源的可视化大屏(含源码)。下载到本地后,直接运行文件夹中的index.html,即可看到大屏。01 数据可视化页面设计有动画效果,显得高大上!主要图表:柱状图、水球图、折线图等。02 数据可视化演示系统不仅有动画效果,还有科技感光效。主要图表:柱状图、折线图、饼图、地图等 zz~~ 2年前 (2021-12-23) 3397℃ 0评论3喜欢
《Spark 2.0技术预览:更容易、更快速、更智能》文章介绍了Spark的三大新特性,本文是Reynold Xin在2016年5月5日的演讲,视频可以到这里看:http://go.databricks.com/apache-spark-2.0-presented-by-databricks-co-founder-reynold-xinPPT下载地址见下面。 w397090770 8年前 (2016-05-24) 3225℃ 0评论4喜欢
Balloon.css文件允许用户给元素添加提示,而这些在Balloon.css中完全是由CSS来实现,不需要使用JavaScript。 button { display: inline-block; min-width: 160px; text-align: center; color: #fff; background: #ff3d2e; padding: 0.8rem 2rem; font-size: 1.2rem; margin-top: 1rem; border: none; border-radius: 5px; transition: background 0.1s linear;}.butt w397090770 8年前 (2016-03-15) 2422℃ 3评论10喜欢