哎哟~404了~休息一下,下面的文章你可能很感兴趣:
我们在接触Hadoop的时候,第一个列子一般是运行Wordcount程序,在Spark我们可以用Java代码写一个Wordcount程序并部署在Yarn上运行。我们知道,在Spark源码中就存在一个用Java编写好的JavaWordCount程序,源码如下:[code lang="JAVA"]package org.apache.spark.examples;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apac w397090770 10年前 (2014-05-04) 28181℃ 1评论18喜欢
SQL Join对于初学者来说是比较难得,Join语法有很多inner的,有outer的,有left的,有时候,对于Select出来的结果集是什么样子有点不是很清楚。下图可以帮助初学者理解它。 w397090770 8年前 (2016-04-09) 28708℃ 0评论3喜欢
2014年7月11日,Spark 1.0.1已经发布了,原文如下:We are happy to announce the availability of Spark 1.0.1! This release includes contributions from 70 developers. Spark 1.0.0 includes fixes across several areas of Spark, including the core API, PySpark, and MLlib. It also includes new features in Spark’s (alpha) SQL library, including support for JSON data and performance and stability fixes.Visit the relea w397090770 10年前 (2014-07-13) 6846℃ 0评论4喜欢
本文总结了几个本人在使用 Carbondata 的时候遇到的几个问题及其解决办法。这里使用的环境是:Spark 2.1.0、Carbondata 1.2.0。必须指定 HDFS nameservices在初始化 CarbonSession 的时候,如果不指定 HDFS nameservices,在数据导入是没啥问题的;但是数据查询会出现相关数据找不到问题:[code lang="scala"]scala> val carbon = SparkSession.builder().temp w397090770 6年前 (2017-11-09) 6528℃ 5评论14喜欢
1.文件大小默认为64M,改为128M有啥影响?2.RPC的原理?3.NameNode与SecondaryNameNode的区别与联系?4.介绍MadpReduce整个过程,比如把WordCount的例子的细节将清楚(重点讲解Shuffle)?5.MapReduce出现单点负载多大,怎么负载平衡?6.MapReduce怎么实现Top10?7.hadoop底层存储设计8.zookeeper有什么优点,用在什么场合9.Hbase中的meta w397090770 8年前 (2016-08-26) 3542℃ 0评论2喜欢
Flink China社区线下 Meetup·北京站会议于 2018年8月11日 在朝阳区酒仙桥北路恒通国际创新园进行。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop活动议程13:40-13:50 莫问 出品人开场发言13:50-14:30 Flink Committer星罡《Flink状态管理和恢复技术介绍》,详细请见这里14:30-15:10 滴滴 余海琳《Flink在 zz~~ 6年前 (2018-08-14) 2923℃ 0评论4喜欢
1.hbase怎么预分区?2.hbase怎么给web前台提供接口来访问?3.htable API有没有线程安全问题,在程序中是单例还是多例?4.hbase有没有并发问题?5.metaq消息队列,zookeeper集群,storm集群,就可以完成对商城推荐系统功能吗?还有没有其他的中间件?6.storm 怎么完成对单词的计数?7.hdfs的client端,复制到第三个副本时宕机, w397090770 8年前 (2016-08-26) 4127℃ 0评论2喜欢
一、过滤器 从过滤器这个名字上可以得知就是在源数据和目标数据之间起到过滤作用的中间组件。例如家里用的纯净水过滤器,将自来水过滤为纯净水。过滤器是在Servlet2.3规范中引入的新功能,并在Servlet2.4规范中得到增强。它是在服务端运行的Web组件程序,可以截取客户端给服务器发的请求,也可以截取服务器给客户端的响应。 w397090770 11年前 (2013-08-01) 3636℃ 0评论5喜欢
Introduce Apache Flink 提供了可以恢复数据流应用到一致状态的容错机制。确保在发生故障时,程序的每条记录只会作用于状态一次(exactly-once),当然也可以降级为至少一次(at-least-once)。 容错机制通过持续创建分布式数据流的快照来实现。对于状态占用空间小的流应用,这些快照非常轻量,可以高频率创建而对性能影 zz~~ 7年前 (2017-02-08) 4539℃ 0评论7喜欢
在社会关系网中,入度越多的实体权威性越大;反之则越小。从上面的定义可以看出,权威性的衡量必须在有向图中进行,无向图是没有权威性的概念,不过无向图中可以用中心度去衡量实体的重要性。目前,比较常见的用于计算结点权威性的模型主要有三种:度权威(Degree Prestige)、邻近权威(Proximity Prestige)以及等级权威(Rank w397090770 11年前 (2013-05-30) 3942℃ 1评论4喜欢
Akka学习笔记系列文章: 《Akka学习笔记:ACTORS介绍》 《Akka学习笔记:Actor消息传递(1)》 《Akka学习笔记:Actor消息传递(2)》 《Akka学习笔记:日志》 《Akka学习笔记:测试Actors》 《Akka学习笔记:Actor消息处理-请求和响应(1) 》 《Akka学习笔记:Actor消息处理-请求和响应(2) 》 《Akka学 w397090770 9年前 (2014-12-12) 10037℃ 1评论5喜欢
本资料来自2022年03月03日举办的 Alluxio Day 活动。分享议题 《Speed Up Uber’s Presto with Alluxio》,分享者 Liang Chen 和王北南。Uber 的 Liang Chen 和 Alluxio 的王北南将为大家呈现 Alluxio Local Cache 上线过程中遇到的实际问题和有趣的发现。他们的演讲涵盖了 Uber 的 Presto 团队如何解决 Alluxio 的本地缓存失效的问题。Liang Chen 还将分享他使用定 w397090770 2年前 (2022-03-07) 251℃ 0评论0喜欢
由于Spark基于内存计算的特性,集群的任何资源都可以成为Spark程序的瓶颈:CPU,网络带宽,或者内存。通常,如果内存容得下数据,瓶颈会是网络带宽。不过有时你同样需要做些优化,例如将RDD以序列化到磁盘,来降低内存占用。这个教程会涵盖两个主要话题:数据序列化,它对网络性能尤其重要并可以减少内存使用,以及内存调优 w397090770 5年前 (2019-02-20) 3166℃ 0评论8喜欢
Web服务是一种新兴的应用模式,它很好地解决了互联网中跨平台软件的连接问题。Web服务是用来支持互联网中不同计算机之间操作性的软件系统,它定义了一种机器可读的接口(比如WSDL文档),其他软件系统可以通过SOAP消息和Web服务进行交互,交互通常用HTTP协议,而这些消息格式通常是基于XML的。和传统的应用程序不同的地 w397090770 11年前 (2013-06-20) 3941℃ 3评论3喜欢
Akka学习笔记系列文章:《Akka学习笔记:ACTORS介绍》《Akka学习笔记:Actor消息传递(1)》《Akka学习笔记:Actor消息传递(2)》 《Akka学习笔记:日志》《Akka学习笔记:测试Actors》《Akka学习笔记:Actor消息处理-请求和响应(1) 》《Akka学习笔记:Actor消息处理-请求和响应(2) 》《Akka学习笔记:ActorSystem(配置)》《Akka学习笔记 w397090770 10年前 (2014-10-17) 9467℃ 6评论5喜欢
本文整理自8月11日在北京举行的 Flink Meetup 会议,分享嘉宾施晓罡,目前在阿里大数据团队部从事Blink方面的研发,现在主要负责Blink状态管理和容错相关技术的研发。本文由韩非(Flink China社区志愿者)整理一、有状态的流数据处理1、什么是有状态的计算计算任务的结果不仅仅依赖于输入,还依赖于它的当前状态,其实大 w397090770 6年前 (2018-08-24) 9046℃ 0评论21喜欢
Akka学习笔记系列文章:《Akka学习笔记:ACTORS介绍》《Akka学习笔记:Actor消息传递(1)》《Akka学习笔记:Actor消息传递(2)》 《Akka学习笔记:日志》《Akka学习笔记:测试Actors》《Akka学习笔记:Actor消息处理-请求和响应(1) 》《Akka学习笔记:Actor消息处理-请求和响应(2) 》《Akka学习笔记:ActorSystem(配置)》《Akka学习笔记 w397090770 10年前 (2014-10-16) 8088℃ 2评论7喜欢
Apache Pinot 是一个分布式实时分布式 OLAP 数据存储,旨在以高吞吐量和低延迟提供可扩展的实时分析。该项目最初于 2013 年由 LinkedIn 创建,2015 年开源,于 2018 年 10 月进入 Apache 孵化器,2021年08月02日正式毕业成为 Apache 顶级项目。Apache Pinot 可以直接从流数据源(例如 Apache Kafka 和 Amazon Kinesis)中提取,并使事件可用于即时查询。 w397090770 2年前 (2022-01-01) 750℃ 0评论0喜欢
用户定义函数(User-defined functions, UDFs)是大多数 SQL 环境的关键特性,用于扩展系统的内置功能。 UDF允许开发人员通过抽象其低级语言实现来在更高级语言(如SQL)中启用新功能。 Apache Spark 也不例外,并且提供了用于将 UDF 与 Spark SQL工作流集成的各种选项。在这篇博文中,我们将回顾 Python,Java和 Scala 中的 Apache Spark UDF和UDAF(u w397090770 6年前 (2018-02-14) 14810℃ 0评论21喜欢
Akka学习笔记系列文章:《Akka学习笔记:ACTORS介绍》《Akka学习笔记:Actor消息传递(1)》《Akka学习笔记:Actor消息传递(2)》 《Akka学习笔记:日志》《Akka学习笔记:测试Actors》《Akka学习笔记:Actor消息处理-请求和响应(1) 》《Akka学习笔记:Actor消息处理-请求和响应(2) 》《Akka学习笔记:ActorSystem(配置)》《Akka学习笔记 w397090770 10年前 (2014-10-15) 19313℃ 5评论10喜欢
为什么禁止推酷网站收录本博客文章 近一段时间观察发现,推酷网站 在我发出文章不到几分钟内就收录了,由于我网站权重很低,导致从搜索引擎里面搜索到的文章很多直接链接到推酷网站,而不能显示到我博客,这严重影响我网站! 这就是为什么每次我发文章开始都会要求回复可见。已通知推酷网处理 本 w397090770 10年前 (2014-10-17) 14036℃ 15评论65喜欢
Akka学习笔记系列文章:《Akka学习笔记:ACTORS介绍》《Akka学习笔记:Actor消息传递(1)》《Akka学习笔记:Actor消息传递(2)》 《Akka学习笔记:日志》《Akka学习笔记:测试Actors》《Akka学习笔记:Actor消息处理-请求和响应(1) 》《Akka学习笔记:Actor消息处理-请求和响应(2) 》《Akka学习笔记:ActorSystem(配置)》《Akka学习笔记 w397090770 10年前 (2014-10-22) 19099℃ 3评论14喜欢
在设计网站的时候,如果你某个页面的内容没有满屏,那你的footer会离浏览器底部很远,整体看起来很难看,这里用JavaScript提供一种方法来将footer固定在浏览器底部。[code lang="javascript"]function fixFooter(){ var mainHeight = document.getElementById('main').offsetHeight; var height = document.documentElement.clientHeight - document.g w397090770 9年前 (2014-11-22) 7446℃ 0评论4喜欢
Spark GraphX in Action开头介绍了GraphX库可以干什么,并通过例子介绍了如何以交互的方式使用GraphX 。阅读完本书,您将学习到很多实用的技术,用于增强应用程序和将机器学习算法应用于图形数据中。 本书包括了以下几个知识点: (1)、Understanding graph technology (2)、Using the GraphX API (3)、Developing algorithms w397090770 7年前 (2017-02-12) 4677℃ 0评论5喜欢
版本升级[code lang="bash"]//更新软件源,最后会读取软件包列表sudo apt-get update sudo update-manager -c -d[/code]然后选择 upgrade普通升级[code lang="bash"]sudo apt-get updatesudo apt-get upgrade[/code]升级单一软件[code lang="bash"]sudo apt-get updatesudo apt-get upgrade package_name_your_want_to_upgrade[/code]全部升级[code lang="bash"]//更新所 w397090770 11年前 (2013-07-03) 18673℃ 0评论1喜欢
本文主要盘点了 2017 年晋升为 Apache Top-Level Project (TLP) 的大数据相关项目,项目的介绍从孵化器毕业的时间开始排的,一共十二个。Apache Beam: 下一代的大数据处理标准Apache Beam(原名Google DataFlow)是Google在2016年2月份贡献给Apache基金会的Apache孵化项目,被认为是继MapReduce,GFS和BigQuery等之后,Google在大数据处理领域对开源社区的 w397090770 6年前 (2018-01-01) 3400℃ 0评论10喜欢
2010年,几个大胡子年轻人在旧金山成立了一家名为 dotCloud 的 PaaS 平台的公司。dotCloud 主要是基于 PaaS 平台为开发者或开发商提供技术服务。PaaS 的全称是 Platform as a Service,也就是平台即服务。dotCloud 把需要花费大量时间的手工工作和重复劳动抽象成组件和服务,并放到了云端,另外,它还提供了各种监控、告警和控制功能,方便开 w397090770 4年前 (2020-01-15) 831℃ 0评论7喜欢
微软的搜索引擎Bing和HackerRank合作,在Bing的搜索结果里面加入了实时代码编辑器,它为数以百万计的程序员提供了一种简单的方法来搜索结果,主要是允许程序员在搜索结果中直接编辑和执行代码示例,实时查看运行结果。 通常情况下,工程师需要到Stackoverflow, Stackexchange或者其他的博客搜索他们需要的答案。现在我们有 w397090770 8年前 (2016-04-11) 1634℃ 0评论2喜欢
Akka学习笔记系列文章:《Akka学习笔记:ACTORS介绍》《Akka学习笔记:Actor消息传递(1)》《Akka学习笔记:Actor消息传递(2)》 《Akka学习笔记:日志》《Akka学习笔记:测试Actors》《Akka学习笔记:Actor消息处理-请求和响应(1) 》《Akka学习笔记:Actor消息处理-请求和响应(2) 》《Akka学习笔记:ActorSystem(配置)》《Akka学习笔记 w397090770 10年前 (2014-10-13) 15717℃ 2评论17喜欢
本文原文:https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=85475081。Carbondata 1.4.0 下载Carbondata 官方文档Carbondata 源码Apache CarbonData社区很高兴发布1.4.0版本,在社区开发者和用户的共同努力下,1.4.0解决了超过230个JIRA Tickets(新特性和bug修复),欢迎大家试用。简介CarbonData是一个高性能的数据解决方案,目标是实现一份数据支持 w397090770 6年前 (2018-06-05) 4292℃ 0评论4喜欢