欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

Guava

Guava学习之AbstractSetMultimap

Guava学习之AbstractSetMultimap
  这篇文章是续着昨天的《Guava学习之SetMultimap》写的。AbstractSetMultimap是一个抽象类,主要是实现SetMultimap接口中的方法,但是其具体的实现都是调用了AbstractMapBasedMultimap类中的相应实现,只是将AbstractMapBasedMultimap类中返回类行为Collection的修改为Set。下面主要说说AbstractSetMultimap类的相关实现。  1、在AbstractMapBasedMultimap类中就

w397090770   11年前 (2013-09-26) 2837℃ 1评论5喜欢

Presto

避免 Presto 中的数据孤岛:从 Raptor 到 RaptorX 的旅程

避免 Presto 中的数据孤岛:从 Raptor 到 RaptorX 的旅程
Raptor 是一个 Presto connector (presto-raptor),用于支持 Meta(以前的 Facebook)中的一些关键的交互式查询工作负载。尽管在 ICDE 2019 年的论文《Presto: SQL on Everything》中提到了这个特性,但对于许多 Presto 用户来说,它仍然有些神秘,因为没有关于这个特性的可用文档。本文将介绍 Raptor 的历史,以及为什么 Meta 最终取代了它,转而支持一种

w397090770   2年前 (2022-03-06) 314℃ 0评论0喜欢

资料分享

youtube-dl: 可从YouTube等网站下载视频的开源神器

youtube-dl: 可从YouTube等网站下载视频的开源神器
  youtube-dl是一个精悍的命令程序,它可以从YouTube.com以及其他网站上下载视频。它是使用Python开发的,依赖于Python 2.6, 2.7, 或者3.2+解释器,而且这个视频下载命令是跨平台的,作者为我们带来了Windows执行文件(https://yt-dl.org/latest/youtube-dl.exe),其中就包含了Python。youtube-dl可以在Unix box,Windows或者是 Mac OS X平台上运行,支持众多视频网

w397090770   8年前 (2016-04-09) 6564℃ 0评论6喜欢

Kafka

[电子书]Building Data Streaming Applications with Apache Kafka PDF下载

[电子书]Building Data Streaming Applications with Apache Kafka PDF下载
本书于2017-08由 Packt 出版,作者 Manish Kumar, Chanchal Singh,全书269页。关注大数据猿(bigdata_ai)公众号及时获取最新大数据相关电子书、资讯等通过本书你将学到以下知识Learn the basics of Apache Kafka from scratchUse the basic building blocks of a streaming applicationDesign effective streaming applications with Kafka using Spark, Storm &, and HeronUnderstand the i

zz~~   6年前 (2017-11-08) 6565℃ 0评论30喜欢

Scala

Effective Scala中文版文档

Effective Scala中文版文档
  Marius Eriksen, Twitter Inc.  marius@twitter.com (@marius)  [translated by hongjiang(@hongjiang), tongqing(@tongqing)]序言  Scala是Twitter使用的主要应用编程语言之一。很多我们的基础架构都是用scala写的,我们也有一些大的库支持我们使用。虽然非常有效, Scala也是一门大的语言,经验教会我们在实践中要非常小心。 它有什么陷阱?哪些特

w397090770   9年前 (2015-04-11) 7386℃ 0评论3喜欢

Spark

Spark 1.2.1稳定版本发布(released)

Spark 1.2.1稳定版本发布(released)
  美国时间2015年2月09日Spark 1.2.1正式发布了,邮件如下:Hi All,I've just posted the 1.2.1 maintenance release of Apache Spark. We recommend all 1.2.0 users upgrade to this release, as this release includes stability fixes across all components of Spark.- Download this release: http://spark.apache.org/downloads.html- View the release notes: http://spark.apache.org/releases/spark-release-1-2-1.html-

w397090770   9年前 (2015-02-10) 3427℃ 0评论1喜欢

Hive

Hive几种数据导入方式

Hive几种数据导入方式
写在前面的话,学Hive这么久了,发现目前国内还没有一本完整的介绍Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关Hive的资料,如果对Hive的东西感兴趣,请关注本博客。https://www.iteblog.com/archives/tag/hive-technology/好久没写Hive的那些事了,今

w397090770   10年前 (2014-02-19) 92301℃ 5评论128喜欢

Spark

Spark 2.0技术预览:更容易、更快速、更智能

Spark 2.0技术预览:更容易、更快速、更智能
  在过去的几个月时间里,我们一直忙于我们所爱的大数据开源软件的下一个主要版本开发工作:Apache Spark 2.0。Spark 1.0已经出现了2年时间,在此期间,我们听到了赞美以及投诉。Spark 2.0的开发基于我们过去两年学到的:用户所喜爱的我们加倍投入;用户抱怨的我们努力提高。本文将总结Spark 2.0的三大主题:更容易、更快速、更智

w397090770   8年前 (2016-05-12) 8688℃ 2评论26喜欢

Spark

Spark 2.0技术预览版正式发布下载

Spark 2.0技术预览版正式发布下载
  在过去Spark社区创建了Spark 2.0的技术预览版,经过几天的投票,目前该技术预览版今天正式公布。《Spark 2.0技术预览:更容易、更快速、更智能》文章中详细介绍了Spark 2.0给我们带来的新功能,总体上Spark 2.0提升了下面三点:  1. 对标准的SQL支持,统一DataFrame和Dataset API。现在已经可以运行TPC-DS所有的99个查询,这99个查

w397090770   8年前 (2016-05-25) 2559℃ 0评论3喜欢

Spark

Apache Spark DataFrames入门指南:创建DataFrame(2)

Apache Spark DataFrames入门指南:创建DataFrame(2)
  本系列文章翻译自:《scala data analysis cookbook》第二章:Getting Started with Apache Spark DataFrames。原书是基于Spark 1.4.1编写的,我这里使用的是Spark 1.6.0,丢弃了一些已经标记为遗弃的函数。并且修正了其中的错误。  一、从csv文件创建DataFrame    如何做?    如何工作的    附录  二、操作DataFrame   

w397090770   8年前 (2016-01-18) 7574℃ 0评论6喜欢

Cassandra

欢迎加入中国 Cassandra 技术社区

欢迎加入中国 Cassandra 技术社区
Apache Cassandra 是一个开源的、分布式、无中心、弹性可扩展、高可用、容错、一致性可调、面向行的数据库,它基于 Amazon Dynamo 的分布式设计和 Google Bigtable 的数据模型,由 Facebook 创建,在一些最流行的网站中得到应用。更多特点请参见 一篇文章了解 Apache Cassandra 是什么。由于 Cassandra 数据库的众多优点,在国内外多达 1500+ 家公

w397090770   5年前 (2019-05-08) 1678℃ 0评论5喜欢

Hadoop

Hadoop面试题系列(3/11)

Hadoop面试题系列(3/11)
1. 集群多少台, 数据量多大, 吞吐量是多大, 每天处理多少G的数据?2. 我们的日志是不是除了apache的访问日志是不是还有其他的日志?3. 假设我们有其他的日志是不是可以对这个日志有其他的业务分析?这些业务分析都有什么?4. 你们的服务器有多少台?服务器的内存多大?5. 你们的服务器怎么分布的?(这里说地理位置

w397090770   8年前 (2016-08-26) 3409℃ 0评论4喜欢

ElasticSearch

ElasticSearch系列文章:数据操作

ElasticSearch系列文章:数据操作
样本数据集  现在我们对于基本的东西已经有了一些认识,现在让我们尝试使用一些更加贴近现实的数据集。我准备了一些假想的客户银行账户信息的JSON文档样本。文档具有以下的模式(schema):[code lang="java"]{ "account_number": 0, "balance": 16623, "firstname": "Bradshaw", "lastname": &quo

zz~~   8年前 (2016-09-04) 1025℃ 0评论5喜欢

Spark

Spark Streaming中空batches处理的两种方法

Spark Streaming中空batches处理的两种方法
  Spark Streaming是近实时(near real time)的小批处理系统。对给定的时间间隔(interval),Spark Streaming生成新的batch并对它进行一些处理。每个batch中的数据都代表一个RDD,但是如果一些batch中没有数据会发生什么事情呢?Spark Streaming将会产生EmptyRDD的RDD,它的定义如下:[code lang="scala"]package org.apache.spark.rddimport scala.reflect.ClassTagimport

w397090770   9年前 (2015-04-08) 10084℃ 1评论11喜欢

Alluxio

Alluxio Local Cache 加速 Presto 查询在 Uber 的应用

Alluxio Local Cache 加速 Presto 查询在 Uber 的应用
背景如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据在 Uber,数据影响着每一个决定。Presto 是推动 Uber 各种数据分析的核心引擎之一。例如,运营团队在仪表盘等服务中大量使用 Presto;Uber Eats 和营销团队依靠这些查询的结果来决定价格。此外, Presto 还被用于 Uber 的合规部门、增长营销部

w397090770   1年前 (2022-11-14) 675℃ 0评论1喜欢

Hadoop

恭喜!新一代分布式对象存储 Ozone 成为顶级项目

恭喜!新一代分布式对象存储 Ozone 成为顶级项目
刚刚获悉,Apache基金董事会通过一致表决,正式批准分布式文件对象存储Ozone从Hadoop社区孵化成功,成为独立的Apache顶级开源项目。这意味着,作为腾讯大数据团队首个参与和主导的开源项目,Ozone已得到全球Apache技术专家的一致认可,成为世界顶级的存储开源项目之一。Ozone 是Apache Hadoop社区推出的面向大数据领域的新一代分布

w397090770   3年前 (2020-12-09) 987℃ 0评论5喜欢

HBase

HBase 中加盐(Salting)之后的表如何读取:协处理器篇

HBase 中加盐(Salting)之后的表如何读取:协处理器篇
在 《HBase Rowkey 设计指南》 文章中,我们介绍了避免数据热点的三种比较常见方法:加盐 - Salting哈希 - Hashing反转 - Reversing其中在加盐(Salting)的方法里面是这么描述的:给 Rowkey 分配一个随机前缀以使得它和之前排序不同。但是在 Rowkey 前面加了随机前缀,那么我们怎么将这些数据读出来呢?我将分三篇文章来介绍如何

w397090770   5年前 (2019-02-24) 4581℃ 0评论10喜欢

Kafka

Kafka在LinkedIn公司的使用及维护实战

Kafka在LinkedIn公司的使用及维护实战
  Apache Kafka在LinkedIn和其他公司中是作为各种数据管道和异步消息的后端。Netflix和Microsoft公司作为Kafka的重量级使用者(Four Comma Club,每天万亿级别的消息量),他们在Kafka Summit的分享也让人受益良多。  虽然Kafka有着极其稳定的架构,但是在每天万亿级别消息量的大规模下也会偶尔出现有趣的bug。在本篇文章以及以后的几篇

w397090770   8年前 (2016-07-20) 5266℃ 1评论6喜欢

Java

Linux命令行下安装Maven与配置

Linux命令行下安装Maven与配置
  Apache Maven,是一个软件(特别是Java软件)项目管理及自动构建工具,由Apache软件基金会所提供。基于项目对象模型(缩写:POM)概念,Maven利用一个中央信息片断能管理一个项目的构建、报告和文档等步骤。曾是Jakarta项目的子项目,现为独立Apache项目。  那么,如何在Linux平台下面安装Maven呢?下面以CentOS平台为例,说明如

w397090770   11年前 (2013-10-21) 32058℃ 3评论13喜欢

CarbonData

Apache CarbonData 1.4.0 正式发布,多项新功能及性能提升

Apache CarbonData 1.4.0 正式发布,多项新功能及性能提升
本文原文:https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=85475081。Carbondata 1.4.0 下载Carbondata 官方文档Carbondata 源码Apache CarbonData社区很高兴发布1.4.0版本,在社区开发者和用户的共同努力下,1.4.0解决了超过230个JIRA Tickets(新特性和bug修复),欢迎大家试用。简介CarbonData是一个高性能的数据解决方案,目标是实现一份数据支持

w397090770   6年前 (2018-06-05) 4292℃ 0评论4喜欢

Cassandra

Apache Cassandra 快速入门指南(Quick Start)

Apache Cassandra 快速入门指南(Quick Start)
我们在这篇文章简单介绍了 Apache Cassandra 是什么,以及有什么值得关注的特性。本文将简单介绍 Apache Cassandra 的安装以及简单使用,可以帮助大家快速了解 Apache Cassandra。我们到 Apache Cassandra 的官方网站下载最新版本的 Cassandra,在本文写作时最新版本的 Cassandra 为 3.11.4。Apache Cassandra 可以在 Linux、Unix、Mac OS 以及 Windows 上进行安装

w397090770   5年前 (2019-04-07) 4998℃ 0评论8喜欢

Deep Learning

BigDL:运行在Apache Spark上的分布式深度学习类库

BigDL:运行在Apache Spark上的分布式深度学习类库
  近日,Intel开源了基于Apache Spark的分布式深度学习框架BigDL。有了BigDL之后,用户可以像编写标准的Spark程序一样来编写深度学习(deep learning)应用程序,编写完的程序还可以直接运行在现有的Spark或者Hadoop集群之上。BigDL主要有以下三大特点:[gt href="https://github.com/intel-analytics/BigDL "]BigDL GitHub地址[/gt]丰富的深度学习算法支

w397090770   7年前 (2017-01-19) 4323℃ 0评论14喜欢

Scala

为Java程序员编写的Scala的入门教程

为Java程序员编写的Scala的入门教程
  本文是《A Scala Tutorial for Java programmers》英文的翻译,英文版地址A Scala Tutorial for Java programmers。是Michel Schinz和Philipp Haller编写,由Bearice成中文,dongfengyee(东风雨)整理.一、简介二、 第一个Scala例子三、Scala与Java交互四、Scala:万物皆对象五、Scala类六、Scala的模式匹配和条件类七、Scala Trait八、Scala的泛型九、

w397090770   9年前 (2015-04-18) 16192℃ 0评论37喜欢

Spark

Project Tungsten:让Spark性能大幅提升

Project Tungsten:让Spark性能大幅提升
  在之前的博文中,我们回顾和总结了2014年Spark在性能提升上所做的努力。本篇博文中,我们将为你介绍性能提升的下一阶段——Tungsten。在2014年,我们目睹了Spark缔造大规模排序的新世界纪录,同时也看到了Spark整个引擎的大幅度提升——从Python到SQL再到机器学习。  Tungsten项目将是Spark自诞生以来内核级别的最大改动,以

w397090770   9年前 (2015-05-04) 4783℃ 1评论4喜欢

Presto

Presto 性能调优

Presto 性能调优
This topic describes tips for tuning parallelism and memory in Presto. The tips are categorized as follows:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoopTuning Parallelism at a Task LevelThe number of splits in a cluster = node-scheduler.max-splits-per-node * number of worker nodes.The node-scheduler.max-splits-per-node denotes the target value for the total num

w397090770   3年前 (2021-02-20) 1126℃ 0评论4喜欢

Linux

在fedora里面安装BerkeleyDB数据库

在fedora里面安装BerkeleyDB数据库
一、首先到oracle的官网下载Berkeley db数据库源文件下载地址http://download.oracle.com/otn/berkeley-db/db-5.3.15.tar.gz二、下载之后的文件是一个打包好的文件,需要在命令行里面利用tar来解压(当然你也可以利用一些可视化工具来解压),步骤如下在命令行里面输入[code lang="CPP"] tar -zxvf db-5.3.15.tar.gz[/code]解压之后进入db-5.3.15目录有以下

w397090770   11年前 (2013-04-04) 3880℃ 0评论0喜欢

Spark meetup

北京第十次Spark meetup会议资料分享

北京第十次Spark meetup会议资料分享
  北京第十次Spark Meetup活动于北京时间2016年03月27日在北京市海淀区丹棱街5号微软亚太研发集团总部大厦1号楼进行。活动内容如下:1. Spark in TalkingData,阎志涛.TalkingData研发副总裁2. Spark in GrowingIO,田毅,GrowingIO数据平台工程师,主要分享GrowingIO使用Spark进行数据处理过程中的各种小技巧,包括:多数据源的访问和使用Bitmap进行

w397090770   8年前 (2016-03-28) 2105℃ 0评论4喜欢

网站建设

本博客最近经常出现无法访问情况说明

本博客最近经常出现无法访问情况说明
  首先非常感谢大家访问支持本博客,但是由于这些天访问人数的增加导致同一时刻访问本博客的人也增加,从而超过本博客服务器限制的并发数(100),这样使得本博客经常出现以下信息Bad Request (Invalid Hostname)  由于资金有限,所以选择了价格比较便宜的服务器,所以无法保证本博客100%在线。所以如果博客出现了Bad Requ

w397090770   10年前 (2014-11-13) 3702℃ 3评论3喜欢

Hadoop

HDFS 副本存放磁盘选择策略

HDFS 副本存放磁盘选择策略
在 HDFS 中,DataNode 将数据块存储到本地文件系统目录中,具体的目录可以通过配置 hdfs-site.xml 里面的 dfs.datanode.data.dir 参数。在典型的安装配置中,一般都会配置多个目录,并且把这些目录分别配置到不同的设备上,比如分别配置到不同的HDD(HDD的全称是Hard Disk Drive)和SSD(全称Solid State Drives,就是我们熟悉的固态硬盘)上。当

w397090770   6年前 (2018-03-28) 5122℃ 3评论24喜欢

Spark

Spark MLlib 1.6.1之特征抽取和变换

Spark MLlib 1.6.1之特征抽取和变换
7.1 TF-IDF  TF-IDF是一种特征向量化方法,这种方法多用于文本挖掘,通过算法可以反应出词在语料库中某个文档中的重要性。文档中词记为t,文档记为d , 语料库记为D . 词频TF(t,d) 是词t 在文档d 中出现的次数。文档频次DF(t,D) 是语料库中包括词t的文档数。如果使用词在文档中出现的频次表示词的重要程度,那么很容易取出反例,

w397090770   8年前 (2016-03-27) 6021℃ 0评论6喜欢