欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

Spark

Spark编译错误笔记

Spark编译错误笔记
  最近修改了Spark的一些代码,然后编译Spark出现了以下的异常信息:[code lang="scala"]error file=/iteblog/spark-1.3.1/streaming/src/main/scala/org/apache/spark/streaming/StreamingContext.scalamessage=File line length exceeds 100 characters line=279error file=/iteblog/spark-1.3.1/streaming/src/main/scala/org/apache/spark/streaming/StreamingContext.scalamessage=File line length exceeds 100 characters

w397090770   9年前 (2015-05-20) 5857℃ 0评论3喜欢

Spark meetup

上海第七次Spark meetup会议资料分享

上海第七次Spark meetup会议资料分享
  上海Spark meetup第七次聚会将于2016年1月23日(周六)在上海市长宁区金钟路968号凌空SOHO 8号楼 进行。此次聚会由Intel联合携程举办。大会主题  1、开场/Opening Keynote: 张翼,携程大数据平台的负责人  个人介绍:本科和研究生都是浙江大学;2015年加入携程,推动携程大数据平台的演进;对大数据底层框架Hadoop,HIVE,Spark

w397090770   8年前 (2016-01-28) 2491℃ 0评论6喜欢

Spark

Spark 2.0介绍:在Spark SQL中定义查询优化规则

Spark 2.0介绍:在Spark SQL中定义查询优化规则
《Spark 2.0技术预览:更容易、更快速、更智能》文章中简单地介绍了Spark 2.0带来的新技术等。Spark 2.0是Apache Spark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大的变化,为该框架明年的发展奠定了方向,所以了解Spark 2.0的一些特性对我们能够使用它有着非常重要的作用。本博客将对Spark 2.0进行一序列的介

w397090770   8年前 (2016-07-14) 7543℃ 2评论4喜欢

Spark

MMLSpark:微软开源的用于Spark的深度学习库

MMLSpark:微软开源的用于Spark的深度学习库
MMLSpark为Apache Spark提供了大量深度学习和数据科学工具,包括将Spark Machine Learning管道与Microsoft Cognitive Toolkit(CNTK)和OpenCV进行无缝集成,使您能够快速创建功能强大,高度可扩展的大型图像和文本数据集分析预测模型。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoopMMLSpark需要Scala 2.11,Spark 2

w397090770   7年前 (2017-10-24) 4030℃ 0评论9喜欢

Spark

Apache Spark 动态分区 OverWrite 问题

Apache Spark 动态分区 OverWrite 问题
如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop假设我们有以下表:[code lang="scala"]scala> spark.sql("""CREATE TABLE iteblog_test (name STRING, id int) using orc PARTITIONED BY (id)""").show(100)[/code]我们往里面插入一些数据:[code lang="sql"]scala> spark.sql("insert into table iteblog_test select

w397090770   4年前 (2020-08-03) 3043℃ 0评论4喜欢

Airflow

盘点2019年晋升为Apache TLP的大数据相关项目

盘点2019年晋升为Apache TLP的大数据相关项目
本博客盘点了过去两年晋升为 Apache TLP(Apache Top-Level Project) 的大数据相关项目,具体参见《盘点2017年晋升为Apache TLP的大数据相关项目》、《盘点2018年晋升为Apache TLP的大数据相关项目》,继承这个惯例,本文将给大家盘点2019年晋升为 Apache TLP 的大数据相关项目,由于今年晋升成 TLP 的大数据项目很少,只有三个,而且其中两个好

w397090770   4年前 (2019-12-30) 2140℃ 0评论7喜欢

Hadoop

给Hadoop集群中添加Snappy解压缩库

给Hadoop集群中添加Snappy解压缩库
  Snappy是用C++开发的压缩和解压缩开发包,旨在提供高速压缩速度和合理的压缩率。Snappy比zlib更快,但文件相对要大20%到100%。在64位模式的Core i7处理器上,可达每秒250~500兆的压缩速度。  Snappy的前身是Zippy。虽然只是一个数据压缩库,它却被Google用于许多内部项目程,其中就包括BigTable,MapReduce和RPC。Google宣称它在这个库本

w397090770   10年前 (2014-03-03) 13418℃ 1评论2喜欢

Spark

[电子书]Apache Spark Graph Processing PDF下载

[电子书]Apache Spark Graph Processing PDF下载
  Apache Spark Graph Processing图书由Rindra Ramamonjison所著,全书共148页;Packt Publishing出版社于2015年09月出版。  通过本书你将学习到以下内容  (1)、Write, build and deploy Spark applications with the Scala Build Tool.  (2)、Build and analyze large-scale network datasets  (3)、Analyze and transform graphs using RDD and graph-specific operations  (4)

w397090770   7年前 (2017-02-12) 1827℃ 0评论1喜欢

Spark

Spark中函数addFile和addJar函数介绍

Spark中函数addFile和addJar函数介绍
  我们在使用Spark的时候有时候需要将一些数据分发到计算节点中。一种方法是将这些文件上传到HDFS上,然后计算节点从HDFS上获取这些数据。当然我们也可以使用addFile函数来分发这些文件。addFile  addFile方法可以接收本地文件(或者HDFS上的文件),甚至是文件夹(如果是文件夹,必须是HDFS路径),然后Spark的Driver和Exector

w397090770   8年前 (2016-07-11) 12403℃ 0评论13喜欢

资料分享

一篇文章理清 NVMe 的前生今世

一篇文章理清 NVMe 的前生今世
NVMe是Non-Volatile Memory express(非易失性内存主机控制器接口规范)的简称,它是一种协议,能够使固态硬盘(SSD)运行得更快,如今在企业用户中已越来越流行。理解什么是NVMe的最简单的方法就是打个比方——假设你刚买了一辆跑车,速度能达到400公里每小时,是你以前那辆老汽车的3到4倍。唯一的问题是,普通的道路是无法允许以这

w397090770   3年前 (2021-09-07) 546℃ 0评论1喜欢

Web服务

理解WSDL的重要性

理解WSDL的重要性
  在昨天我谈到了WSDL的一些概念,今天打算谈谈为什么理解WSDL非常重要。  许多用户可能会提到的一个问题是,既然WSDL文件可以在各种主要的平台上使用工具创建,为什么还要花时间学习WSDL呢?这是因为WSDL文档非常新,学习其内容和工作原理是明智的。由于Web服务正在变得无所不在,所以,理解和掌握WSDL文档的必要性越来

w397090770   11年前 (2013-04-25) 3075℃ 1评论1喜欢

ScalikeJDBC

ScalikeJDBC操作API

ScalikeJDBC操作API
  《ScalikeJDBC:基于SQL的简洁DB访问类库》文章中已经介绍了ScalikeJDBC到底是个什么东西。本文将介绍ScalikeJDBC的常用操作(Operations)API。查询API  ScalikeJDBC中有多种查询API,包括single, first, list 和foreach,他们内部都是调用java.sql.PreparedStatement#executeQuery()实现的。下面将分别介绍如何使用这个API。single查询  single

w397090770   8年前 (2016-03-16) 4251℃ 0评论8喜欢

ElasticSearch

23种非常有用的ElasticSearch查询例子(6)

23种非常有用的ElasticSearch查询例子(6)
  本系列文章将展示ElasticSearch中23种非常有用的查询使用方法。由于篇幅原因,本系列文章分为六篇,本文是此系列的第五篇文章。欢迎关注大数据技术博客微信公共账号:iteblog_hadoop。《23种非常有用的ElasticSearch查询例子(1)》《23种非常有用的ElasticSearch查询例子(2)》《23种非常有用的ElasticSearch查询例子(3)》《23种非常有用

w397090770   8年前 (2016-10-02) 5831℃ 0评论3喜欢

Mysql

将 MySQL 的增量数据导入到 Apache Solr 中

将 MySQL 的增量数据导入到 Apache Solr 中
在 这篇 和 这篇 文章中我分别介绍了如何将 MySQL 的全量数据导入到 Apache Solr 中以及如何分页导入等,本篇文章将继续介绍如何将 MySQL 的增量数据导入到 Solr 中。增量导数接口为 deltaimport,对应的页面如下:如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop如果我们使用 《将 MySQL 的全量

w397090770   6年前 (2018-08-18) 1578℃ 0评论3喜欢

Kubernetes

kubectl 常用命令一览表

kubectl 常用命令一览表
本文列出了 kubectl 常用命令。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据Kubectl 自动补全BASH[code lang="bash"]source <(kubectl completion bash) # 在 bash 中设置当前 shell 的自动补全,要先安装 bash-completion 包。echo "source <(kubectl completion bash)" >> ~/.bashrc # 在您的 bash shell 中永久

w397090770   2年前 (2022-02-28) 286℃ 0评论1喜欢

Presto

Presto 在有赞的实践之路

Presto 在有赞的实践之路
一、前言本文主要介绍了 Presto 的简单原理,以及 Presto 在有赞的实践之路。二、Presto 介绍Presto 是由 Facebook 开发的开源大数据分布式高性能 SQL 查询引擎。起初,Facebook 使用 Hive 来进行交互式查询分析,但 Hive 是基于 MapReduce 为批处理而设计的,延时很高,满足不了用户对于交互式查询想要快速出结果的场景。为了解决 Hive

w397090770   3年前 (2020-12-21) 682℃ 0评论2喜欢

Docker

Docker 入门教程:快速开始

Docker 入门教程:快速开始
我们在 《一文了解什么是 Docker》 文章中已经介绍了 Docker 是什么,以及为什么需要 Docker 技术。本文将快速介绍一下如何使用 Docker。安装 DockerDocker 是一个开源的商业产品,支持几乎所有的 Linux 发行版,也支持 Mac 以及 Windows 平台。在各平台上又分为两个版本:免费的社区版(Community Edition,缩写为 CE)和收费的企业版(Enterpri

w397090770   4年前 (2020-02-02) 799℃ 0评论3喜欢

流系统月刊

大数据流处理系统精彩资源月刊(第1期)

大数据流处理系统精彩资源月刊(第1期)
流处理系统月刊是一份专门收集关于Spark、Flink、Kafka、Apex等流处理系统的技术干货月刊,完全免费,每天更新,欢迎关注。下面资源如无法正常访问,请使用《最新可访问Google的Hosts文件》进行科学上网。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop#iteblog a:link { text-decoration: underline;}#it

w397090770   8年前 (2016-10-06) 2646℃ 0评论4喜欢

HBase

Apache HBase中等对象存储MOB压缩分区策略介绍

Apache HBase中等对象存储MOB压缩分区策略介绍
关于 HBase 的 MOB 具体使用可以参见 《HBase MOB(Medium Object)使用入门指南》介绍Apache HBase 中等对象存储(Medium Object Storage, 下面简称 MOB)的特性是由 HBASE-11339 引入的。该功能可以提高 HBase 对中等尺寸文件的低延迟读写访问(理想情况下,文件大小为 100K 到 10MB),这个功能使得 HBase 非常适合存储文档,图片和其他中等尺寸的对

w397090770   6年前 (2018-08-27) 2269℃ 0评论2喜欢

ElasticSearch

Elasticsearch 6.3 发布,你们要的 SQL 功能来了

Elasticsearch 6.3 发布,你们要的 SQL 功能来了
Elasticsearch 6.3 于前天正式发布,其中带来了很多新特性,详情请参见:https://www.elastic.co/blog/elasticsearch-6-3-0-released。这个版本最大的亮点莫过于内置支持 SQL 模块!我在早些时间就说过 Elasticsearch 将会内置支持 SQL,参见:ElasticSearch内置也将支持SQL特性。我们可以像操作 MySQL一样使用 Elasticsearch,这样我们就可以减少 DSL 的学习成本,

w397090770   6年前 (2018-06-15) 8870℃ 3评论12喜欢

HBase

HBase 中加盐(Salting)之后的表如何读取:Spark 篇

HBase 中加盐(Salting)之后的表如何读取:Spark 篇
在 《HBase 中加盐(Salting)之后的表如何读取:协处理器篇》 文章中介绍了使用协处理器来查询加盐之后的表,本文将介绍第二种方法来实现相同的功能。我们知道,HBase 为我们提供了 hbase-mapreduce 工程包含了读取 HBase 表的 InputFormat、OutputFormat 等类。这个工程的描述如下:This module contains implementations of InputFormat, OutputFormat, Mapper

w397090770   5年前 (2019-02-26) 3744℃ 0评论15喜欢

Spark

Spark Summit East 2017高清视频和PPT下载

Spark Summit East 2017高清视频和PPT下载
  Spark Summit East 2017会议于2017年2月07日到09日在波士顿进行,本次会议有来自工业界的上百位Speaker;官方日程:https://spark-summit.org/east-2017/schedule/。  目前本站昨晚已经把里面的85(今天早上发现又上传了25个视频,晚上我补全)个视频全部从Youtube下载下来,已经上传到百度网盘(访问https://github.com/397090770/spark-summit-east-2017获

w397090770   7年前 (2017-02-15) 2767℃ 0评论15喜欢

Linux

六种使用Linux命令发送带附件的邮件

六种使用Linux命令发送带附件的邮件
在很多场景中我们会使用Shell命令来发送邮件,而且我们还可能在邮件里面添加附件,本文将介绍使用Shell命令发送带附件邮件的几种方式,希望对大家有所帮助。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop使用mail命令mail命令是mailutils(On Debian)或mailx(On RedHat)包中的一部分,我们可以使

w397090770   7年前 (2017-02-23) 15949℃ 0评论12喜欢

Flume

Hadoop等大数据学习相关电子书[共85本]

Hadoop等大数据学习相关电子书[共85本]
  下面的大数据学习电子书我会陆续上传,敬请关注。一、Hadoop1、Hadoop Application Architectures2、Hadoop: The Definitive Guide, 4th Edition3、Hadoop Security Protecting Your Big Data Platform4、Field Guide to Hadoop An Introduction to Hadoop, Its Ecosystem, and Aligned Technologies5、Hadoop Operations A Guide for Developers and Administrators6、Hadoop Backup and Recovery Solutions

w397090770   9年前 (2015-08-11) 20337℃ 2评论54喜欢

Hadoop

Spark源码编译遇到的问题解决

Spark源码编译遇到的问题解决
1、内存不够[code lang="JAVA"][ERROR] PermGen space -> [Help 1][ERROR] [ERROR] To see the full stack trace of the errors,re-run Maven with the -e switch.[ERROR] Re-run Maven using the -X switch to enable full debug logging.[ERROR] [ERROR] For more information about the errors and possible solutions, please read the following articles:[ERROR] [Help 1]http://cwiki.apache.org/confluence/display/MAVEN/OutOfMemoryErr

w397090770   10年前 (2014-04-16) 15473℃ 4评论9喜欢

Spark

Spark meetup(Beijing)资料分享

Spark meetup(Beijing)资料分享
  《Spark meetup(Beijing)资料分享》  《Spark meetup(杭州)PPT资料分享》  《北京第二次Spark meetup会议资料分享》  《北京第三次Spark meetup会议资料分享》  《北京第四次Spark meetup会议资料分享》  《北京第五次Spark meetup会议资料分享》》  《北京第六次Spark meetup会议资料分享》  下面是Spark meetup(Beijing)第

w397090770   10年前 (2014-08-29) 23664℃ 204评论16喜欢

Flume

基于Spark的公安大数据实时运维技术实践

基于Spark的公安大数据实时运维技术实践
  公安行业存在数以万计的前后端设备,前端设备包括相机、检测器及感应器,后端设备包括各级中心机房中的服务器、应用服务器、网络设备及机房动力系统,数量巨大、种类繁多的设备给公安内部运维管理带来了巨大挑战。传统通过ICMP/SNMP、Trap/Syslog等工具对设备进行诊断分析的方式已不能满足实际要求,由于公安内部运维管

w397090770   7年前 (2017-01-01) 11146℃ 1评论37喜欢

Spark

Apache Spark 背后公司 Databricks 完成G轮融资,估值高达280亿美元,一年多翻了快五倍

Apache Spark 背后公司 Databricks 完成G轮融资,估值高达280亿美元,一年多翻了快五倍
2021年2月1日, Databricks 在其博客宣布将投资10亿美元,以应对其统一数据平台(unified data platform)在全球的快速普及。 本次融资由富兰克林·邓普顿(Franklin Templeton)领投,加拿大养老金计划投资委员会(Canada Pension Plan Investment Board)、富达管理与研究有限责任公司(Fidelity Management & Research LLC)和 Whale Rock(美国的媒体和技术公

w397090770   3年前 (2021-02-02) 616℃ 0评论3喜欢

Hadoop

Hbase 0.96.0分布式安装手册

Hbase 0.96.0分布式安装手册
在《Zookeeper 3.4.5分布式安装手册》、《Hadoop2.2.0完全分布式集群平台安装与设置》文章中,我们已经详细地介绍了如何搭建分布式的Zookeeper、Hadoop等平台,今天,我们来说说如何在Hadoop、Zookeeper上搭建完全分布式的Hbase平台。这里同样选择目前最新版的Hbase用于配合最新版的Hadoop-2.2.0,所以我们选择了Hbase-0.96.0。  1、下载并解压HB

w397090770   10年前 (2014-01-19) 11114℃ 6评论1喜欢