哎哟~404了~休息一下,下面的文章你可能很感兴趣:
本书是2013年09月出版,全书共298页,这里提供的本书完整英文版电子书。 w397090770 9年前 (2015-08-16) 2566℃ 0评论7喜欢
2017年已然来临,大数据技术仍然保持着飞速发展。无论是物联网、云计算领域乃至企业技术都开始将其引入自身并作为新的变革方向。众多企业已经在积极接纳大数据技术,并作为提升自身市场竞争力的核心因素。在今天的文章中,我们将基于甲骨文给出的预测结论,总结2017年十项大数据变化趋势。如果想及时了解Spark、H w397090770 7年前 (2017-02-17) 1026℃ 0评论3喜欢
在本博客的《Apache Kafka-0.8.1.1源码编译》文章中简单地谈到如何用gradlew或sbt编译Kafka 0.8.1.1的代码。今天主要来谈谈如何部署一个分布式集群。以下本文所有的内容都是基于Kafka 0.8.1.1(Kafka 0.7.x的操作命令和本文略有不同,请注意!)在介绍Kafka分布式部署之前,先来了解一下Kafka的基本概念。 (1)Kafka维护按类区分的消息 w397090770 10年前 (2014-06-25) 9042℃ 0评论5喜欢
《ScalikeJDBC:基于SQL的简洁DB访问类库》文章中已经介绍了ScalikeJDBC到底是个什么东西。本文将介绍ScalikeJDBC的常用操作(Operations)API。查询API ScalikeJDBC中有多种查询API,包括single, first, list 和foreach,他们内部都是调用java.sql.PreparedStatement#executeQuery()实现的。下面将分别介绍如何使用这个API。single查询 single w397090770 8年前 (2016-03-16) 4251℃ 0评论8喜欢
Learning Spark这本书链接是完整版,和之前的预览版是不一样的,我不是标题党。这里提供的Learning Spark电子书格式是mobi、pdf以及epub三种格式的文件,如果你有亚马逊Kindle电子书阅读器,是可以直接阅读mobi、pdf。但如果你用电脑,也可以下载相应的PC版阅读器 。如果你需要阅读器,可以找我。如果想及时了解Spark、Hadoop或者Hbase相 w397090770 9年前 (2015-02-11) 50510℃ 305评论70喜欢
我使用的是Spark 1.5.2和HDP 2.2.4.8,在启动spark-shell的时候出现了以下的异常:[code lang="bash"][itebog@www.iteblog.com ~]$ bin/spark-shell --master yarn-client...at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala):10: error: not found: value sqlContext import sqlContext.implicits._:10: error: not found: value sqlContext import sqlContext.sql[/code]你打开Application w397090770 8年前 (2016-01-15) 4588℃ 0评论2喜欢
Data + AI Summit 2022 于2022年06月27日至30日举行。本次会议是在旧金山进行,中国的小伙伴是可以在线收听的,一共为期四天,第一天是培训,后面几天才是正式会议。本次会议有超过200个议题,演讲嘉宾包括业界、研究和学术界的专家,本次会议主要分为六大块:数据分析, BI 以及可视化:了解最新的数据分析、BI 和可视化技术以及 w397090770 2年前 (2022-07-10) 508℃ 0评论3喜欢
本书由Robert D. Schneider所著,全书共45页,这里提供的是完整版。 w397090770 9年前 (2015-08-21) 2442℃ 0评论1喜欢
本程序用来仿照linux中的ls -l命令来实现的,主要运用的函数有opendir,readdir, lstat等。代码如下:[code lang="CPP"]#include <iostream>#include <vector>#include <cstdlib>#include <dirent.h>#include <sys/types.h>#include <sys/stat.h>#include <unistd.h>#include <cstring>#include <algorithm>using namespace std;void getFileAndDir(vector w397090770 11年前 (2013-04-04) 2610℃ 0评论0喜欢
Web服务描述语言(WSDL)是一种用于描述Web服务或者网络端点的基于XML的语言。WSDL协议描述了Web服务之间的额消息处理机制、Web服务的位置,以及Web服务之间的通信协议。 WSDL与SOAP和UDDI一起工作,支持Web服务与Internet上的其他WEb服务、应用程序和设备交互作用。从本质上讲,UDDI提供了发布和定位Web服务的功能,WSDL描述了W w397090770 11年前 (2013-04-24) 3404℃ 0评论2喜欢
VSFTP是一个基于GPL发布的类Unix系统上使用的FTP服务器软件,它的全称是Very Secure FTP 从此名称可以看出来,编制者的初衷是代码的安全。本文将介绍如何在CentOS系统上安装、部署和卸载vsftp。1. 安装VSFTP[code lang="bash"][iteblog@www.iteblog.com ~]# yum -y install vsftpd[/code]2. 配置vsftpd.conf文件[code lang="bash"][iteblog@www.iteblog.com ~]# v w397090770 8年前 (2016-04-16) 2029℃ 0评论3喜欢
背景 随着公司这两年业务的迅速扩增,业务数据量和数据处理需求也是呈几何式增长,这对底层的存储和计算等基础设施建设提出了较高的要求。本文围绕计算集群资源使用和资源调度展开,将带大家了解集群资源调度的整体过程、面临的问题,以及我们在底层所做的一系列开发优化工作。资源调度框架---YarnYarn的总体结 zz~~ 2年前 (2021-11-16) 499℃ 0评论0喜欢
本书由Packt出版,2016年10月发行,全书共332页。从标题可以看出这本书是适用于初学者的,全书的例子有Scala和Python两个版本,涵盖了Spark基础、编程模型、SQL、Streaming、机器学习以及图计算等知识。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop本书的章节如下:[code lang="bash"]Chapter 1: w397090770 8年前 (2016-10-24) 5869℃ 0评论8喜欢
最近有一个线上 Presto 集群的 Coordinator 节点内存一直处于90%以上,如下图所示:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据日志里面可以看到几乎每分钟都在 Full GC,但是内存仍然占用很高,所以第一个想法就是存在内存泄漏。但是线上的集群内存是180GB,所以分析这些内存就不能用 w397090770 2个月前 (01-31) 98℃ 0评论0喜欢
Apache Arrow是Apache基金会下一个全新的开源项目,同时也是顶级项目。它的目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。 用户在应用大数据分析时除了将Hadoop等大数据平台作为一个经济的存储和批处理平台之外也很看重分析系统的扩展性和性能。过去几年开源社区已经发布了很多工具来完善大数据分 w397090770 8年前 (2016-03-01) 3753℃ 0评论2喜欢
引言Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。SparkSQL作为大数据领域的SQL实现,自然也对Join操作做了不少优化,今天主要看一下在SparkSQL中对于Join,常见的3种实现。Spark SQL中Join常用的实现Broadc zz~~ 7年前 (2017-07-09) 8273℃ 0评论16喜欢
本文我们将花点时间来回顾一下 Databricks 和 Apache Spark™ 在流数据处理方面所取得的巨大进步!2021年,工程团队和开源贡献者在以下三个目标取得了一些进展:降低延迟并改进有状态流处理;提高 Databricks 和 Spark Structured Streaming 工作负载的可观测性;改进资源分配和可伸缩性。下面我们来简单地看下这些目标。目标一: w397090770 2年前 (2022-02-23) 746℃ 0评论3喜欢
关系运算1、等值比较: =语法:A=B操作类型:所有基本类型描述: 如果表达式A与表达式B相等,则为TRUE;否则为FALSE[code lang="sql"]hive> select 1 from iteblog where 1=1;1[/code]2、不等值比较: 语法: A B操作类型: 所有基本类型描述: 如果表达式A为NULL,或者表达式B为NULL,返回NULL;如果表达式A与表达式B不相等,则为TRUE;否则为 zz~~ 7年前 (2017-09-14) 92334℃ 3评论179喜欢
《Spark on YARN集群模式作业运行全过程分析》 《Spark on YARN客户端模式作业运行全过程分析》 《Spark:Yarn-cluster和Yarn-client区别与联系》 《Spark和Hadoop作业之间的区别》 《Spark Standalone模式作业运行全过程分析》(未发布) 我们都知道Spark支持在yarn上运行,但是Spark on yarn有分为两种模式yarn-cluster和yarn-cl w397090770 9年前 (2014-12-15) 57842℃ 4评论94喜欢
JMX(Java Management Extensions,即Java管理扩展)是一个为应用程序、设备、系统等植入管理功能的框架。JMX可以跨越一系列异构操作系统平台、系统体系结构和网络传输协议,灵活的开发无缝集成的系统、网络和服务管理应用。启动JMX监控,在启动java程序的时候最少需要在环境变量里面配置以下的选项:[code lang="bash"]-Dcom.sun.m w397090770 8年前 (2016-03-25) 6032℃ 0评论10喜欢
Suffusion 是一款功能十分强大的免费WordPress主题,可以对样式模板、整体框架、内容调用进行自定义设置。本文主要来分享一下如何给文章添加统计次数。 安装WP-PostViews插件,这个是用来统计文章浏览次数的。 依次选择 外观-->编辑-->post-header.php 在里面找到[code lang="CPP"]<span class="comments">[/code] 可以 w397090770 11年前 (2013-04-20) 3462℃ 0评论4喜欢
我目前使用的Hive版本是apache-hive-1.2.0-bin,每次在使用 show create table 语句的时候如果你字段中有中文注释,那么Hive得出来的结果如下:hive> show create table iteblog;OKCREATE TABLE `iteblog`( `id` bigint COMMENT '�id', `uid` bigint COMMENT '(7id', `name` string COMMENT '(7�')ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' STORED AS INPUTF w397090770 8年前 (2016-06-08) 11166℃ 0评论13喜欢
背景熟悉 Spark 的同学都知道,Spark 作业启动的时候我们需要指定 Exectuor 的个数以及内存、CPU 等信息。但是在 Spark 作业运行的时候,里面可能包含很多个 Stages,这些不同的 Stage 需要的资源可能不一样,由于目前 Spark 的设计,我们无法对每个 Stage 进行细粒度的资源设置。而且即使是一个资深的工程师也很难准确的预估一个比较 w397090770 4年前 (2020-01-10) 1391℃ 0评论2喜欢
Delta Lake 支持 DML 命令,包括 DELETE, UPDATE, 以及 MERGE,这些命令简化了 CDC、审计、治理以及 GDPR/CCPA 工作流等业务场景。在这篇文章中,我们将演示如何使用这些 DML 命令,并会介绍这些命令的后背实现,同时也会介绍对应命令的一些性能调优技巧。Delta Lake: 基本原理如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信 w397090770 4年前 (2020-10-12) 1265℃ 0评论0喜欢
为期三天的 SPARK + AI SUMMIT Europe 2019 于 2019年10月15日-17日荷兰首都阿姆斯特丹举行。数据和 AI 是需要结合的,而 Spark 能够处理海量数据的分析,将 Spark 和 AI 进行结合,无疑会带来更好的产品。Spark+AI Summit Europe 2019 是欧洲最大的数据和机器学习会议,大约有1700多名数据科学家、工程师和分析师参加此次会议。本次会议的提议包括了A w397090770 4年前 (2019-11-01) 992℃ 0评论1喜欢
在极短的时间内,Apache Spark 迅速成长为大数据分析的技术核心。这就使得保守派担心在这个技术更新如此之快的年代它是否会同样快的被淘汰呢。我反而却坚信,spark仅仅是崭露头角。 在过去的几年时间,随着Hadoop技术爆炸和大数据逐渐占据主流地位,几件事情逐渐明晰: 1、对所有数据而言,Hadoop分布式文件系 w397090770 9年前 (2015-08-26) 2809℃ 0评论4喜欢
Shanghai Apache Spark Meetup第九次聚会在6月18日下午13:00-17:00由Intel联手饿了么在上海市普陀区金沙江路1518弄2号近铁城市广场饿了么公司5楼会议室(榴莲酥+螺狮粉)举行。分享主题演讲者1: 史鸣飞, 英特尔大数据工程师演讲者2: 史栋杰, 英特尔大数据工程师演讲者3: 毕洪宇,饿了么数据运营部副总监演讲者4: 张家劲, w397090770 8年前 (2016-06-25) 2052℃ 0评论4喜欢
近日,被誉为最好的Java开发工具IntelliJ IDEA发布了IntelliJ IDEA 2016.2版本,这是本年度第二个发行版本。此版本带来了许多新功能,本文将列举部分比较好的功能。调试器Debugger新版本的Idea将Watches和Variables面板合在一起。此外多行表达式(multiline expressions)功能现在在断点设置中支持Condition、Evaluate和log fields,并且在Data Type w397090770 8年前 (2016-07-16) 6185℃ 0评论17喜欢
SBT默认的日志级别是Info,我们可以根据自己的需要去设置它的默认日志级别,比如我们在开发过程中,就可以打开Debug日志级别,这样可以看出SBT是如何工作的。SBT的日志级别在sbt.Level类里面定义:[code lang="scala"]object Level extends Enumeration{ val Debug = Value(1, "debug") val Info = Value(2, "info") val Warn = Value(3, "warn&q w397090770 8年前 (2015-12-24) 3410℃ 0评论8喜欢
概述Hadoop archives 是特殊的档案格式。一个 Hadoop archive 对应一个文件系统目录。 Hadoop archive 的扩展名是 *.har。Hadoop archive 包含元数据(形式是 _index 和 _masterindx)和数据(part-*)文件。_index 文件包含了档案中文件的文件名和位置信息。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop如何 w397090770 6年前 (2018-09-17) 2098℃ 0评论1喜欢