欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

Kafka

Spark Streaming kafka实现数据零丢失的几种方式

Spark Streaming kafka实现数据零丢失的几种方式
  在使用Spark streaming消费kafka数据时,程序异常中断的情况下发现会有数据丢失的风险,本文简单介绍如何解决这些问题。  在问题开始之前先解释下流处理中的几种可靠性语义:  1、At most once - 每条数据最多被处理一次(0次或1次),这种语义下会出现数据丢失的问题;  2、At least once - 每条数据最少被处理一次 (1

w397090770   8年前 (2016-07-26) 10858℃ 3评论17喜欢

资料分享

2021年最新美国苹果账号(Apple ID)注册方法

2021年最新美国苹果账号(Apple ID)注册方法
全新美国区 Apple ID 注册教程参见:2021年最新美区 Apple ID 注册教程使用苹果手机的有可能知道,国内使用的 App Store 只能下载国内的一些 APP 应用。有一些 APP 并没有在国内 App Store 上架,这时候就无法下载。我们需要使用一个国外的 Apple ID 账号,但是很多人手上一般都是只有国内的账号,这篇文章就来教大家如何把一个中国区的

w397090770   3年前 (2021-10-10) 1226℃ 0评论0喜欢

R

20个在机器学习和数据科学中最常用的R语言包

20个在机器学习和数据科学中最常用的R语言包
  我们通过分析从2015年1月至5月下载次数最多的R包,列出了前20名流行的机器学习R包。  大多数R包都深受Kagglers大神的最爱,也被资深的笔者所赞美,而这些包的使用率或评价高低不仅仅取决于其它的包对于这个  这个包的依赖程度。还也取决于Crantastic.org并使用其众包能解决方案的用户。但是,用户评价太低以至于不

w397090770   8年前 (2016-07-17) 3674℃ 0评论5喜欢

Hive

Apache Hive 0.13发布,新增ACID特性

Apache Hive 0.13发布,新增ACID特性
  4月16日在http://mirror.bit.edu.cn/apache/hive/hive-0.13.0/网址就可以下载Hive 0.13,这个版本在Hive执行速度、扩展性、SQL以及其他方面做了相当多的修改:一、执行速度  用户可以选择基于Tez的查询,基于Tez的查询可以大大提高Hive的查询速度(官网上上可以提升100倍)。下面一些技术对查询速度的提升:  (1)、Broadcast Joins:和M

w397090770   10年前 (2014-04-25) 8217℃ 1评论1喜欢

算法

社会关系网之中心性分析法

社会关系网之中心性分析法
  经常研究社会关系网的同学应该对社会关系网中的分析法比较熟悉,最近在写毕业设计用到了这方面的知识,所以在这做个总结。社会关系网是一门研究社会中社会实体(称为参与者)以及他们之间的活动与关系的学问。这种关系和活动可以用网络或者图来进行表示,其中,每一个顶点用来表示一个参与者,而一条边的链接用

w397090770   11年前 (2013-05-06) 11480℃ 0评论17喜欢

Spark Streaming

上海大数据流处理(Big Data Streaming)资料分享

上海大数据流处理(Big Data Streaming)资料分享
  第二期上海大数据流处理(Shanghai Big Data Streaming 2nd Meetup)于2015年12月6日下午12:45在上海世贸大厦22层英特尔­(中国)有限公司延安西路2299号进行,分享的主题如下:一、演讲者1/Speaker 1: 张天伦 英特尔大数据组软件工程师  个人介绍/BIO: 英特尔开源流处理系统Gearpump开发者,长期关注大数据领域和分布式计算,专注于流处理

w397090770   8年前 (2015-12-16) 3647℃ 0评论5喜欢

行业资讯

Base122介绍及其使用

Base122介绍及其使用
在数据URI方面其是一个特别高效的UTF-8 binary-to-text编码解决方案,可以用来替换base-64解决。对同一份数据进行编码,Base-122比Base-64小14%。Base-122当前是一个实验编码,后面可能会发生变化。基本使用Base-122编码产生UTF-8字符,但每字节比base-64编码更多的位。[code lang="javascript"]let base122 = require('./base122');let inputData = require('fs').

w397090770   7年前 (2017-02-15) 815℃ 4喜欢

Spark

Spark Streaming性能调优详解

Spark Streaming性能调优详解
  Spark Streaming提供了高效便捷的流式处理模式,但是在有些场景下,使用默认的配置达不到最优,甚至无法实时处理来自外部的数据,这时候我们就需要对默认的配置进行相关的修改。由于现实中场景和数据量不一样,所以我们无法设置一些通用的配置(要不然Spark Streaming开发者就不会弄那么多参数,直接写死不得了),我们需

w397090770   9年前 (2015-04-27) 26864℃ 0评论34喜欢

Spark

Spark作业如何在无管理权限的集群部署Python或JDK

Spark作业如何在无管理权限的集群部署Python或JDK
在 《如何在Spark、MapReduce和Flink程序里面指定JAVA_HOME》文章中我简单地介绍了如何自己指定 JAVA_HOME 。有些人可能注意到了,上面设置的方法有个前提就是要求集群的所有节点的同一路径下都安装部署好了 JDK,这样才没问题。但是在现实情况下,我们需要的 JDK 版本可能并没有在集群上安装,这个时候咋办?是不是就没办法呢?答案

w397090770   6年前 (2017-12-05) 2945℃ 0评论18喜欢

电子书

Hadoop Application Architectures[PDF]

Hadoop Application Architectures[PDF]
Hadoop Application Architectures - Designing Real-World Big Data Applications由 O'Reilly 于2015年7月出版,共364页。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop目录Chapter 1 Data Modeling in HadoopChapter 2 Data MovementChapter 3 Processing Data in HadoopChapter 4 Common Hadoop Processing PatternsChapter 5 Graph Processing on HadoopChapter 6

w397090770   9年前 (2015-08-14) 7693℃ 0评论10喜欢

Spark meetup

上海Spark meetup第七次聚会

上海Spark meetup第七次聚会
  新年伊始,上海Spark meetup第七次聚会将于2016年1月23日(周六)在上海市长宁区金钟路968号凌空SOHO 8号楼 进行。此次聚会由Intel联合携程举办,此次活动特别邀请到来自 携程,Splunk以及intel大数据的专家和大家分享Spark技术及实践经验,幸运听众还会得到一本签名版的Spark技术书籍。 大会主题  1、开场/Opening Keynote: 张翼,携

w397090770   8年前 (2016-01-16) 2700℃ 0评论3喜欢

Spark

Apache Spark 历史服务器(HistoryServer)日志过大解决

Apache Spark 历史服务器(HistoryServer)日志过大解决
最近突然收到线上服务器发出来的磁盘满了的报警,然后到服务器上发现 Apache Spark 的历史服务器(HistoryServer)日志居然占了近 500GB,如下所示:[code lang="bash"][root@iteblog.com spark]# ll -htotal 328-rw-rw-r-- 1 spark spark 15.4G Jul 11 13:09 spark-spark-org.apache.spark.deploy.history.HistoryServer-1-iteblog.com.out-rw-rw-r-- 1 spark spark 369M May 30 09:07 spark-spark-org.a

w397090770   5年前 (2018-10-29) 2115℃ 0评论2喜欢

Scala

[电子书]Scala and Spark for Big Data Analytics PDF下载

[电子书]Scala and Spark for Big Data Analytics PDF下载
本书于2017-07由Packt Publishing出版,作者Md. Rezaul Karim, Sridhar Alla,全书1587页。关注大数据猿(bigdata_ai)公众号及时获取最新大数据相关电子书、资讯等通过本书你将学到以下知识Understand object-oriented & functional programming concepts of ScalaIn-depth understanding of Scala collection APIsWork with RDD and DataFrame to learn Spark’s core abstractionsAnalysin

zz~~   7年前 (2017-08-21) 7766℃ 0评论31喜欢

Guava

Guava学习之Multimap

Guava学习之Multimap
  相信大家对Java中的Map类及其之类有大致的了解,Map类是以键值对的形式来存储元素(Key->Value),但是熟悉Map的人都知道,Map中存储的Key是唯一的。什么意思呢?就是假如我们有两个key相同,但value不同的元素需要插入到map中去,那么先前的key对应的value将会被后来的值替换掉。如果我们需要用Map来把相同key的值存在一起,代

w397090770   11年前 (2013-07-09) 7835℃ 1评论1喜欢

Delta Lake

云栖大会 | Apache Spark 3.0 和 Koalas 最新进展

云栖大会 | Apache Spark 3.0 和 Koalas 最新进展
本资料来自2019-09-26在杭州举办的云栖大会的大数据 & AI 峰会分会。议题名称《New Developments in the Open Source Ecosystem: Apache Spark 3.0 and Koalas》,分享嘉宾李潇,Databricks Spark 研发总监。下面是本次会议的视频(由于微信公众号的限制,只能发布小于30分钟的视频,完整视频和 PPT 请关注 过往记忆大数据 公众号并回复 spark_yq 获取。)

w397090770   5年前 (2019-09-27) 2790℃ 0评论3喜欢

Spark

Spark 2.0介绍:在Spark SQL中定义查询优化规则

Spark 2.0介绍:在Spark SQL中定义查询优化规则
《Spark 2.0技术预览:更容易、更快速、更智能》文章中简单地介绍了Spark 2.0带来的新技术等。Spark 2.0是Apache Spark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大的变化,为该框架明年的发展奠定了方向,所以了解Spark 2.0的一些特性对我们能够使用它有着非常重要的作用。本博客将对Spark 2.0进行一序列的介

w397090770   8年前 (2016-07-14) 7543℃ 2评论4喜欢

Apache Ambari

Apache 董事会即将终止 Apache Ambari 项目

Apache 董事会即将终止 Apache Ambari 项目
2022年01月10日,来自 Cloudera 的工程师、Apache Ambari PMC 主席 Jayush Luniya 给 Ambari 社区发送了一封名为《[VOTE] Move Apache Ambari to Attic》的邮件:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据邮件内容显示,在过去的两年里,Ambari 只发布了一个版本(2.7.6),大多数提交者(Committer)和 PMC 成员

w397090770   2年前 (2022-01-16) 309℃ 0评论1喜欢

Mysql

将 MySQL 的全量数据导入到 Apache Solr 中

将 MySQL 的全量数据导入到 Apache Solr 中
关于分页方式导入全量数据请参照《将 MySQL 的全量数据以分页的形式导入到 Apache Solr 中》。在前面几篇文章中我们介绍了如何通过 Solr 的 post 命令将各种各样的文件导入到已经创建好的 Core 或 Collection 中。但有时候我们需要的数据并不在文件里面,而是在别的系统中,比如 MySql 里面。不过高兴的是,Solr 针对这些数据也提供了

w397090770   6年前 (2018-08-06) 1847℃ 0评论2喜欢

Presto

使用 Alluxio 实现 Presto Caching @ Uber

使用 Alluxio 实现 Presto Caching @ Uber
本文是 2021-10-13 日周三下午13:30 举办的议题为《Enabling Presto Caching at Uber with Alluxio》的分享,作者来自 Uber 的 Zhongting Hu 和 Alluxio 发 Dr. Beinan Wang。Zhongting Hu is Tech Lead Manager of the Interactive Analytics Team at Uber. He is leading and managing Presto ecosystems inside Uber.Dr. Beinan Wang is a software engineer from Alluxio and is the committer of PrestoDB. Prior to Alluxio, he

w397090770   2年前 (2021-10-27) 193℃ 0评论0喜欢

Hive

HiveServer2(Spark ThriftServer)自定义权限认证

HiveServer2(Spark ThriftServer)自定义权限认证
Hive 除了为我们提供一个 CLI 方式来查询数据之外,还给我们提供了基于 JDBC/ODBC 的方式来连接 Hive,这就是 HiveServer2(HiveServer)。但是默认情况下通过 JDBC 连接 HiveServer2 不需要任何的权限认证(hive.server2.authentication = NONE);这意味着任何知道 ThriftServer 地址的人都可以连接我们的 Hive,并执行一些操作。更可怕的是,这些人甚至可

w397090770   6年前 (2018-01-11) 13042℃ 5评论18喜欢

hudi

官宣,Apache Hudi 正式成为 Apache 顶级项目

官宣,Apache Hudi 正式成为 Apache 顶级项目
2020年6月4日,马萨诸塞州韦克菲尔德(Wakefield, MA)—— Apache 软件基金会(ASF),超过350个开源项目和计划的全志愿者开发人员、管理人员和孵化器,正式宣布 Apache Hudi 成为顶级项目(Top-Level Project 、TLP)。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoopApache Hudi (Hadoop Upserts delete and Incrementa

w397090770   4年前 (2020-06-04) 1158℃ 0评论5喜欢

Spark

Spark MLlib 1.6.1之特征抽取和变换

Spark MLlib 1.6.1之特征抽取和变换
7.1 TF-IDF  TF-IDF是一种特征向量化方法,这种方法多用于文本挖掘,通过算法可以反应出词在语料库中某个文档中的重要性。文档中词记为t,文档记为d , 语料库记为D . 词频TF(t,d) 是词t 在文档d 中出现的次数。文档频次DF(t,D) 是语料库中包括词t的文档数。如果使用词在文档中出现的频次表示词的重要程度,那么很容易取出反例,

w397090770   8年前 (2016-03-27) 6021℃ 0评论6喜欢

Flume

Hadoop大数据零基础实战视频教程下载

Hadoop大数据零基础实战视频教程下载
  本博客分享的其他视频下载地址:《传智播客Hadoop实战视频下载地址[共14集]》、《传智播客Hadoop课程视频资料[共七天]》、《Hadoop入门视频分享[共44集]》、《Hadoop大数据零基础实战培训教程下载》、《Hadoop2.x 深入浅出企业级应用实战视频下载》、《Hadoop新手入门视频百度网盘下载[全十集]》  本博客收集到的Hadoop学习书

w397090770   10年前 (2014-07-15) 92335℃ 0评论162喜欢

Flink

四种优化 Apache Flink 应用程序的方法

四种优化 Apache Flink 应用程序的方法
Flink 是一种非常复杂的框架,它提供了多种调整其执行的方法。本文将介绍四种不同的方法来提升你的 Flink 应用程序的性能。使用 Flink Tuples当你使用类似于 groupBy, join, 或者 keyBy 算子时,Flink 提供了多种用于在你的数据集上选择 key 的方法。你可以使用 key 选择函数,如下:[code lang="java"]// Join movies and ratings datasetsmovies.join

w397090770   6年前 (2017-12-10) 5303℃ 0评论16喜欢

ElasticSearch

在Apache Zeppelin中安装使用Elasticsearch Interpreter

在Apache Zeppelin中安装使用Elasticsearch Interpreter
从Apache Zeppelin 0.5.6 版本开始,内置支持 Elasticsearch Interpreter了。我们可以直接在Apache Zeppelin中查询 ElasticSearch 中的数据。但是默认的 Apache Zeppelin 发行版本中可能并没有包含 Elasticsearch Interpreter。这种情况下我们需要自己安装。如果你参照了官方的这篇文档,即使你全部看完这篇文档,也是无法按照上面的说明启用 Elasticsearch Interpre

w397090770   7年前 (2017-07-05) 1820℃ 0评论5喜欢

Spark

不要将大型RDD中所有元素发送到Driver端

不要将大型RDD中所有元素发送到Driver端
  如果你的Driver内存容量不能容纳一个大型RDD里面的所有数据,那么不要做以下操作:[code lang="scala"]val values = iteblogVeryLargeRDD.collect()[/code]  Collect 操作会试图将 RDD 里面的每一条数据复制到Driver上,如果你Driver端的内存无法装下这些数据,这时候会发生内存溢出和崩溃。  相反,你可以调用take或者 takeSample来限制数

w397090770   9年前 (2015-05-20) 3017℃ 0评论4喜欢

Kafka

在Kafka中使用Avro编码消息:Consumer篇

在Kafka中使用Avro编码消息:Consumer篇
我在《在Kafka中使用Avro编码消息:Producter篇》文章中简单介绍了如何发送 Avro 类型的消息到 Kafka。本文接着上文介绍如何从 Kafka 读取 Avro 格式的消息。关于 Avro 我这就不再介绍了。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop从 Kafka 中读取 Avro 格式的消息从 Kafka 中读取 Avro 格式的消

w397090770   7年前 (2017-09-25) 6216℃ 0评论16喜欢

Distributed System

分布式系统一致性问题、CAP定律以及 BASE 理论

分布式系统一致性问题、CAP定律以及 BASE 理论
一致性问题在介绍分布式系统一致性问题之前,我们先来了解一下副本概念。分布式系统会存在许多异常问题,比如机器宕机;为了提供高可用服务,一般会将数据或者服务部署到很多机器上,这些机器中的数据或服务可以称为副本。如果其中任何一台节点出现故障,用户可以访问其他机器上的数据或服务。由于副本的存在,如

w397090770   6年前 (2018-05-04) 4530℃ 0评论10喜欢

Flink

Flink快速上手(QuickStart)

Flink快速上手(QuickStart)
安装:下载并启动  Flink可以在Linux、Mac OS X以及Windows上运行。为了能够运行Flink,唯一的要求是必须安装Java 7.x或者更高版本。对于Windows用户来说,请参考 Flink on Windows 文档,里面介绍了如何在Window本地运行Flink。下载  从下载页面(http://flink.apache.org/downloads.html)下载所需的二进制包。你可以选择任何与 Hadoop/Scala 结

w397090770   8年前 (2016-04-05) 17597℃ 0评论23喜欢