欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

Spark meetup

上海第十次Spark Meetup资料分享

上海第十次Spark Meetup资料分享
  Shanghai Apache Spark Meetup第十次聚会活动将于2016年09月10日12:30 至 17:20在四星级的上海通茂大酒店 (浦东新区陆家嘴金融区松林路357号)。分享主题1、中国电信在大数据领域上的创新与探索2、函数式编程与RDD3、社交网络中的信息传播4、大数据分析和机器学习5、分布式流式数据处理框架:功能对比以及性能评估详细主

zz~~   8年前 (2016-09-20) 1779℃ 0评论2喜欢

网站建设

在CentOS上为PHP安装Imagick和ImageMagick

在CentOS上为PHP安装Imagick和ImageMagick
  Imagick是PHP的本地扩展,通过调用ImageMagick提供的API来创建和修改图片。  而ImageMagick是一套软件系列,主要用于图片的创建、编辑以及创建bitmap图片,它支持很多格式的图片读取、转换以及编辑,这些格式包括了DPX, EXR, GIF, JPEG, JPEG-2000, PDF, PhotoCD, PNG, Postscript, SVG, and TIF等等。ImageMagick的官网(http://www.imagemagick.org/script/index.ph

w397090770   9年前 (2015-08-19) 27452℃ 0评论4喜欢

Hadoop

Hadoop 气数已尽?

Hadoop 气数已尽?
Hadoop我先从一个悲观的观点说起:Hadoop 正在迅速失去市场,我们可以从 Google 趋势走向看出这个现象:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop下面的炒作生命周期表也上面的趋势很类似:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop看起来 Hadoo

w397090770   5年前 (2019-06-23) 3666℃ 0评论32喜欢

ElasticSearch

使用Hive读取ElasticSearch中的数据

使用Hive读取ElasticSearch中的数据
  本文将介绍如何通过Hive来读取ElasticSearch中的数据,然后我们可以像操作其他正常Hive表一样,使用Hive来直接操作ElasticSearch中的数据,将极大的方便开发人员。本文使用的各组件版本分别为 Hive0.12、Hadoop-2.2.0、ElasticSearch 2.3.4。  我们先来看看ElasticSearch中相关表的mapping:[code lang="bash"]{ "user": { "propert

w397090770   8年前 (2016-10-26) 17018℃ 0评论29喜欢

Apache SeaTunnel

Waterdrop:构建在Spark之上的简单高效数据处理系统

Waterdrop:构建在Spark之上的简单高效数据处理系统
Databricks 开源的 Apache Spark 对于分布式数据处理来说是一个伟大的进步。我们在使用 Spark 时发现了很多可圈可点之处,我们在此与大家分享一下我们在简化Spark使用和编程以及加快Spark在生产环境落地上做的一些努力。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop一个Spark Streaming读取Kafka

w397090770   6年前 (2018-02-28) 6561℃ 0评论13喜欢

Spark

Apache Spark DataFrames入门指南:创建DataFrame

Apache Spark DataFrames入门指南:创建DataFrame
  本系列文章翻译自:《scala data analysis cookbook》第二章:Getting Started with Apache Spark DataFrames。原书是基于Spark 1.4.1编写的,我这里使用的是Spark 1.6.0,丢弃了一些已经标记为遗弃的函数。并且修正了其中的错误。  一、从csv文件创建DataFrame    如何做?    如何工作的    附录  二、操作DataFrame   

w397090770   8年前 (2016-01-16) 6480℃ 0评论16喜欢

公众号转载文章

携程机票数据仓库建设之路

携程机票数据仓库建设之路
一、前言随着大数据技术的飞速发展,海量数据存储和计算的解决方案层出不穷,生产环境和大数据环境的交互日益密切。数据仓库作为海量数据落地和扭转的重要载体,承担着数据从生产环境到大数据环境、经由大数据环境计算处理回馈生产应用或支持决策的重要角色。数据仓库的主题覆盖度、性能、易用性、可扩展性及数

w397090770   4年前 (2020-03-01) 1953℃ 0评论7喜欢

Scala

Scala class和case class的区别

Scala class和case class的区别
在Scala中存在case class,它其实就是一个普通的class。但是它又和普通的class略有区别,如下:1、初始化的时候可以不用new,当然你也可以加上,普通类一定需要加new;[code lang="scala"]scala> case class Iteblog(name:String)defined class Iteblogscala> val iteblog = Iteblog("iteblog_hadoop")iteblog: Iteblog = Iteblog(iteblog_hadoop)scala> val iteblog

w397090770   9年前 (2015-09-18) 38355℃ 1评论71喜欢

Flink

Flink:本地执行(Local Execution)

Flink:本地执行(Local Execution)
  Flink可以在单台机器上运行,甚至是单个Java虚拟机(Java Virtual Machine)。这种机制使得用户可以在本地测试或者调试Flink程序。本节主要概述Flink本地模式的运行机制。  本地环境和执行器(executors)运行你在本地的Java虚拟机上运行Flink程序,或者是在属于正在运行程序的如何Java虚拟机上。对于大部分示例程序而言,你只需简单

w397090770   8年前 (2016-04-27) 16299℃ 0评论19喜欢

Redis

Redis 6.0 稳定版发布,支持多线程 IO

Redis 6.0 稳定版发布,支持多线程 IO
五一期间,Redis 6.0.0 稳定版(GA)终于发布,Redis 6.0 最终的发布一共经历了四个 RC(Release Candidate)版,从第一个候选版本的发布到一个稳定版本前后经历了大概四个半月(Redis 6.0 RC1 于 2019-12-19 发布)。Redis 6 是 Redis 有史以来最大的版本,虽然现在发布了 GA 版,但是在将它投入生产之前仍然需要谨慎。本文将介绍 Redis 6.0 RC1 到 GA

w397090770   4年前 (2020-05-01) 1204℃ 0评论4喜欢

Guava

Guava学习之Immutable集合

Guava学习之Immutable集合
  Immutable中文意思就是不可变。那为什么需要构建一个不可变的对象?原因有以下几点: 在并发程序中,使用Immutable既保证线程安全性,也大大增强了并发时的效率(跟并发锁方式相比)。尤其当一个对象是值对象时,更应该考虑采用Immutable方式; 被不可信的类库使用时会很安全; 如果一个对象不需要支持修改操作(mutation

w397090770   11年前 (2013-07-12) 8524℃ 1评论8喜欢

Presto

Presto 在 Lyft 的实践

Presto 在 Lyft 的实践
2017 年初,我们开始探索 Presto 来解决 OLAP 用例,我们意识到了这个惊人的查询引擎的潜力。与 Apache Hive 相比,它最初是一种临时查询工具,供数据工程师和分析师以更快的方式运行 SQL 来构建查询原型。 当时很多内部仪表板都由 AWS-Redshift 提供支持,并将数据存储和计算耦合在一起。我们的数据呈指数级增长(每隔几天翻一番),

w397090770   2年前 (2022-03-18) 292℃ 0评论0喜欢

CPP编程

树的非递归中序和层次遍历实现

树的非递归中序和层次遍历实现
相信大家对树的各种递归的遍历很了解,利用递归使得代码变得简单而且比较好理解,但是利用递归是需要代价的,特别是当递归层次比较深的时候,可能会导致递归栈溢出。而且递归一般运行速度比较慢,那么这种情况下,我们就可以采用非递归来实现,非递归相对递归来说,代码相对比较难理解,而且代码量也一般比较多,可

w397090770   11年前 (2013-04-04) 3379℃ 0评论0喜欢

Akka

Akka学习笔记:Actor消息传递(1)

Akka学习笔记:Actor消息传递(1)
Akka学习笔记系列文章:《Akka学习笔记:ACTORS介绍》《Akka学习笔记:Actor消息传递(1)》《Akka学习笔记:Actor消息传递(2)》  《Akka学习笔记:日志》《Akka学习笔记:测试Actors》《Akka学习笔记:Actor消息处理-请求和响应(1) 》《Akka学习笔记:Actor消息处理-请求和响应(2) 》《Akka学习笔记:ActorSystem(配置)》《Akka学习笔记

w397090770   10年前 (2014-10-13) 21895℃ 5评论40喜欢

Kafka

Spark Streaming和Kafka整合是如何保证数据零丢失

Spark Streaming和Kafka整合是如何保证数据零丢失
  当我们正确地部署好Spark Streaming,我们就可以使用Spark Streaming提供的零数据丢失机制。为了体验这个关键的特性,你需要满足以下几个先决条件:  1、输入的数据来自可靠的数据源和可靠的接收器;  2、应用程序的metadata被application的driver持久化了(checkpointed );  3、启用了WAL特性(Write ahead log)。  下面我将简单

w397090770   8年前 (2016-03-02) 17549℃ 16评论50喜欢

Data + AI Summit

Data + AI Summit 2022 超清视频下载

Data + AI Summit 2022 超清视频下载
Data + AI Summit 2022 于2022年06月27日至30日举行。本次会议是在旧金山进行,中国的小伙伴是可以在线收听的,一共为期四天,第一天是培训,后面几天才是正式会议。本次会议有超过200个议题,演讲嘉宾包括业界、研究和学术界的专家,本次会议主要分为六大块:数据分析, BI 以及可视化:了解最新的数据分析、BI 和可视化技术以及

w397090770   2年前 (2022-07-10) 508℃ 0评论3喜欢

Hadoop

HDFS 副本存放磁盘选择策略

HDFS 副本存放磁盘选择策略
在 HDFS 中,DataNode 将数据块存储到本地文件系统目录中,具体的目录可以通过配置 hdfs-site.xml 里面的 dfs.datanode.data.dir 参数。在典型的安装配置中,一般都会配置多个目录,并且把这些目录分别配置到不同的设备上,比如分别配置到不同的HDD(HDD的全称是Hard Disk Drive)和SSD(全称Solid State Drives,就是我们熟悉的固态硬盘)上。当

w397090770   6年前 (2018-03-28) 5122℃ 3评论24喜欢

Hadoop

HDFS 快照编程指南

HDFS 快照编程指南
HDFS 快照是从 Hadoop 2.1.0-beta 版本开始引入的新功能,详见 HDFS-2802。概述HDFS 快照(HDFS Snapshots)是文件系统在某个时间点的只读副本。可以在文件系统的子树或整个文件系统上创建快照。快照的常见用途主要包括数据备份,防止用户误操作和容灾恢复。HDFS 快照的实现非常高效:快照的创建非常迅速:除去 inode 的查找时间,

w397090770   5年前 (2018-12-02) 2072℃ 0评论3喜欢

网站建设

DataTables四种数据源

DataTables四种数据源
  DataTables是一款非常简单的前端表格展示插件,它支持排序,翻页,搜索以及在客户端和服务端分页等多种功能。官方介绍:DataTables is a plug-in for the jQuery Javascript library. It is a highly flexible tool, based upon the foundations of progressive enhancement, and will add advanced interaction controls to any HTML table.它的数据源有很多种:主要有HTML (DOM)数据源

w397090770   9年前 (2015-01-28) 14598℃ 0评论16喜欢

Web服务

Web服务的优点

Web服务的优点
  Web服务是一种新兴的应用模式,它很好地解决了互联网中跨平台软件的连接问题。Web服务是用来支持互联网中不同计算机之间操作性的软件系统,它定义了一种机器可读的接口(比如WSDL文档),其他软件系统可以通过SOAP消息和Web服务进行交互,交互通常用HTTP协议,而这些消息格式通常是基于XML的。和传统的应用程序不同的地

w397090770   11年前 (2013-06-20) 3942℃ 3评论3喜欢

Zookeeper

Zookeeper 3.4.5分布式安装手册

Zookeeper 3.4.5分布式安装手册
  由于项目需要,需要在集群中安装好Zookeeper,这里我选择最新版本的Zookeeper3.4.5。  ZooKeeper是Hadoop的正式子项目,它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统

w397090770   10年前 (2014-01-20) 9424℃ 6评论8喜欢

Java

里氏替换法则

里氏替换法则
  里氏替换法则(Liskov Substitution Principle LSP)是面向对象设计的六大基本原则之一(单一职责原则、里氏替换原则、依赖倒置原则、接口隔离原则、迪米特法则以及开闭原则)。这里说说里氏替换法则:父类的一个方法返回值是一个类型T,子类相同方法(重载或重写)返回值为S,那么里氏替换法则就要求S必须小于等于T,也就是说要么

w397090770   11年前 (2013-09-12) 4155℃ 3评论0喜欢

Scala

练数成金—Scala语言入门视频百度网盘下载[全五课]

练数成金—Scala语言入门视频百度网盘下载[全五课]
  本课程是Scala语言的入门课程,面向没有或仅有少量编程语言基础的同学,当然,具有一定的Java或C、C++语言基础将有助于本课程的学习。在本课程内,将更注重scala的各种语言规则与简单直接的应用,而不在于其是如何具体实现,通过学习本课程能具备初步的Scala语言实际编程能力。  此视频保证可以全部浏览,百度网盘

w397090770   9年前 (2015-03-21) 21870℃ 6评论46喜欢

ElasticSearch

将Flink DataSet中的数据写入到ElasticSearch(高级篇)

将Flink DataSet中的数据写入到ElasticSearch(高级篇)
  我在《将Flink DataSet中的数据写入到ElasticSearch(低级篇)》文章中介绍了如何使用Flink将DataSet中的数据写入到ElasticSearch中。正如文章标题写的,那只是低级篇,我们不会在写入大量数据的时候使用那种方法,所以我们得使用另外一种。我们肯定会想,能不能一次批量写入大量数据呢?翻翻ElasticSearch就知道,其提供了bulk API,可以帮

w397090770   8年前 (2016-10-20) 6662℃ 0评论11喜欢

Spark

Spark shuffle:hash和sort性能对比

Spark shuffle:hash和sort性能对比
  我们都知道Hadoop中的shuffle(不知道原理?可以参见《MapReduce:详细介绍Shuffle的执行过程》),Hadoop中的shuffle是连接map和reduce之间的桥梁,它是基于排序的。同样,在Spark中也是存在shuffle,Spark 1.1之前,Spark的shuffle只存在一种方式实现方式,也就是基于hash的。而在最新的Spark 1.1.0版本中引进了新的shuffle实现(《Spark 1.1.0正式发

w397090770   10年前 (2014-09-23) 15540℃ 3评论15喜欢

Flume

Hadoop等大数据学习相关电子书[共85本]

Hadoop等大数据学习相关电子书[共85本]
  下面的大数据学习电子书我会陆续上传,敬请关注。一、Hadoop1、Hadoop Application Architectures2、Hadoop: The Definitive Guide, 4th Edition3、Hadoop Security Protecting Your Big Data Platform4、Field Guide to Hadoop An Introduction to Hadoop, Its Ecosystem, and Aligned Technologies5、Hadoop Operations A Guide for Developers and Administrators6、Hadoop Backup and Recovery Solutions

w397090770   9年前 (2015-08-11) 20337℃ 2评论54喜欢

Spark

历时近两年,Apache Spark 3.0.0 正式版终于发布了

历时近两年,Apache Spark 3.0.0 正式版终于发布了
原计划在2019年年底发布的 Apache Spark 3.0.0 今天终于赶在下周二举办的 Spark Summit AI 会议之前正式发布了! Apache Spark 3.0.0 自2018年10月02日开发到目前已经经历了近21个月!这个版本的发布经历了两个预览版以及三次投票:2019年11月06日第一次预览版,参见 https://spark.apache.org/news/spark-3.0.0-preview.html2019年12月23日第二次预览版,参见 https

w397090770   4年前 (2020-06-18) 1799℃ 0评论4喜欢

Guava

Guava学习之Multimap

Guava学习之Multimap
  相信大家对Java中的Map类及其之类有大致的了解,Map类是以键值对的形式来存储元素(Key->Value),但是熟悉Map的人都知道,Map中存储的Key是唯一的。什么意思呢?就是假如我们有两个key相同,但value不同的元素需要插入到map中去,那么先前的key对应的value将会被后来的值替换掉。如果我们需要用Map来把相同key的值存在一起,代

w397090770   11年前 (2013-07-09) 7835℃ 1评论1喜欢

Spark

Spark编译错误笔记

Spark编译错误笔记
  最近修改了Spark的一些代码,然后编译Spark出现了以下的异常信息:[code lang="scala"]error file=/iteblog/spark-1.3.1/streaming/src/main/scala/org/apache/spark/streaming/StreamingContext.scalamessage=File line length exceeds 100 characters line=279error file=/iteblog/spark-1.3.1/streaming/src/main/scala/org/apache/spark/streaming/StreamingContext.scalamessage=File line length exceeds 100 characters

w397090770   9年前 (2015-05-20) 5857℃ 0评论3喜欢

CarbonData

Apache CarbonData 1.4.0 正式发布,多项新功能及性能提升

Apache CarbonData 1.4.0 正式发布,多项新功能及性能提升
本文原文:https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=85475081。Carbondata 1.4.0 下载Carbondata 官方文档Carbondata 源码Apache CarbonData社区很高兴发布1.4.0版本,在社区开发者和用户的共同努力下,1.4.0解决了超过230个JIRA Tickets(新特性和bug修复),欢迎大家试用。简介CarbonData是一个高性能的数据解决方案,目标是实现一份数据支持

w397090770   6年前 (2018-06-05) 4292℃ 0评论4喜欢