欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

Hadoop

Hadoop优化与调整

Hadoop优化与调整
io.file.buffer.size  hadoop访问文件的IO操作都需要通过代码库。因此,在很多情况下,io.file.buffer.size都被用来设置缓存的大小。不论是对硬盘或者是网络操作来讲,较大的缓存都可以提供更高的数据传输,但这也就意味着更大的内存消耗和延迟。这个参数要设置为系统页面大小的倍数,以byte为单位,默认值是4KB,一般情况下,可以

w397090770   10年前 (2014-04-01) 30096℃ 2评论14喜欢

Akka

使用Akka、Kafka和ElasticSearch构建数据分析引擎

使用Akka、Kafka和ElasticSearch构建数据分析引擎
  在这篇文章里,我将和大家分享一下我用Scala、Akka、Play、Kafka和ElasticSearch等构建大型分布式、容错、可扩展的分析引擎的经验。第一代架构  我的分析引擎主要是用于文本分析的。输入有结构化的、非结构化的和半结构化的数据,我们会用分析引擎对数据进行大量处理。如下图(点击查看大图)所示为第一代架构,分析引

w397090770   8年前 (2016-08-08) 4887℃ 0评论13喜欢

Scala

练数成金—Scala语言入门视频百度网盘下载[全五课]

练数成金—Scala语言入门视频百度网盘下载[全五课]
  本课程是Scala语言的入门课程,面向没有或仅有少量编程语言基础的同学,当然,具有一定的Java或C、C++语言基础将有助于本课程的学习。在本课程内,将更注重scala的各种语言规则与简单直接的应用,而不在于其是如何具体实现,通过学习本课程能具备初步的Scala语言实际编程能力。  此视频保证可以全部浏览,百度网盘

w397090770   9年前 (2015-03-21) 21870℃ 6评论46喜欢

Spark

Spark:Yarn-cluster和Yarn-client区别与联系

Spark:Yarn-cluster和Yarn-client区别与联系
  《Spark on YARN集群模式作业运行全过程分析》  《Spark on YARN客户端模式作业运行全过程分析》  《Spark:Yarn-cluster和Yarn-client区别与联系》  《Spark和Hadoop作业之间的区别》  《Spark Standalone模式作业运行全过程分析》(未发布)  我们都知道Spark支持在yarn上运行,但是Spark on yarn有分为两种模式yarn-cluster和yarn-cl

w397090770   9年前 (2014-12-15) 57842℃ 4评论94喜欢

Kafka

Apache Kafka 2.5.0 稳定版正式发布

Apache Kafka 2.5.0 稳定版正式发布
Apache Kafka 2.5.0 稳定版于美国当地时间2020年4月15日正式发布,这个版本包含了一系列的重要功能发布,比较重要的可以特性重要包括:支持 TLS 1.3 (目前默认是用 1.2)Kafka Streams DSL 中支持 Co-groups; Kafka Consumer 支持增量再平衡(Incremental rebalance)为更好地洞察算子运行,引入了新的指标;Apache Zookeeper 升级到 3.5.7不再支持 Scala

w397090770   4年前 (2020-04-19) 1478℃ 0评论3喜欢

Mysql

Mysql备份还原数据库实例及参数详细说明

Mysql备份还原数据库实例及参数详细说明
备份数据库,还原数据库的情况,我们一般用一下两种方式来处理:1.使用into outfile 和 load data infile导入导出备份数据这种方法的好处是,导出的数据可以自己规定格式,并且导出的是纯数据,不存在建表信息,你可以直接导入另外一个同数据库的不同表中,相对于mysqldump比较灵活机动。我们来看下面的例子:(1)下面

w397090770   10年前 (2014-08-15) 4775℃ 0评论5喜欢

Kafka

使用idea阅读Kafka源码

使用idea阅读Kafka源码
本文涉及到的环境:操作系统:Windows 7Idea 版本:IntelliJ IDEA 2016.3.4 Build #IU-163.12024.16, built on January 31, 2017Kafka 版本:Kafka 0.8.2.0Gradle 版本:gradle-4.0.1JDK 版本:jdk1.7.0Scala 版本:2.10.4首先到http://archive.apache.org/dist/kafka/里面下载你需要的Kafka源码,本文选自的是kafka-0.8.2.0。因为Kafka代码自0.8.x之后就使用 Gradle 来进行编译

w397090770   7年前 (2017-07-21) 6110℃ 0评论16喜欢

Hadoop

使用Hadoop Configuration一些需要注意的细节

使用Hadoop Configuration一些需要注意的细节
我们在使用Hadoop、Spark或者是Hbase,最常遇到的问题就是进行相关系统的配置,比如集群的URL地址,MapReduce临时目录、最终输出路径等。这些属性需要有一个系统(类)进行管理。然而,Hadoop没有使用 Java.util.Properties 管理配置文件,也没有使用Apache Jakarta Commons Configuration管理配置文件,而是单独开发了一个配置文件管理类,这个类就

w397090770   7年前 (2017-04-21) 7534℃ 0评论18喜欢

Scala

[12-26]华东地区scala爱好者聚会

[12-26]华东地区scala爱好者聚会
活动内容2015年下半年华东地区scala爱好者聚会,这次活动有杭州九言科技(代表作是In App)提供场地。本次活动内容不局限scala也包含一些创业公司的技术架构地点:杭州西湖区万塘路8号黄龙时代广场A座1802时间:2015年12月26日 13:00 ~ 2015年12月26日 17:30限制: 限额35人费用:免费活动安排1) 《scala和storm下的流式计算

w397090770   8年前 (2015-12-16) 2385℃ 0评论6喜欢

Hadoop

Hadoop面试题系列(9/11)

Hadoop面试题系列(9/11)
一. 问答题1. 用mapreduce实现sql语句select count(x) from a group by b?2. 简述MapReduce大致流程,map -> shuffle -> reduce3. HDFS如何定位replica4. Hadoop参数调优: cluster level: JVM, map/reduce slots, job level: reducer, memory, use combiner? use compression?5. hadoop运行的原理?6. mapreduce的原理?7. HDFS存储的机制?8. 如何确认Hadoop集群的健康状况?

w397090770   8年前 (2016-08-26) 3345℃ 0评论3喜欢

hudi

Apache Hudi 常见问题汇总

Apache Hudi 常见问题汇总
Apache Hudi 对个人和组织何时有用如果你希望将数据快速提取到HDFS或云存储中,Hudi可以提供帮助。另外,如果你的ETL /hive/spark作业很慢或占用大量资源,那么Hudi可以通过提供一种增量式读取和写入数据的方法来提供帮助。作为一个组织,Hudi可以帮助你构建高效的数据湖,解决一些最复杂的底层存储管理问题,同时将数据更快

w397090770   4年前 (2019-12-23) 1793℃ 0评论2喜欢

Hadoop

Apache Hadoop 2.3.0发布

Apache Hadoop 2.3.0发布
  分布式计算开源框架Hadoop近日发布了今年的第一个版本Hadoop-2.3.0,新版本不仅增强了核心平台的大量功能,同时还修复了大量bug。新版本对HDFS做了两个非常重要的增强:(1)、支持异构的存储层次;(2)、通过数据节点为存储在HDFS中的数据提供了内存缓存功能。  借助于HDFS对异构存储层次的支持,我们将能够在同一个Hado

w397090770   10年前 (2014-03-02) 4101℃ 0评论1喜欢

Druid

节日送出五本《Druid实时大数据分析原理与实践》

节日送出五本《Druid实时大数据分析原理与实践》
此次活动参与方式:关注iteblog_hadoop公众号,并在这里评论区留言(认真写评论,增加上榜的机会)。活动截止至3月14日19:00,留言点赞数排名前5名的粉丝,各免费赠送一本《Druid实时大数据分析原理与实践》如果想及时了解Spark、Hadoop、Flink或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop图书简介Druid 作为一

w397090770   7年前 (2017-03-08) 1582℃ 0评论5喜欢

Java

实现带有maxBackupIndex属性的DailyRollingFileAppender

实现带有maxBackupIndex属性的DailyRollingFileAppender
前言  如果你尝试使用Apache Log4J中的DailyRollingFileAppender来打印每天的日志,你可能想对那些日志文件指定一个最大的保存数,就像RollingFileAppender支持maxBackupIndex参数一样。不过遗憾的是,目前版本的Log4j (Apache log4j 1.2.17)无法在使用DailyRollingFileAppender的时候指定保存文件的个数,本文将介绍如何修改DailyRollingFileAppender类,使得它

w397090770   8年前 (2016-04-12) 5512℃ 0评论3喜欢

Spark

Spark 1.6.1正式发布

Spark 1.6.1正式发布
  Spark 1.6.1于2016年3月11日正式发布,此版本主要是维护版本,主要涉及稳定性修复,并不涉及到大的修改。推荐所有使用1.6.0的用户升级到此版本。  Spark 1.6.1主要修复的bug包括:  1、当写入数据到含有大量分区表时出现的OOM:SPARK-12546  2、实验性Dataset API的许多bug修复:SPARK-12478, SPARK-12696, SPARK-13101, SPARK-12932  

w397090770   8年前 (2016-03-11) 3816℃ 0评论5喜欢

Spark

Apache Zeppelin使用入门指南:编程

Apache Zeppelin使用入门指南:编程
Apache Zeppelin使用入门指南:安装Apache Zeppelin使用入门指南:编程Apache Zeppelin使用入门指南:添加外部依赖使用Apache Zeppelin  编译和启动完Zeppelin相关的进程之后,我们就可以来使用Zeppelin了。我们进入到https://www.iteblog.com:8080页面,我们可以在页面上直接操作Zeppelin,依次选择Notebook->Create new note,然后会弹出一个对话框

w397090770   8年前 (2016-02-03) 25177℃ 2评论31喜欢

Distributed System

几种常见的数据分区方法

几种常见的数据分区方法
我们使用数据库可以快速访问业务数据,但是随着时间的推移,数据库会不断增长,提取信息所需的时间也会更长,数据操作成为瓶颈。这时候我们就需要对数据进行分区(partition)了。分区是将数据库或其组成元素划分为不同的独立部分。数据库分区通常是出于可管理性、性能或可用性或负载平衡的原因而进行的。在分布式数据

w397090770   4年前 (2020-05-14) 1036℃ 0评论2喜欢

Java

Java中>>和>>>移位操作符的区别

Java中>>和>>>移位操作符的区别
  大家都知道>是比较两个对象的大小,那>>和>>>的区别呢?  >>和>>>都是移位操作;对正数的移位操作它们的功能都是一样的,如下:[code lang="JAVA"]15 >> 2 = 315 >>> 2 = 3[/code]其实就是将15除于4,得到的商。转换为二进制可能更直观(为了方便,下面的二进制操作我们都是以八位进行的,

w397090770   11年前 (2013-09-22) 32497℃ 2评论17喜欢

Hadoop

Apache Hadoop 3.1.0 正式发布,原生支持GPU和FPGA

Apache Hadoop 3.1.0 正式发布,原生支持GPU和FPGA
4月6日,Apache Hadoop 3.1.0 正式发布了,Apache Hadoop 3.1.0 是2018年 Hadoop-3.x 系列的第一个小版本,并且带来了许多增强功能。不过需要注意的是,这个版本并不推荐在生产环境下使用,如果需要在正式环境下使用,请等待 3.1.1 或 3.1.2 版本。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop这个版

w397090770   6年前 (2018-04-08) 3466℃ 0评论15喜欢

Delta Lake

Apache Spark 社区期待的 Delta Lake 开源了

Apache Spark 社区期待的 Delta Lake 开源了
本文英文原文:Open Sourcing Delta Lake2019年4月24日在美国旧金山召开的 Spark+AI Summit 2019 会上,Databricks 的联合创始人及 CEO Ali Ghodsi 宣布将 Databricks Runtime 里面的 Delta Lake 基于 Apache License 2.0 协议开源。Delta Lake 是一个存储层,为 Apache Spark 和大数据 workloads 提供 ACID 事务能力,其通过写和快照隔离之间的乐观并发控制(optimistic concurrency

w397090770   5年前 (2019-04-25) 7122℃ 0评论12喜欢

Java

Linux平台下安装SSH

Linux平台下安装SSH
  什么是SSH?Secure Shell(缩写为SSH),由IETF的网络工作小组(Network Working Group)所制定;SSH为一项创建在应用层和传输层基础上的安全协议,为计算机上的Shell(壳层)提供安全的传输和使用环境。传统的网络服务程序,如rsh、FTP、POP和Telnet其本质上都是不安全的;因为它们在网络上用明文传送数据、用户帐号和用户口令,很容

w397090770   11年前 (2013-10-22) 8670℃ 3评论2喜欢

网站建设

本博客最近经常出现无法访问情况说明

本博客最近经常出现无法访问情况说明
  首先非常感谢大家访问支持本博客,但是由于这些天访问人数的增加导致同一时刻访问本博客的人也增加,从而超过本博客服务器限制的并发数(100),这样使得本博客经常出现以下信息Bad Request (Invalid Hostname)  由于资金有限,所以选择了价格比较便宜的服务器,所以无法保证本博客100%在线。所以如果博客出现了Bad Requ

w397090770   10年前 (2014-11-13) 3702℃ 3评论3喜欢

Hadoop

通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]

通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]
在第一次建立Hbase表的时候,我们可能需要往里面一次性导入大量的初始化数据。我们很自然地想到将数据一条条插入到Hbase中,或者通过MR方式等。但是这些方式不是慢就是在导入的过程的占用Region资源导致效率低下,所以很不适合一次性导入大量数据。本文将针对这个问题介绍如何通过Hbase的BulkLoad方法来快速将海量数据导入到Hbas

w397090770   7年前 (2016-11-28) 17596℃ 2评论52喜欢

ElasticSearch

23种非常有用的ElasticSearch查询例子(4)

23种非常有用的ElasticSearch查询例子(4)
  本系列文章将展示ElasticSearch中23种非常有用的查询使用方法。由于篇幅原因,本系列文章分为六篇,本文是此系列的第四篇文章。欢迎关注大数据技术博客微信公共账号:iteblog_hadoop。《23种非常有用的ElasticSearch查询例子(1)》《23种非常有用的ElasticSearch查询例子(2)》《23种非常有用的ElasticSearch查询例子(3)》《23种非常有用

w397090770   8年前 (2016-09-04) 7406℃ 0评论8喜欢

wordpress开发

怎么给wordPress3.5.1添加文章统计

怎么给wordPress3.5.1添加文章统计
怎么给wordPress3.5.1的每一篇添加文章的统计信息?wordPress提供了很多文章统计的插件,在这里以postViews为例,展示在每一篇文章后面添加统计信息。如下图所示:第一步:先在Workpress后台 插件-->安装插件-->输入postViews-->安装-->启用。这样就可以添加好postViews插件。但是默认的情况下,postViews是不能在页面显示的,需要自

w397090770   11年前 (2013-03-31) 3513℃ 1评论2喜欢

wordpress开发

怎么让WordPress首页显示文章摘要

怎么让WordPress首页显示文章摘要
Wordpress的功能很强大,可以根据自己的需求来修改自己的网站。在Wordpress 3.5.1的中提供了默认的主题Twenty Twelve,很不错,但是首页显示的是全文信息,这不仅使得页面太长,也使得加载速度变的很慢,只有在搜索的时候才会显示摘要,那么怎么去让首页显示文章的摘要呢?到wordpress后台,依次选择 外观-->编辑-->选择右边的

w397090770   11年前 (2013-03-31) 27059℃ 9评论23喜欢

Hadoop

Hadoop2.2.0中HDFS的高可用性实现原理

Hadoop2.2.0中HDFS的高可用性实现原理
  在Hadoop2.0.0之前,NameNode(NN)在HDFS集群中存在单点故障(single point of failure),每一个集群中存在一个NameNode,如果NN所在的机器出现了故障,那么将导致整个集群无法利用,直到NN重启或者在另一台主机上启动NN守护线程。  主要在两方面影响了HDFS的可用性:  (1)、在不可预测的情况下,如果NN所在的机器崩溃了,整个

w397090770   11年前 (2013-11-14) 10514℃ 3评论22喜欢

wordpress开发

网站首次备案不关站插件

网站首次备案不关站插件
  谁说网站首次备案一定要关站?特别是网站运行了一段时间,搜索引擎等已经收录了网站内容,这时候如果关站一段时间(备案期间最长需要20个工作日,也就是一个月时间)会对网站产生很大的影响,比如网站被搜索引擎加黑,权重变低。这样的影响我们肯定不想要。  今天我想告诉大家的是其实在备案期间我们网站是可

w397090770   9年前 (2014-12-24) 4230℃ 3评论5喜欢

Hadoop

Hadoop2.x 深入浅出企业级应用实战视频下载

Hadoop2.x 深入浅出企业级应用实战视频下载
  本博客分享的其他视频下载地址:《传智播客Hadoop实战视频下载地址[共14集]》、《传智播客Hadoop课程视频资料[共七天]》、《Hadoop入门视频分享[共44集]》、《Hadoop大数据零基础实战培训教程下载》、《Hadoop2.x 深入浅出企业级应用实战视频下载》、《Hadoop新手入门视频百度网盘下载[全十集]》  本博客收集到的Hadoop学习书

w397090770   10年前 (2014-09-16) 119753℃ 4评论290喜欢