欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

Flink

Apache Flink 1.1.4 正式发布

Apache Flink 1.1.4 正式发布
  Apache Flink 1.1.4于2016年12月21日正式发布,本版本是Flink的最新稳定版本,主要以修复Bug为主;强烈推荐所有的用户升级到Flink 1.1.4版本,替换pom中的以为如下:[code lang="xml"]<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-java</artifactId> <version>1.1.4</version></dependency><dependency> &

w397090770   7年前 (2016-12-27) 2258℃ 0评论3喜欢

Hadoop

Hadoop安全模式详解及配置

Hadoop安全模式详解及配置
  在《Hadoop 1.x中fsimage和edits合并实现》文章中提到,Hadoop的NameNode在重启的时候,将会进入到安全模式。而在安全模式,HDFS只支持访问元数据的操作才会返回成功,其他的操作诸如创建、删除文件等操作都会导致失败。  NameNode在重启的时候,DataNode需要向NameNode发送块的信息,NameNode只有获取到整个文件系统中有99.9%(可以配

w397090770   10年前 (2014-03-13) 17203℃ 3评论16喜欢

Data + AI Summit

物化列:字节为解决 Spark 嵌套列查询性能低下的优化

物化列:字节为解决 Spark 嵌套列查询性能低下的优化
本文来自11月举办的 Data + AI Summit 2020 (原 Spark+AI Summit),主题为《Materialized Column- An Efficient Way to Optimize Queries on Nested Columns》的分享,作者为字节跳动的郭俊。本文相关 PPT 可以关注 Java与大数据架构 公众号并回复 ​ 9910 获取。在数据仓库领域,使用复杂类型(如map)中的一列或多列,或者将许多子字段放入其中的场景是非常

w397090770   3年前 (2020-12-13) 727℃ 0评论3喜欢

Kubernetes

kubectl 常用命令一览表

kubectl 常用命令一览表
本文列出了 kubectl 常用命令。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据Kubectl 自动补全BASH[code lang="bash"]source <(kubectl completion bash) # 在 bash 中设置当前 shell 的自动补全,要先安装 bash-completion 包。echo "source <(kubectl completion bash)" >> ~/.bashrc # 在您的 bash shell 中永久

w397090770   2年前 (2022-02-28) 286℃ 0评论1喜欢

Kafka

使用idea阅读Kafka源码

使用idea阅读Kafka源码
本文涉及到的环境:操作系统:Windows 7Idea 版本:IntelliJ IDEA 2016.3.4 Build #IU-163.12024.16, built on January 31, 2017Kafka 版本:Kafka 0.8.2.0Gradle 版本:gradle-4.0.1JDK 版本:jdk1.7.0Scala 版本:2.10.4首先到http://archive.apache.org/dist/kafka/里面下载你需要的Kafka源码,本文选自的是kafka-0.8.2.0。因为Kafka代码自0.8.x之后就使用 Gradle 来进行编译

w397090770   7年前 (2017-07-21) 6110℃ 0评论16喜欢

Hadoop

Hadoop从入门到上手企业开发视频下载[70集]

Hadoop从入门到上手企业开发视频下载[70集]
  本博客分享的其他视频下载地址:《传智播客Hadoop实战视频下载地址[共14集]》、《传智播客Hadoop课程视频资料[共七天]》、《Hadoop入门视频分享[共44集]》、《Hadoop大数据零基础实战培训教程下载》、《Hadoop2.x 深入浅出企业级应用实战视频下载》、《Hadoop新手入门视频百度网盘下载[全十集]》、《Hadoop从入门到上手企业开发视

w397090770   9年前 (2015-02-28) 95730℃ 381评论279喜欢

Apache Doris

Apache Doris 向量化设计与实现

Apache Doris 向量化设计与实现
导读:向量化技术带来极致的CPU效率的同时,也已经成为了软件开发的趋势,而数据库的向量化不仅仅是 CPU 指令的向量化,还是一个巨大的性能优化工程。本文从CPU向量化原理出发,通过Cache、虚函数、SIMD等方面讨论CPU的性能优化,介绍了Apache Doris现有列存行式计算结构向列存列式计算结构的转变,同时展示了目前Apache D

w397090770   2年前 (2022-03-01) 1002℃ 0评论2喜欢

Flume

Hadoop等大数据学习相关电子书[共85本]

Hadoop等大数据学习相关电子书[共85本]
  下面的大数据学习电子书我会陆续上传,敬请关注。一、Hadoop1、Hadoop Application Architectures2、Hadoop: The Definitive Guide, 4th Edition3、Hadoop Security Protecting Your Big Data Platform4、Field Guide to Hadoop An Introduction to Hadoop, Its Ecosystem, and Aligned Technologies5、Hadoop Operations A Guide for Developers and Administrators6、Hadoop Backup and Recovery Solutions

w397090770   9年前 (2015-08-11) 20337℃ 2评论54喜欢

Spark

用Maven编译Spark 1.0.0源码以错误解决

用Maven编译Spark 1.0.0源码以错误解决
  写在前面的话,最近发现有很多网站转载我博客的文章,这个我都不介意的,但是这些网站转载我博客都将文章的出处去掉了,直接变成自己的文章了!!我强烈谴责他们,鄙视那些转载文章去掉出处的人!所以为了防止这些,我以后发表文章的时候,将会在文章里面加入一些回复之后才可见的内容!!请大家不要介意,本博

w397090770   10年前 (2014-06-06) 30475℃ 40评论6喜欢

Data + AI Summit

Data + AI Summit 2022 PPT 下载

Data + AI Summit 2022 PPT 下载
Data + AI Summit 2022 于2022年06月27日至30日举行。本次会议是在旧金山进行,中国的小伙伴是可以在线收听的,一共为期四天,第一天是培训,后面几天才是正式会议。本次会议有超过200个议题,演讲嘉宾包括业界、研究和学术界的专家,本次会议主要分为六大块:数据分析, BI 以及可视化:了解最新的数据分析、BI 和可视化技术以及

w397090770   2年前 (2022-07-20) 1108℃ 0评论1喜欢

Spark

Spark中函数addFile和addJar函数介绍

Spark中函数addFile和addJar函数介绍
  我们在使用Spark的时候有时候需要将一些数据分发到计算节点中。一种方法是将这些文件上传到HDFS上,然后计算节点从HDFS上获取这些数据。当然我们也可以使用addFile函数来分发这些文件。addFile  addFile方法可以接收本地文件(或者HDFS上的文件),甚至是文件夹(如果是文件夹,必须是HDFS路径),然后Spark的Driver和Exector

w397090770   8年前 (2016-07-11) 12403℃ 0评论13喜欢

Spark

Apache Spark 2.2.0新特性详细介绍

Apache Spark 2.2.0新特性详细介绍
Apache Spark 2.2.0 经过了大半年的紧张开发,从RC1到RC6终于在今天正式发布了。由于时间的缘故,我并没有在《Apache Spark 2.2.0正式发布》文章中过多地介绍 Apache Spark 2.2.0 的新特性,本文作为补充将详细介绍Apache Spark 2.2.0 的新特性。这个版本是 Structured Streaming 的一个重要里程碑,因为其终于可以正式在生产环境中使用,实验标签(ex

w397090770   7年前 (2017-07-12) 9271℃ 0评论28喜欢

Guava

Guava学习之RangeSet

Guava学习之RangeSet
  前面谈到了Guava中新引入的Range类,也了解了其中的作用,那么今天来谈谈Guava中用到Range来的地方:RangeSet类。RangeSet类是用来存储一些不为空的也不相交的范围的数据结构。假如需要向RangeSet的对象中加入一个新的范围,那么任何相交的部分都会被合并起来,所有的空范围都会被忽略。   讲了这么多,我们该怎么样利用RangeS

w397090770   11年前 (2013-07-17) 7253℃ 1评论4喜欢

Kafka

Kafka原理与技术

Kafka原理与技术
Kafka的基本介绍Kafka最初由Linkedin公司开发,是一个分布式、分区、多副本、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常用于web/nginx日志、访问日志,消息服务等等场景。Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。主要应用场景是:日志收集系统和消息系统。Kafka主要设计目标如下:

w397090770   7年前 (2017-08-03) 5318℃ 0评论14喜欢

Spark

不要将大型RDD中所有元素发送到Driver端

不要将大型RDD中所有元素发送到Driver端
  如果你的Driver内存容量不能容纳一个大型RDD里面的所有数据,那么不要做以下操作:[code lang="scala"]val values = iteblogVeryLargeRDD.collect()[/code]  Collect 操作会试图将 RDD 里面的每一条数据复制到Driver上,如果你Driver端的内存无法装下这些数据,这时候会发生内存溢出和崩溃。  相反,你可以调用take或者 takeSample来限制数

w397090770   9年前 (2015-05-20) 3017℃ 0评论4喜欢

Delta Lake

Spark Delta Lake 0.4.0 发布,支持 Python API 和部分 SQL

Spark Delta Lake 0.4.0 发布,支持 Python API 和部分 SQL
​Apache Spark 发布了 Delta Lake 0.4.0,主要支持 DML 的 Python API、将 Parquet 表转换成 Delta Lake 表 以及部分 SQL 功能。 如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop下面详细地介绍这些功能部分功能的 SQL 支持SQL 的支持能够为用户提供极大的便利,如果大家去看数砖的 Delta Lake 产品,你肯定已

w397090770   5年前 (2019-10-01) 1247℃ 0评论4喜欢

Kafka

Kafka in Action 下载

Kafka in Action 下载
《Kafka in Action》于 2022年01月由 Manning 出版, ISBN 为 9781617295232 ,全书 272 页。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop图书介绍作者有多年使用 Kafka 的真实世界的经验,这本书的实地感觉真的让它与众不同。---- From the foreword by Jun Rao, Confluent CofounderMaster the wicked-fast Apache Kafka streaming

w397090770   2年前 (2022-03-02) 466℃ 0评论2喜欢

Apache Impala

Impala在腾讯金融大数据场景中的应用

Impala在腾讯金融大数据场景中的应用
导读:在腾讯金融场景,我们每天都会产生大量的数据,为了提升分析的交互性,让决策更加敏捷,我们引入了Impala来解决我们的分析需求。所以,本文将和大家分享Impala在腾讯金融大数据场景中的应用架构,Impala的原理,落地过程的案例和优化以及总结思考。Impala的架构 首先介绍Impala的整体架构,帮助大家从宏观角度理

w397090770   2年前 (2021-10-28) 316℃ 0评论1喜欢

Docker

Docker 入门教程:Union File System 在 Docker 的应用

Docker 入门教程:Union File System 在 Docker 的应用
我们在 Docker 入门教程:镜像分层 和 Docker 入门教程:Docker 基础技术 Union File System 已经介绍了一些前提基础知识,本文我们来介绍 Union File System 在 Docker 的应用。为了使 Docker 能够在 container 的 writable layer 写一些比较小的数据(如果需要写大量的数据可以通过挂载盘去写),Docker 为我们实现了存储驱动(storage drivers)。Docker 使

w397090770   4年前 (2020-02-16) 638℃ 0评论5喜欢

Spark

Spark SQL 查询中 Coalesce 和 Repartition 暗示(Hint)

Spark SQL 查询中 Coalesce 和 Repartition 暗示(Hint)
如果你使用 Spark RDD 或者 DataFrame 编写程序,我们可以通过 coalesce 或 repartition 来修改程序的并行度:[code lang="scala"]val data = sc.newAPIHadoopFile(xxx).coalesce(2).map(xxxx)或val data = sc.newAPIHadoopFile(xxx).repartition(2).map(xxxx)val df = spark.read.json("/user/iteblog/json").repartition(4).map(xxxx)val df = spark.read.json("/user/iteblog/json").coalesce(4).map(x

w397090770   5年前 (2019-01-24) 8028℃ 0评论12喜欢

Kafka

Kafka设计解析:Kafka High Availability (下)

Kafka设计解析:Kafka High Availability (下)
《Kafka剖析:Kafka背景及架构介绍》《Kafka设计解析:Kafka High Availability(上)》《Kafka设计解析:Kafka High Availability (下)》《Kafka设计解析:Replication工具》《Kafka设计解析:Kafka Consumer解析》  本文在上篇文章(《Kafka设计解析:Kafka High Availability(上)》)基础上,更加深入讲解了Kafka的HA机制,主要阐述了HA相关各种

w397090770   9年前 (2015-06-04) 4472℃ 0评论6喜欢

wordpress开发

时刻注意WordPress网站的安全

时刻注意WordPress网站的安全
WordPress作为一个很优秀的博客程序,已然被很多人使用,但盛名必然引来注意,更少不了那些不怀好意黑客。因此,加固WP成为个人博客安全防御的工作之一。 升级自己的WP到最新版。 一般来说,新的WP会修复老版本的一些漏洞,这样升级会使得网站安全。比如很多版本的WP可以使用 pingback 的远程端口扫描问题,该问题可能导致

w397090770   11年前 (2013-04-04) 3180℃ 0评论2喜欢

Flink

Flink是如何与YARN进行交互的

Flink是如何与YARN进行交互的
在前面(《Flink on YARN部署快速入门指南》的文章中我们简单地介绍了如何在YARN上提交和运行Flink作业,本文将简要地介绍Flink是如何与YARN进行交互的。  YRAN客户端需要访问Hadoop的相关配置文件,从而可以连接YARN资源管理器和HDFS。它使用下面的规则来决定Hadoop配置:  1、判断YARN_CONF_DIR,HADOOP_CONF_DIR或HADOOP_CONF_PATH等环境

w397090770   8年前 (2016-04-04) 5986℃ 0评论8喜欢

CPP编程

各种排序算法C++模版类实现

各种排序算法C++模版类实现
闲来无事,于是把常用的排序算法自己写了一遍,也当做是复习一下。[code lang="CPP"]/*************************************************************** * * * * * Date : 2012. 05. 03 * * Author : 397090770 * * Email : wyphao.2007@163.com * * * * * ***************************

w397090770   11年前 (2013-04-04) 3002℃ 0评论3喜欢

资料分享

2021年最新美国苹果账号(Apple ID)注册方法

2021年最新美国苹果账号(Apple ID)注册方法
全新美国区 Apple ID 注册教程参见:2021年最新美区 Apple ID 注册教程使用苹果手机的有可能知道,国内使用的 App Store 只能下载国内的一些 APP 应用。有一些 APP 并没有在国内 App Store 上架,这时候就无法下载。我们需要使用一个国外的 Apple ID 账号,但是很多人手上一般都是只有国内的账号,这篇文章就来教大家如何把一个中国区的

w397090770   3年前 (2021-10-10) 1226℃ 0评论0喜欢

Flume

基于Spark的公安大数据实时运维技术实践

基于Spark的公安大数据实时运维技术实践
  公安行业存在数以万计的前后端设备,前端设备包括相机、检测器及感应器,后端设备包括各级中心机房中的服务器、应用服务器、网络设备及机房动力系统,数量巨大、种类繁多的设备给公安内部运维管理带来了巨大挑战。传统通过ICMP/SNMP、Trap/Syslog等工具对设备进行诊断分析的方式已不能满足实际要求,由于公安内部运维管

w397090770   7年前 (2017-01-01) 11145℃ 1评论37喜欢

Hadoop

Uber 是如何提高 HDFS I/O 利用率的

Uber 是如何提高 HDFS I/O 利用率的
以较低的硬件成本扩展我们的数据基础设施,同时保持高性能和服务可靠性并非易事。 为了适应 Uber 数据存储和分析计算的指数级增长,数据基础设施团队通过结合硬件重新设计软件层,以扩展 Apache Hadoop® HDFS :HDFS Federation、Warm Storage、YARN 在 HDFS 数据节点上共存,以及 YARN 利用率的提高提高了系统的 CPU 和内存使用效率将多

w397090770   2年前 (2021-10-21) 373℃ 0评论1喜欢

Python

Spark Python API函数学习:pyspark API(2)

Spark Python API函数学习:pyspark API(2)
  《Spark Python API函数学习:pyspark API(1)》  《Spark Python API函数学习:pyspark API(2)》  《Spark Python API函数学习:pyspark API(3)》  《Spark Python API函数学习:pyspark API(4)》  Spark支持Scala、Java以及Python语言,本文将通过图片和简单例子来学习pyspark API。.wp-caption img{ max-width: 100%; height: auto;}如果想

w397090770   9年前 (2015-06-28) 18832℃ 1评论16喜欢

Docker

[电子书]Troubleshooting Docker PDF下载

[电子书]Troubleshooting Docker PDF下载
  本书由Vaibhav Kohli, Rajdeep Dua, John Wooten所著,全书共290页;Packt Publishing出版社于2017年03月出版。通过本书你将学习到以下的知识:  1、Install Docker ecosystem tools and services, Microservices and N-tier applications  2、Create re-usable, portable containers with help of automation tools  3、Network and inter-link containers  4、Attach volumes securely to containe

zz~~   7年前 (2017-04-05) 1785℃ 2评论7喜欢