欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

Apache Iceberg

Apache Iceberg 在网易云音乐的实践

Apache Iceberg 在网易云音乐的实践
iceberg 详细设计Apache iceberg 是Netflix开源的全新的存储格式,我们已经有了parquet、orc、arvo等非常优秀的存储格式以后,Netfix为什么还要设计出iceberg呢?和parquet、orc等文件格式不同, iceberg在业界被称之为Table Foramt,parquet、orc、avro等文件等格式帮助我们高效的修改、读取单个文件;同样Table Foramt帮助我们高效的修改和读取一类文件

w397090770   3年前 (2021-04-15) 2120℃ 0评论6喜欢

Spark

Learning Spark完整版下载

Learning Spark完整版下载
Learning Spark这本书链接是完整版,和之前的预览版是不一样的,我不是标题党。这里提供的Learning Spark电子书格式是mobi、pdf以及epub三种格式的文件,如果你有亚马逊Kindle电子书阅读器,是可以直接阅读mobi、pdf。但如果你用电脑,也可以下载相应的PC版阅读器 。如果你需要阅读器,可以找我。如果想及时了解Spark、Hadoop或者Hbase相

w397090770   9年前 (2015-02-11) 50510℃ 305评论70喜欢

Spark

一篇文章了解 Spark Shuffle 内存使用

一篇文章了解 Spark Shuffle 内存使用
在使用 Spark 进行计算时,我们经常会碰到作业 (Job) Out Of Memory(OOM) 的情况,而且很大一部分情况是发生在 Shuffle 阶段。那么在 Spark Shuffle 中具体是哪些地方会使用比较多的内存而有可能导致 OOM 呢? 为此,本文将围绕以上问题梳理 Spark 内存管理和 Shuffle 过程中与内存使用相关的知识;然后,简要分析下在 Spark Shuffle 中有可能导致 OOM

w397090770   5年前 (2019-03-17) 5284℃ 0评论19喜欢

GPU

CPU 和 GPU - 异构计算的演进与发展

CPU 和 GPU - 异构计算的演进与发展
世界上大多数事物的发展规律是相似的,在最开始往往都会出现相对通用的方案解决绝大多数的问题,随后会出现为某一场景专门设计的解决方案,这些解决方案不能解决通用的问题,但是在某些具体的领域会有极其出色的表现。而在计算领域中,CPU(Central Processing Unit)和 GPU(Graphics Processing Unit)分别是通用的和特定的方案,前

zz~~   3年前 (2021-09-24) 145℃ 0评论3喜欢

Spark

Spark: SchemaRDD隐式转换

Spark: SchemaRDD隐式转换
  SchemaRDD在Spark SQL中已经被我们使用到,这篇文章简单地介绍一下如果将标准的RDD(org.apache.spark.rdd.RDD)转换成SchemaRDD,并进行SQL相关的操作。[code lang="scala"]scala> val sqlContext = new org.apache.spark.sql.SQLContext(sc)sqlContext: org.apache.spark.sql.SQLContext = org.apache.spark.sql.SQLContext@6edd421fscala> case class Person(name: String, age:Int)defined class Perso

w397090770   9年前 (2014-12-16) 21180℃ 0评论20喜欢

Spark

SparkSession:新的切入点

SparkSession:新的切入点
  在Spark 1.x版本,我们收到了很多询问SparkContext, SQLContext和HiveContext之间关系的问题。当人们想使用DataFrame API的时候把HiveContext当做切入点的确有点奇怪。在Spark 2.0,引入了SparkSession,作为一个新的切入点并且包含了SQLContext和HiveContext的功能。为了向后兼容,SQLContext和HiveContext被保存下来。SparkSession拥有许多特性,下面将展示SparkS

w397090770   8年前 (2016-05-26) 13984℃ 0评论13喜欢

Kafka

Apache Kafka 0.10.0.0稳定版发布及其新特性介绍

Apache Kafka 0.10.0.0稳定版发布及其新特性介绍
Apache Kafka 0.10.0.0于美国时间2016年5月24日正式发布。Apache Kafka 0.10.0.0是Apache Kafka的主要版本,此版本带来了一系列的新特性和功能加强。本文将对此版本的重要点进行说明。Kafka StreamsKafka Streams在几个月前由Confluent Platform首先在其平台的技术预览中行提出,目前已经在Apache Kafka 0.10.0.0上可用了。Kafka Streams其实是一套类库,它使

w397090770   8年前 (2016-05-25) 12238℃ 0评论25喜欢

Hadoop

Apache Hadoop 3.0.0 GA版正式发布,可以部署到线上

Apache Hadoop 3.0.0 GA版正式发布,可以部署到线上
今天凌晨 Apache Hadoop 3.0.0 GA 版本正式发布,这意味着我们就可以正式在线上使用 Hadoop 3.0.0 了!这个版本是 Apache Hadoop 3.0.0 的第一个稳定版本,有很多重大的改进,比如支持 EC、支持多于2个的NameNodes、Intra-datanode均衡器等等。下面是关于 Apache Hadoop 3.0.0 GA 的正式介绍。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微

w397090770   6年前 (2017-12-15) 3383℃ 1评论38喜欢

Spark

Apache Spark 完全替代传统数仓的技术挑战及实践

Apache Spark 完全替代传统数仓的技术挑战及实践
系统介绍我们这个系统的名字叫 Carmel,它是基于开源的 Hadoop 和 Spark 来替换传统的数据仓库,我们是 2019 年开始做我们这个项目的,当时是基于 Spark 2.3.1,最近刚刚升到 Spark 3.0。面临的主要技术挑战,第一个是功能方面的缺失,包括访问控制,还有一些 Update 和 Delete 的支持;在性能方面跟传统数仓,特别是交互式的分析查询中性

zz~~   3年前 (2021-09-24) 578℃ 0评论2喜欢

网站建设

DataTables四种数据源

DataTables四种数据源
  DataTables是一款非常简单的前端表格展示插件,它支持排序,翻页,搜索以及在客户端和服务端分页等多种功能。官方介绍:DataTables is a plug-in for the jQuery Javascript library. It is a highly flexible tool, based upon the foundations of progressive enhancement, and will add advanced interaction controls to any HTML table.它的数据源有很多种:主要有HTML (DOM)数据源

w397090770   9年前 (2015-01-28) 14598℃ 0评论16喜欢

Hadoop

SQL on Hadoop:场景和结论

SQL on Hadoop:场景和结论
以下文章是转载自国外网站,介绍了Hadoop生态系统上面的几种SQL:Hive、Drill、Impala、Presto以及Spark\Shark等应用场景、对比以及一些结论Within the big data landscape there are multiple approaches to accessing, analyzing, and manipulating data in Hadoop. Each depends on key considerations such as latency, ANSI SQL completeness (and the ability to tolerate machine-generated SQL), developer and a

w397090770   10年前 (2014-08-11) 9864℃ 0评论14喜欢

网站建设

解决Google搜索无法使用的几种方法

解决Google搜索无法使用的几种方法
  最新Google IP地址请到《Google最新IP》里面获取。  最新的Google访问方法请查看《最新Google翻墙办法》  根据Google透明度报告显示,从5月27日开始,Google的部分服务开始被屏蔽,其中最主要的是HTTPS搜索服务和Google登录服务,所有版本的Google都受到影响,包括Google.hk和Google.com等。  此次屏蔽的方法主要屏蔽Google

w397090770   10年前 (2014-06-09) 31158℃ 4评论32喜欢

Hadoop

Hadoop源码编译与调试

Hadoop源码编译与调试
  虽然在运行Hadoop的时候可以打印出大量的运行日志,但是很多时候只通过打印这些日志是不能很好地跟踪Hadoop各个模块的运行状况。这时候编译与调试Hadoop源码就得派上场了。这也就是今天本文需要讨论的。编译Hadoop源码  先说说怎么编译Hadoop源码,本文主要介绍在Linux环境下用Maven来编译Hadoop。在编译Hadoop之前,我们

w397090770   10年前 (2014-01-09) 19805℃ 0评论10喜欢

数据结构

数据结构:线段树

数据结构:线段树
一、线段树基本概念线段树是一种二叉搜索树,与区间树相似,它将一个区间划分成一些单元区间,每个单元区间对应线段树中的一个叶结点。对于线段树中的每一个非叶子节点[a,b],它的左儿子表示的区间为[a,(a+b)/2],右儿子表示的区间为[(a+b)/2+1,b]。因此线段树是平衡二叉树,最后的子节点数目为N,即整个线段区间的长度。

w397090770   11年前 (2013-04-03) 4836℃ 0评论4喜欢

Flink

Flink China社区线下 Meetup·北京站 PPT 资料分享

Flink China社区线下 Meetup·北京站 PPT 资料分享
Flink China社区线下 Meetup·北京站会议于 2018年8月11日 在朝阳区酒仙桥北路恒通国际创新园进行。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop活动议程13:40-13:50 莫问 出品人开场发言13:50-14:30 Flink Committer星罡《Flink状态管理和恢复技术介绍》,详细请见这里14:30-15:10 滴滴 余海琳《Flink在

zz~~   6年前 (2018-08-14) 2923℃ 0评论4喜欢

Mysql

将 MySQL 的全量数据以分页的形式导入到 Apache Solr 中

将 MySQL 的全量数据以分页的形式导入到 Apache Solr 中
在 《将 MySQL 的全量数据导入到 Apache Solr 中》 文章中介绍了如何将 MySQL 中的全量数据导入到 Solr 中。里面提到一个问题,那就是如果数据量很大的时候,一次性导入数据可能会影响 MySQL ,这种情况下能不能分页导入呢?答案是肯定的,本文将介绍如何通过分页的方式将 MySQL 里面的数据导入到 Solr。分页导数的方法和全量导大部

w397090770   6年前 (2018-08-07) 1353℃ 0评论1喜欢

Scala

为Java程序员编写的Scala的入门教程

为Java程序员编写的Scala的入门教程
  本文是《A Scala Tutorial for Java programmers》英文的翻译,英文版地址A Scala Tutorial for Java programmers。是Michel Schinz和Philipp Haller编写,由Bearice成中文,dongfengyee(东风雨)整理.一、简介二、 第一个Scala例子三、Scala与Java交互四、Scala:万物皆对象五、Scala类六、Scala的模式匹配和条件类七、Scala Trait八、Scala的泛型九、

w397090770   9年前 (2015-04-18) 16192℃ 0评论37喜欢

CPP编程

C++虚函数

C++虚函数
有虚函数的类内部有一个称为“虚表”的指针,这个就是用来指向这个类虚函数。也就是用它来确定调用该那个函数。例如:[code lang="CPP"]#include <iostream>using namespace std;class A{public: virtual void fun1(){ cout << "In class A::fun1()!" << endl; } virtual void fun2(){ cout << "In class A::fun2()!" << endl;

w397090770   11年前 (2013-04-03) 2400℃ 0评论1喜欢

Guava

Guava学习之Resources

Guava学习之Resources
  Resources提供提供操作classpath路径下所有资源的方法。除非另有说明,否则类中所有方法的参数都不能为null。虽然有些方法的参数是URL类型的,但是这些方法实现通常不是以HTTP完成的;同时这些资源也非classpath路径下的。  下面两个函数都是根据资源的名称得到其绝对路径,从函数里面可以看出,Resources类中的getResource函数

w397090770   11年前 (2013-09-25) 6407℃ 0评论4喜欢

资料分享

2021年最新美国苹果账号(Apple ID)注册方法

2021年最新美国苹果账号(Apple ID)注册方法
全新美国区 Apple ID 注册教程参见:2021年最新美区 Apple ID 注册教程使用苹果手机的有可能知道,国内使用的 App Store 只能下载国内的一些 APP 应用。有一些 APP 并没有在国内 App Store 上架,这时候就无法下载。我们需要使用一个国外的 Apple ID 账号,但是很多人手上一般都是只有国内的账号,这篇文章就来教大家如何把一个中国区的

w397090770   3年前 (2021-10-10) 1226℃ 0评论0喜欢

Hive

Apache Hive JdbcStorageHandler 编程入门指南

Apache Hive JdbcStorageHandler 编程入门指南
Apache Hive 从 HIVE-1555 开始引入了 JdbcStorageHandler ,这个使得 Hive 能够读取 JDBC 数据源,关于 Apache Hive 引入 JdbcStorageHandler 的背景可以参见 《Apache Hive 联邦查询(Query Federation)》。本文主要简单介绍 JdbcStorageHandler 的使用。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop语法JdbcStorageHandler 使

w397090770   5年前 (2019-04-01) 3228℃ 0评论7喜欢

Spark

Apache Spark 自定义优化规则:Custom Optimizer Rule

Apache Spark 自定义优化规则:Custom Optimizer Rule
在 《Apache Spark 自定义优化规则:Custom Strategy》 文章中我们介绍了如何自定义策略,策略是用在逻辑计划转换到物理计划阶段。而本文将介绍如何自定义逻辑计划优化规则,主要用于优化逻辑计划,和前文不一样的地方是,逻辑优化规则只是等价变换逻辑计划,也就是 Logic Plan -> Login Plan,这个是在应用策略前进行的。如果想及时

w397090770   4年前 (2020-08-07) 1118℃ 0评论2喜欢

Hadoop

Hive0.11查询结果保存到文件并指定列之间的分隔符

Hive0.11查询结果保存到文件并指定列之间的分隔符
  在Hive0.11.0版本新引进了一个新的特性,也就是当用户将Hive查询结果输出到文件,用户可以指定列的分割符,而在之前的版本是不能指定列之间的分隔符,这样给我们带来了很大的不变,在Hive0.11.0之前版本我们一般是这样用的:[code lang="JAVA"]hive> insert overwrite local directory '/home/wyp/Documents/result'hive> select * from test;[/code]

w397090770   11年前 (2013-11-04) 20901℃ 9评论10喜欢

Docker

Docker 入门教程:镜像和容器删除

Docker 入门教程:镜像和容器删除
随着我们使用 Docker 的次数越来越多,我们电脑里面可能已经存在很多 Docker 镜像,大量的镜像会占据大量的存储空间,所有很有必要清理一些不需要的镜像。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop镜像的删除在删除镜像之前,我们可以看下系统里面都有哪些镜像:[code lang="bash"][ite

w397090770   4年前 (2020-04-14) 456℃ 0评论1喜欢

Google

最新可访问Google的Hosts文件[最新更新]

最新可访问Google的Hosts文件[最新更新]
本页面不再更新,请移步到 《2018 最新 hosts 文件持续更新》如果之前的hosts文件还有效可以不更新;由于大家使用的带宽种类,地区,被墙的程度不一样,所以有些地区使用本Hosts文件可能仍然无法使用Google;光靠修改Hosts文件是无法观看youtube里面的视频,重要的事说三遍:通过本hosts文件可以打开youtube网站,但是无法观看

w397090770   9年前 (2015-09-25) 193788℃ 376喜欢

Scala

Scala正则表达式

Scala正则表达式
今天在项目中用到了Scala正则表达式,网上找了好久也没找到很全的资料,这里收集了Scala中很多常用的正则表达式使用方法。关于Scala正则表达式替换请参见:《Scala正则表达式替换》如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop[code lang="scala"]scala> val regex="""([0-9]+) ([a-z]+)&

w397090770   9年前 (2015-01-04) 24849℃ 0评论27喜欢

Mysql

Spark RDD写入RMDB(Mysql)方法二

Spark RDD写入RMDB(Mysql)方法二
  在本博客的《Spark将计算结果写入到Mysql中》文章介绍了如果将Spark计算后的RDD最终 写入到Mysql等关系型数据库中,但是这些写操作都是自己实现的,弄起来有点麻烦。不过值得高兴的是,前几天发布的Spark 1.3.0已经内置了读写关系型数据库的方法,我们可以直接在代码里面调用。  Spark 1.3.0中对数据库写操作是通过DataFrame类

w397090770   9年前 (2015-03-17) 13485℃ 6评论16喜欢

Guava

Guava学习之BiMap

Guava学习之BiMap
  在前面的《Guava学习之Multimap》文章中我们谈到了Guava类库中的Multimap,其特点是存在在Multimap中的键值对可以不唯一;而我们又知道,在Java集合类库中有个Map,它的特点是存放的键(Key)是唯一的,而值(Value)可以不唯一,如果我们需要键(Key)和值(Value)都唯一,该怎么实现?这就是今天要谈的BiMap结构。   在过去,如

w397090770   11年前 (2013-07-10) 7091℃ 2评论2喜欢

Delta Lake

还在玩数据仓库?现在已经是 LakeHouse 时代!

还在玩数据仓库?现在已经是 LakeHouse 时代!
引入在Databricks的过去几年中,我们看到了一种新的数据管理范式,该范式出现在许多客户和案例中:LakeHouse。在这篇文章中,我们将描述这种新范式及其相对于先前方案的优势。数据仓库技术自1980诞生以来一直在发展,其在决策支持和商业智能应用方面拥有悠久的历史,而MPP体系结构使得系统能够处理更大数据量。但是,虽

w397090770   4年前 (2020-02-03) 2973℃ 0评论6喜欢