欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

Presto

Presto 常用性能优化技巧

Presto 常用性能优化技巧
Presto 是一个用于分析的开源分布式 ANSI SQL 查询引擎,支持计算和存储的分离。性能对于一些分析查询尤其重要,因此 Presto 有许多设计特性来最大化 Presto 的速度,比如内存中的流水线执行(memory pipelined execution)、分布式的扩展架构和大规模并行处理(MPP)设计。Presto支持的具体性能特性:数据压缩(SNAPPY, LZ4, ZSTD 以及 GZIP)

w397090770   2年前 (2022-03-02) 1359℃ 0评论2喜欢

Java

几种常见的垃圾回收算法之引用计数算法

几种常见的垃圾回收算法之引用计数算法
  在C++中,对象所占的内存在程序结束运行之前一直被占用,需要我们明确释放;而在Java中,当没有对象引用指向原先分配给某个对象的内存时,该内存便成为垃圾。JVM的一个系统级线程会自动释放该内存块。  垃圾收集意味着程序不再需要的对象是"无用信息",这些信息将被丢弃。当一个对象不再被引用的时候,内存回收它

w397090770   11年前 (2013-10-14) 7438℃ 2评论9喜欢

ElasticSearch

Open Distro for Elasticsearch:AWS 自家版本的开源 ElasticSearch

Open Distro for Elasticsearch:AWS 自家版本的开源 ElasticSearch
AWS 于近期发布了自家版本的开源 ElasticSearch :Open Distro for Elasticsearch。我们都知道,Elasticsearch 是一个分布式面向文档的搜索和分析引擎。 它支持结构化和非结构化查询,并且不需要提前定义模式。 Elasticsearch 可用作搜索引擎,通常用于 Web 级日志分析,实时应用程序监控和点击流分析,在国内外有很多用户使用。AWS 通过 AWS Elasticse

w397090770   5年前 (2019-03-13) 3955℃ 0评论8喜欢

Apache Iceberg

盘点2020年晋升为Apache TLP的大数据相关项目

盘点2020年晋升为Apache TLP的大数据相关项目
在过去一年有很多 Apache 孵化项目顺利毕业成顶级项目(Top-Level Project ,简称 TLP ),在这里我将给大家盘点 2020 年晋升为 Apache TLP 的大数据相关项目。在2020年一共有四个大数据相关项目顺利毕业成顶级项目,主要是 Apache® ShardingSphere™、Apache® Hudi™、Apache® Iceberg™ 以及 Apache® IoTDB™,这里以毕业的时间顺序依次介绍。关于过

w397090770   3年前 (2021-01-03) 1390℃ 0评论5喜欢

Java

Java8 IntStream、LongStream 以及 DoubleStream 介绍

Java8 IntStream、LongStream 以及 DoubleStream 介绍
本章节我们提供一些 Java 8 中的 IntStream、LongStream 和 DoubleStream 使用范例。IntStream、LongStream 和 DoubleStream 分别表示原始 int 流、 原始 long 流 和 原始 double 流。这三个原始流类提供了大量的方法用于操作流中的数据,同时提供了相应的静态方法来初始化它们自己。这三个原始流类都在 java.util.stream 命名空间下。java.util.stream.Int

w397090770   2年前 (2022-03-31) 117℃ 0评论0喜欢

HBase

使用Spark读取HBase中的数据

使用Spark读取HBase中的数据
  在《Spark读取Hbase中的数据》文章中我介绍了如何在Spark中读取Hbase中的数据,并提供了Java和Scala两个版本的实现,本文将接着上文介绍如何通过Spark将计算好的数据存储到Hbase中。  Spark中内置提供了两个方法可以将数据写入到Hbase:(1)、saveAsHadoopDataset;(2)、saveAsNewAPIHadoopDataset,它们的官方介绍分别如下:  saveAsHad

w397090770   7年前 (2016-11-29) 17837℃ 1评论29喜欢

Guava

Guava学习之Multisets

Guava学习之Multisets
  今天谈谈Guava类库中的Multisets数据结构,虽然它不怎么经常用,但是还是有必要对它进行探讨。我们知道Java类库中的Set不能存放相同的元素,且里面的元素是无顺序的;而List是能存放相同的元素,而且是有顺序的。而今天要谈的Multisets是能存放相同的元素,但是元素之间的顺序是无序的。从这里也可以看出,Multisets肯定不是实

w397090770   11年前 (2013-07-11) 4634℃ 0评论1喜欢

开源软件

Apache Trafodion:基于 Hadoop 平台的事务数据库引擎

Apache Trafodion:基于 Hadoop 平台的事务数据库引擎
Apache Trafodion 是由惠普开发并开源的基于 Hadoop 平台的事务数据库引擎。提供了一个基于Hadoop平台的交易型SQL引擎。它是一个擅长处理交易型负载的Hadoop大数据解决方案。其主要特性包括:完整的ANSI SQL语言支持完整的ACID事务支持。对于读、写查询,Trafodion支持跨行,跨表和跨语句的事务保护支持多种异构存储引擎的直接访问为应

w397090770   6年前 (2018-01-07) 2315℃ 0评论5喜欢

Git

Git 代码回滚

Git 代码回滚
Git 的代码回滚主要有 reset 和 revert,本文介绍其用法如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoopreset一般用法是 [code lang="bash"]git reset --hard commit_id[/code]其中 commit_id 是使用 git log 查看的 id,如下:[code lang="bash"]$ git logcommit 26721c73c6bb82c8a49aa94ce06024f592032d0cAuthor: iteblog <iteblog@iteb

w397090770   4年前 (2020-10-12) 1241℃ 0评论0喜欢

流系统月刊

大数据流处理系统精彩资源月刊(第1期)

大数据流处理系统精彩资源月刊(第1期)
流处理系统月刊是一份专门收集关于Spark、Flink、Kafka、Apex等流处理系统的技术干货月刊,完全免费,每天更新,欢迎关注。下面资源如无法正常访问,请使用《最新可访问Google的Hosts文件》进行科学上网。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop#iteblog a:link { text-decoration: underline;}#it

w397090770   8年前 (2016-10-06) 2646℃ 0评论4喜欢

HBase

HBase MOB(Medium Object)使用入门指南

HBase MOB(Medium Object)使用入门指南
《Apache HBase中等对象存储MOB压缩分区策略介绍》 文章中介绍了 MOB 的一些压缩实现,并提及了一些 MOB 的一些简单使用,本文将详细地介绍 HBase MOB 的使用,本指南适合入门的开发者。将不同大小的文件(比如图片、文档等)存储到 HBase 非常的简单方便。从技术上来说,HBase 可以直接在一个单元格(Cell)存储大小到10MB的二进制对

w397090770   5年前 (2018-12-03) 2671℃ 0评论5喜欢

Scala

Scala模式匹配和函数组合

Scala模式匹配和函数组合
函数组合让我们来创建两个函数[code lang="scala"]scala> def f(s: String) = "f(" + s + ")"f: (String)java.lang.Stringscala> def g(s: String) = "g(" + s + ")"g: (String)java.lang.String[/code]compose方法compose组合其他函数形成一个新的函数f(g(x))[code lang="scala"]scala> val fComposeG = f _ compose g _fComposeG: (String) => j

w397090770   8年前 (2016-05-08) 36006℃ 0评论7喜欢

Spark

Spark Summit 2017 SanFrancisco全部PPT下载[共143个]

Spark Summit 2017 SanFrancisco全部PPT下载[共143个]
Spark Summit 2017会议于2017年06月05日至07日在旧金山(San Francisco)进行,全部会议一共179个。从会议我们得到目前的Spark发展方向主要包括两大主题:深度学习(Deep Learning)提升流系统的性能( Streaming Performance)如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop2016年是深度学习之年,而

w397090770   7年前 (2017-06-18) 1901℃ 0评论4喜欢

HBase

为什么不建议在 HBase 中使用过多的列族

为什么不建议在 HBase 中使用过多的列族
我们知道,一张 HBase 表包含一个或多个列族。HBase 的官方文档中关于 HBase 表的列族的个数有两处描述:A typical schema has between 1 and 3 column families per table. HBase tables should not be designed to mimic RDBMS tables. 以及 HBase currently does not do well with anything above two or three column families so keep the number of column families in your schema low. 上面两句话其实都是

w397090770   5年前 (2019-01-01) 4306℃ 1评论13喜欢

Hadoop

Hadoop安全模式详解及配置

Hadoop安全模式详解及配置
  在《Hadoop 1.x中fsimage和edits合并实现》文章中提到,Hadoop的NameNode在重启的时候,将会进入到安全模式。而在安全模式,HDFS只支持访问元数据的操作才会返回成功,其他的操作诸如创建、删除文件等操作都会导致失败。  NameNode在重启的时候,DataNode需要向NameNode发送块的信息,NameNode只有获取到整个文件系统中有99.9%(可以配

w397090770   10年前 (2014-03-13) 17203℃ 3评论16喜欢

Spark

Spark on yarn上遇到的问题

Spark on yarn上遇到的问题
  最近在Yarn上使用Spark,不管是yarn-cluster模式还是yarn-client模式,都出现了以下的异常:[code lang="java"]Application application_1434099279301_123706 failed 2 times due to AM Container for appattempt_1434099279301_123706_000002 exited with exitCode: 127 due to: Exception from container-launch:org.apache.hadoop.util.Shell$ExitCodeException:at org.apache.hadoop.util.Shell.runCommand(Shell.java:464)

w397090770   9年前 (2015-06-19) 7811℃ 0评论3喜欢

Scala

设置SBT的日志级别

设置SBT的日志级别
  SBT默认的日志级别是Info,我们可以根据自己的需要去设置它的默认日志级别,比如我们在开发过程中,就可以打开Debug日志级别,这样可以看出SBT是如何工作的。SBT的日志级别在sbt.Level类里面定义:[code lang="scala"]object Level extends Enumeration{ val Debug = Value(1, "debug") val Info = Value(2, "info") val Warn = Value(3, "warn&q

w397090770   8年前 (2015-12-24) 3410℃ 0评论8喜欢

Presto

Presto 在 Lyft 的实践

Presto 在 Lyft 的实践
2017 年初,我们开始探索 Presto 来解决 OLAP 用例,我们意识到了这个惊人的查询引擎的潜力。与 Apache Hive 相比,它最初是一种临时查询工具,供数据工程师和分析师以更快的方式运行 SQL 来构建查询原型。 当时很多内部仪表板都由 AWS-Redshift 提供支持,并将数据存储和计算耦合在一起。我们的数据呈指数级增长(每隔几天翻一番),

w397090770   2年前 (2022-03-18) 291℃ 0评论0喜欢

Spark

[电子书]Machine Learning with Spark Second Edition PDF下载

[电子书]Machine Learning with Spark Second Edition PDF下载
本书作者:Rajdeep Dua、Manpreet Singh Ghotra、 Nick Pentreath,由Packt出版社于2017年04月出版,全书共532页。本书是2015年02月出版的Machine Learning with Spark的第二版。通过本书将学习到以下的知识:Get hands-on with the latest version of Spark MLCreate your first Spark program with Scala and PythonSet up and configure a development environment for Spark on your own computer, as well

zz~~   7年前 (2017-05-27) 4452℃ 0评论14喜欢

Hadoop

Hadoop面试题系列(10/11)

Hadoop面试题系列(10/11)
一. 问答题1) datanode在什么情况下不会备份?2) hdfs的体系结构?3) sqoop在导入数据到mysql时,如何让数据不重复导入?如果存在数据问题sqoop如何处理?4) 请列举曾经修改过的/etc下的配置文件,并说明修改要解决的问题?5) 描述一下hadoop中,有哪些地方使用了缓存机制,作用分别是什么?二. 计算题1、使用Hive或

w397090770   8年前 (2016-08-26) 4246℃ 1评论4喜欢

Hadoop

Apache Hadoop 3.x 最新状态以及升级指南

Apache Hadoop 3.x 最新状态以及升级指南
本文来自 2019年9月23日至26日在纽约举办的 Strata Data Conference,分享者是来自 Cloudera 的 Wangda Tan 和 Wei-Chiu Chuang,会议页面 https://conferences.oreilly.com/strata/strata-ny-2019/public/schedule/detail/77506。请关注 过往记忆大数据 微信公众号,并在后台回复 hadoop_3 关键字获取本文的 PPT 下载地址。如果想及时了解Spark、Hadoop或者HBase相关的文章,

w397090770   4年前 (2020-02-04) 2157℃ 2评论5喜欢

Idea

IntelliJ IDEA 2020.1 稳定版发布

IntelliJ IDEA 2020.1 稳定版发布
IntelliJ IDEA 2020.1 稳定版来了!这是今年发布的首个重大更新版本,新版本增加了对 Java 14 的支持、为部分 Web 和测试框架添加新功能、为调试器添加数据流分析协助功能(dataflow analysis assistance)、新增 LightEdit 模式,以及支持从 IDE 下载和配置 JDK。下载地址 https://www.jetbrains.com/idea/download,也可以使用 Toolbox App 进行更新

w397090770   4年前 (2020-04-10) 189℃ 0评论2喜欢

其他

欢迎加入阿里云 Dala Lake Analytics 团队

欢迎加入阿里云 Dala Lake Analytics 团队
如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop回望过去10年,数据技术发展迅速,数据也在呈现爆炸式的增长,这也伴随着如下两个现象。一、数据更加分散:企业的数据是散落在不同的数据存储之中,如对象存储OSS,OLTP的MySQL,NoSQL的Mongo及HBase,以及数据仓库ADB之中,甚至是以服务的形式

w397090770   4年前 (2020-01-07) 1163℃ 0评论3喜欢

Kafka

Apache Kafka编程入门指南:设置分区数和复制因子

Apache Kafka编程入门指南:设置分区数和复制因子
  《Apache Kafka编程入门指南:Producer篇》  《Apache Kafka编程入门指南:设置分区数和复制因子》  Apache Kafka编程入门指南:Consumer篇  在前面的例子(《Apache Kafka编程入门指南:Producer篇》)中,我们学习了如何编写简单的Kafka Producer程序。在那个例子中,在如果需要发送的topic不存在,Producer将会创建它。我们都知

w397090770   8年前 (2016-02-06) 7460℃ 0评论6喜欢

Spark

精心收集的Spark学习资料(持续更新)

精心收集的Spark学习资料(持续更新)
如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop《Learning Spark》O'Reilly,2015-01 电子书下载:进入下载《Advanced Analytics with Spark》 O'Reilly,2015-04 电子书下载:进入下载如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop《High Performance Spark》O'Reilly 2016-03 出

w397090770   7年前 (2017-02-12) 6644℃ 0评论18喜欢

Spark

Apache Spark 自定义优化规则:Custom Optimizer Rule

Apache Spark 自定义优化规则:Custom Optimizer Rule
在 《Apache Spark 自定义优化规则:Custom Strategy》 文章中我们介绍了如何自定义策略,策略是用在逻辑计划转换到物理计划阶段。而本文将介绍如何自定义逻辑计划优化规则,主要用于优化逻辑计划,和前文不一样的地方是,逻辑优化规则只是等价变换逻辑计划,也就是 Logic Plan -> Login Plan,这个是在应用策略前进行的。如果想及时

w397090770   4年前 (2020-08-07) 1118℃ 0评论2喜欢

Web服务

Web服务非功能属性

Web服务非功能属性
  如今,互联网上存在大量功能相同的Web服务,但是它们的非功能属性(Quality of Service,QoS)一般相差很大,以至于用户在选择合适的Web服务时,把服务的QoS作为评判服务好坏的重要指标。QoS并不是在Web服务领域中产生的,它最先用在计算机网络和实时系统的非功能需求中,后来很多领域都引入了QoS指标,而且不同领域所用的QoS

w397090770   11年前 (2013-05-16) 3610℃ 0评论5喜欢

Alluxio

Alluxio 对 Presto 的查询性能加速测试报告

Alluxio 对 Presto 的查询性能加速测试报告
金山云-企业云团队(赵侃、李金辉)在交互查询场景下对Presto与Alluxio相结合进行了一系列测试,并总结了一些Presto搭配Alluxio使用的建议。本次测试未使用对象存储,计算引擎与存储间的网络延时也比较低。如果存储IO耗时和网络耗时较大时,Alluxio加速收益应会更明显。测试目的验证影响Alluxio加速收益的各种因素记录Alluxio

w397090770   2年前 (2022-03-29) 655℃ 0评论1喜欢

Delta Lake

Delta Lake 0.5.0 正式发布,支持包括 Hive/Presto 等多种查询引擎

Delta Lake 0.5.0 正式发布,支持包括 Hive/Presto 等多种查询引擎
Delta Lake 0.5.0 于2019年12月13日正式发布,正式版本可以到 这里 下载使用。这个版本支持多种查询引擎查询 Delta Lake 的数据,比如常见的 Hive、Presto 查询引擎。并发操作得到改进。当然,这个版本还是不支持直接使用 SQL 去增删改查 Delta Lake 的数据,这个可能得等到明年1月的 Apache Spark 3.0.0 的发布。好了,下面我们来详细介绍这个版本

w397090770   4年前 (2019-12-15) 1732℃ 0评论2喜欢

Spark

Spark Summit East 2017高清视频和PPT下载

Spark Summit East 2017高清视频和PPT下载
  Spark Summit East 2017会议于2017年2月07日到09日在波士顿进行,本次会议有来自工业界的上百位Speaker;官方日程:https://spark-summit.org/east-2017/schedule/。  目前本站昨晚已经把里面的85(今天早上发现又上传了25个视频,晚上我补全)个视频全部从Youtube下载下来,已经上传到百度网盘(访问https://github.com/397090770/spark-summit-east-2017获

w397090770   7年前 (2017-02-15) 2767℃ 0评论15喜欢