欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

Tachyon

Tachyon 0.7.0伪分布式集群安装与测试

Tachyon 0.7.0伪分布式集群安装与测试
  我们先来看看官方文档是怎么对Tachyon进行描述的:Tachyon is a memory-centric distributed storage system enabling reliable data sharing at memory-speed across cluster frameworks, such as Spark and MapReduce. It achieves high performance by leveraging lineage information and using memory aggressively. Tachyon caches working set files in memory, thereby avoiding going to disk to load datasets that are frequently

w397090770   9年前 (2015-08-27) 3134℃ 4评论2喜欢

Python

Spark Python API函数学习:pyspark API(4)

Spark Python API函数学习:pyspark API(4)
  《Spark Python API函数学习:pyspark API(1)》  《Spark Python API函数学习:pyspark API(2)》  《Spark Python API函数学习:pyspark API(3)》  《Spark Python API函数学习:pyspark API(4)》  Spark支持Scala、Java以及Python语言,本文将通过图片和简单例子来学习pyspark API。.wp-caption img{ max-width: 100%; height: auto;}如果想

w397090770   9年前 (2015-07-04) 21725℃ 0评论19喜欢

Scala

Effective Scala中文版文档

Effective Scala中文版文档
  Marius Eriksen, Twitter Inc.  marius@twitter.com (@marius)  [translated by hongjiang(@hongjiang), tongqing(@tongqing)]序言  Scala是Twitter使用的主要应用编程语言之一。很多我们的基础架构都是用scala写的,我们也有一些大的库支持我们使用。虽然非常有效, Scala也是一门大的语言,经验教会我们在实践中要非常小心。 它有什么陷阱?哪些特

w397090770   9年前 (2015-04-11) 7386℃ 0评论3喜欢

Delta Lake

深入理解 Apache Spark Delta Lake 的事务日志

深入理解 Apache Spark Delta Lake 的事务日志
事务日志是理解 Delta Lake 的关键,因为它是贯穿许多最重要功能的通用模块,包括 ACID 事务、可扩展的元数据处理、时间旅行(time travel)等。本文我们将探讨事务日志(Transaction Log)是什么,它在文件级别是如何工作的,以及它如何为多个并发读取和写入问题提供优雅的解决方案。事务日志(Transaction Log)是什么Delta Lake 事务日

w397090770   5年前 (2019-08-22) 1731℃ 0评论6喜欢

Spark

怎么在Idea IDE里面打开Spark源码而不报错

怎么在Idea IDE里面打开Spark源码而不报错
  我们在学习或者使用Spark的时候都会选择下载Spark的源码包来加强Spark的学习。但是在导入Spark代码的时候,我们会发现yarn模块的相关代码总是有相关类依赖找不到的错误(如下图),而且搜索(快捷键Ctrl+N)里面的类时会搜索不到!这给我们带来了很多不遍。。  本文就是来解决这个问题的。我使用的是Idea IDE工具阅读代

w397090770   9年前 (2015-11-07) 8937℃ 4评论11喜欢

Hadoop

Hadoop 2.2.0编译hadoop-eclipse-plugin插件

Hadoop 2.2.0编译hadoop-eclipse-plugin插件
  前提条件:  1、安装好jdk1.6或以上版本  2、部署好Hadoop 2.2.0(可以参见本博客《Hadoop2.2.0完全分布式集群平台安装与设置》)  3、安装好ant,这很简单:[code lang="JAVA"]$ wget http://mirrors.cnnic.cn/apache/ant/binaries/apache-ant-1.9.3-bin.tar.gz$ tar -zxvf apache-ant-1.9.3-bin.tar.gz[/code]然后设置好ANT_HOME和PATH就行  4、安装好相

w397090770   10年前 (2014-03-26) 23687℃ 1评论35喜欢

Hadoop

Hadoop 气数已尽?

Hadoop 气数已尽?
Hadoop我先从一个悲观的观点说起:Hadoop 正在迅速失去市场,我们可以从 Google 趋势走向看出这个现象:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop下面的炒作生命周期表也上面的趋势很类似:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop看起来 Hadoo

w397090770   5年前 (2019-06-23) 3666℃ 0评论32喜欢

Spark

GraphFrames介绍:构建在DataFrame之上的图处理库

GraphFrames介绍:构建在DataFrame之上的图处理库
  由Databricks、UC Berkeley以及MIT联合为Apache Spark开发了一款图像处理类库,名为:GraphFrames,该类库是构建在DataFrame之上,它既能利用DataFrame良好的扩展性和强大的性能,同时也为Scala、Java和Python提供了统一的图处理API。什么是GraphFrames  与Apache Spark的GraphX类似,GraphFrames支持多种图处理功能,但得益于DataFrame因此GraphFrames与G

w397090770   8年前 (2016-04-09) 4658℃ 0评论6喜欢

Mysql

Spark读取数据库(Mysql)的四种方式讲解

Spark读取数据库(Mysql)的四种方式讲解
  目前Spark支持四种方式从数据库中读取数据,这里以Mysql为例进行介绍。一、不指定查询条件  这个方式链接MySql的函数原型是:[code lang="scala"]def jdbc(url: String, table: String, properties: Properties): DataFrame[/code]  我们只需要提供Driver的url,需要查询的表名,以及连接表相关属性properties。下面是具体例子:[code lang="scala"

w397090770   8年前 (2015-12-28) 37601℃ 1评论61喜欢

Spark

Apache Spark 3.2 正式发布,新特性详解

Apache Spark 3.2 正式发布,新特性详解
经过七轮投票, Apache Spark™ 3.2 终于在昨天正式发布了。Apache Spark™ 3.2 已经是 Databricks Runtime 10.0 的一部分,感兴趣的同学可以去试用一下。按照惯例,这个版本应该不是稳定版,所以建议大家不要在生产环境中使用。Spark 的每月 Maven 下载数量迅速增长到 2000 万,与去年同期相比,Spark 的月下载量翻了一番。Spark 已成为在单节

w397090770   2年前 (2021-10-20) 1170℃ 0评论3喜欢

Spark

Spark 1.2.2和Spark 1.3.1同时发布(都是稳定版)

Spark 1.2.2和Spark 1.3.1同时发布(都是稳定版)
  Spark 1.2.2和Spark 1.3.1于美国时间2015年4月17日同时发布。两个都是维护版本,并推荐所有1.3和1.2的Spark使用用户升级到相应的版本。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoopspark 1.2.2(稳定版本)  spark 1.2.2主要是维护版本,修复了许多Bug,是基于Spark 1.2的分支。并推荐所有使用1.

w397090770   9年前 (2015-04-18) 5163℃ 0评论3喜欢

Presto

使用 Alluxio 实现 Presto Caching @ Uber

使用 Alluxio 实现 Presto Caching @ Uber
本文是 2021-10-13 日周三下午13:30 举办的议题为《Enabling Presto Caching at Uber with Alluxio》的分享,作者来自 Uber 的 Zhongting Hu 和 Alluxio 发 Dr. Beinan Wang。Zhongting Hu is Tech Lead Manager of the Interactive Analytics Team at Uber. He is leading and managing Presto ecosystems inside Uber.Dr. Beinan Wang is a software engineer from Alluxio and is the committer of PrestoDB. Prior to Alluxio, he

w397090770   2年前 (2021-10-27) 193℃ 0评论0喜欢

大数据

2017年大数据十大变化趋势预测

2017年大数据十大变化趋势预测
  2017年已然来临,大数据技术仍然保持着飞速发展。无论是物联网、云计算领域乃至企业技术都开始将其引入自身并作为新的变革方向。众多企业已经在积极接纳大数据技术,并作为提升自身市场竞争力的核心因素。在今天的文章中,我们将基于甲骨文给出的预测结论,总结2017年十项大数据变化趋势。如果想及时了解Spark、H

w397090770   7年前 (2017-02-17) 1026℃ 0评论3喜欢

Flume

Flume-0.9.4和Hbase-0.96整合(1)

Flume-0.9.4和Hbase-0.96整合(1)
  这几天由于项目的需要,需要将Flume收集到的日志插入到Hbase中,有人说,这不很简单么?Flume里面自带了Hbase sink,可以直接调用啊,还用说么?是的,我在本博客的《Flume-1.4.0和Hbase-0.96.0整合》文章中就提到如何用Flume和Hbase整合,从文章中就看出整个过程不太复杂,直接做相应的配置就行了。那么为什么今天还要特意提一下Flum

w397090770   10年前 (2014-01-27) 5122℃ 1评论1喜欢

Flink

Apache Flink 在唯品会的实践

Apache Flink 在唯品会的实践
本文来自于王新春在2018年7月29日 Flink China社区线下 Meetup·上海站的分享。王新春目前在唯品会负责实时平台相关内容,主要包括实时计算框架和提供实时基础数据,以及机器学习平台的工作。之前在美团点评,也是负责大数据平台工作。他已经在大数据实时处理方向积累了丰富的工作经验。。本文主要内容如下:唯品会实时

zz~~   6年前 (2018-08-15) 7230℃ 0评论14喜欢

Flink

Tumbling Windows vs Sliding Windows区别与联系

Tumbling Windows vs Sliding Windows区别与联系
  在流系统中通常会经常使用到Windows来统计一定范围的数据,比如按照固定时间、按个数等统计。一般会存在两种类型的Windows:Tumbling Windows vs Sliding Windows,它们很容易被初学者混淆,那么Tumbling Windows vs Sliding Windows之间到底有啥区别与联系呢?这就是本文将要展开的。  Tumbling的中文意思是摔跤,翻跟头,翻筋斗;Sliding中

w397090770   8年前 (2016-07-26) 3268℃ 0评论4喜欢

Hadoop

Hive安装与配置

Hive安装与配置
  前提条件:安装好相应版本的Hadoop(可以参见《在Fedora上部署Hadoop2.2.0伪分布式平台》)、安装好JDK1.6或以上版本(可以参见《如何在Linux平台命令行环境下安装Java1.6》)  Hive的下载地址:http://archive.apache.org/dist/hive/,你可以选择你适合的版本去下载。本博客下载的Hive版本为0.8.0。你可以运行下面的命令去下载Hive,并解压:[

w397090770   11年前 (2013-11-01) 15298℃ 6评论3喜欢

Hadoop

Hadoop1.x程序升级到Hadoop2.x需要的依赖库

Hadoop1.x程序升级到Hadoop2.x需要的依赖库
  根据官方文档(Apache Hadoop MapReduce - Migrating from Apache Hadoop 1.x to Apache Hadoop 2.x:http://hadoop.apache.org/docs/r2.2.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduce_Compatibility_Hadoop1_Hadoop2.html)所述,Hadoop2.x是对Hadoop1.x程序兼容的,由于Hadoop2.x对Hadoop1.x做了重大的结构调整,很多程序依赖库被拆分了,所以以前(Hadoop1.x)的依赖库不再可

w397090770   10年前 (2013-11-26) 9541℃ 3评论2喜欢

Linux

在fedora里面安装BerkeleyDB数据库

在fedora里面安装BerkeleyDB数据库
一、首先到oracle的官网下载Berkeley db数据库源文件下载地址http://download.oracle.com/otn/berkeley-db/db-5.3.15.tar.gz二、下载之后的文件是一个打包好的文件,需要在命令行里面利用tar来解压(当然你也可以利用一些可视化工具来解压),步骤如下在命令行里面输入[code lang="CPP"] tar -zxvf db-5.3.15.tar.gz[/code]解压之后进入db-5.3.15目录有以下

w397090770   11年前 (2013-04-04) 3880℃ 0评论0喜欢

Spark

Spark应用程序运行的日志存在哪里

Spark应用程序运行的日志存在哪里
  如果你想知道Hadoop作业运行日志,可以查看这里《Hadoop日志存放路径详解》  在很多情况下,我们需要查看driver和executors在运行Spark应用程序时候产生的日志,这些日志对于我们调试和查找问题是很重要的。  Spark日志确切的存放路径和部署模式相关:  (1)、如果是Spark Standalone模式,我们可以直接在Master UI界

w397090770   9年前 (2015-05-14) 39457℃ 6评论16喜欢

YARN

Apache YARN 在 B 站的优化实践

Apache YARN 在 B 站的优化实践
背景 B站的YARN以社区的2.8.4分支构建,采用CapacityScheduler作为调度器, 期间进行过多次核心功能改造,目前支撑了B站的离线业务、实时业务以及部分AI训练任务。2020年以来,随着B站业务规模的迅速增长,集群总规模达到8k左右,其中单集群规模已经达到4k+ ,日均Application(下文简称App)数量在20w到30w左右。当前最大单集群整体cpu

w397090770   2年前 (2022-04-11) 645℃ 0评论1喜欢

Hive

Hive 1.2.1源码编译

Hive 1.2.1源码编译
  Hive 1.2.1源码编译依赖的Hadoop版本必须最少是2.6.0,因为里面用到了Hadoop的org.apache.hadoop.crypto.key.KeyProvider和org.apache.hadoop.crypto.key.KeyProviderFactory两个类,而这两个类在Hadoop 2.6.0才出现,否者会出现以下编译错误:[ERROR] /home/q/spark/apache-hive-1.2.1-src/shims/0.23/src/main/java/org/apache/hadoop/hive/shims/Hadoop23Shims.java:[43,36] package org.apache.hadoop.cry

w397090770   9年前 (2015-11-11) 13421℃ 11评论6喜欢

Flume

Kafka实战:七步将RDBMS中的数据实时传输到Hadoop

Kafka实战:七步将RDBMS中的数据实时传输到Hadoop
  对那些想快速把数据传输到其Hadoop集群的企业来说,Kafka是一个非常合适的选择。关于什么是Kafka我就不介绍了,大家可以参见我之前的博客:《Apache kafka入门篇:工作原理简介》  本文是面向技术人员编写的。阅读本文你将了解到我是如何通过Kafka把关系数据库管理系统(RDBMS)中的数据实时写入到Hive中,这将使得实时分析的

w397090770   8年前 (2016-08-30) 11337℃ 6评论24喜欢

Guava

Guava学习之Immutable集合

Guava学习之Immutable集合
  Immutable中文意思就是不可变。那为什么需要构建一个不可变的对象?原因有以下几点: 在并发程序中,使用Immutable既保证线程安全性,也大大增强了并发时的效率(跟并发锁方式相比)。尤其当一个对象是值对象时,更应该考虑采用Immutable方式; 被不可信的类库使用时会很安全; 如果一个对象不需要支持修改操作(mutation

w397090770   11年前 (2013-07-12) 8524℃ 1评论8喜欢

资料分享

迅雷9去掉右侧浏览器界面

迅雷9去掉右侧浏览器界面
  最近升级了迅雷9,新版本精简了任务列表的面积,然而增加了一个硕大的内置浏览器面板,大概占据了四分之三的窗口面积,并且不能关闭!界面如下:如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop就个人观点而言,实在不能理解为什么需要让一个下载工具的附加功能占据主要使用区

w397090770   7年前 (2017-02-18) 6277℃ 0评论20喜欢

数据湖

OPPO 数据湖统一存储技术实践

OPPO 数据湖统一存储技术实践
导读:OPPO是一家智能终端制造公司,有着数亿的终端用户,手机 、IoT设备产生的数据源源不断,设备的智能化服务需要我们对这些数据做更深层次的挖掘。海量的数据如何低成本存储、高效利用是大数据部门必须要解决的问题。目前业界流行的解决方案是数据湖,本次Xiaochun He老师介绍的OPPO自研数据湖存储系统CBFS在很大程度上可

zz~~   3年前 (2021-09-24) 346℃ 0评论2喜欢

HBase

HBase 多租户隔离技术:RegionServer Group 介绍及实战

HBase 多租户隔离技术:RegionServer Group 介绍及实战
背景随着 Apache HBase 在各个领域的广泛应用,在 HBase 运维或应用的过程中我们可能会遇到这样的问题:同一个 HBase 集群使用的用户越来越多,不同用户之间的读写或者不同表的 compaction、region splits 操作可能对其他用户或表产生了影响。将所有业务的表都存放在一个集群的好处是可以很好的利用整个集群的资源,只需要一套运

w397090770   5年前 (2018-11-01) 6243℃ 4评论13喜欢

Hadoop

HDFS 在 B 站的探索和实践

HDFS 在 B 站的探索和实践
HDFS 架构介绍 HDFS离线存储平台是Hadoop大数据计算的底层架构,在B站应用已经超过5年的时间。经过多年的发展,HDFS存储平台目前已经发展成为总存储数据量近EB级,元数据总量近百亿级,NameSpace 数量近20组,节点数量近万台,日均吞吐几十PB数据量的大型分布式文件存储系统。 首先我们来介绍一下B站的HDFS离线存储平台的总体架

w397090770   2年前 (2022-04-01) 932℃ 0评论3喜欢

HBase

Apache HBase 写数据流程说明

Apache HBase 写数据流程说明
Apache HBase 是构建在 HDFS 之上的数据库,使用 HBase 我们可以随机读写存储在 HDFS 上的数据,但是我们都知道,HDFS 上的文件仅仅只支持追加(Append),其默认是不支持修改已经写好的文件。所以很多人就会问,HBase 是如何实现低延迟的读写能力呢?文本将试图介绍 HBase 写数据的过程。其实 HBase 写数据包括 put 和 delete 操作,在 HBase

w397090770   5年前 (2019-01-02) 2515℃ 0评论12喜欢

Linux命令

CentOS系统上vsftp的安装和部署

CentOS系统上vsftp的安装和部署
  VSFTP是一个基于GPL发布的类Unix系统上使用的FTP服务器软件,它的全称是Very Secure FTP 从此名称可以看出来,编制者的初衷是代码的安全。本文将介绍如何在CentOS系统上安装、部署和卸载vsftp。1. 安装VSFTP[code lang="bash"][iteblog@www.iteblog.com ~]# yum -y install vsftpd[/code]2. 配置vsftpd.conf文件[code lang="bash"][iteblog@www.iteblog.com ~]# v

w397090770   8年前 (2016-04-16) 2029℃ 0评论3喜欢