欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

Spark

[电子书]Machine Learning with Spark Second Edition PDF下载

[电子书]Machine Learning with Spark Second Edition PDF下载
本书作者:Rajdeep Dua、Manpreet Singh Ghotra、 Nick Pentreath,由Packt出版社于2017年04月出版,全书共532页。本书是2015年02月出版的Machine Learning with Spark的第二版。通过本书将学习到以下的知识:Get hands-on with the latest version of Spark MLCreate your first Spark program with Scala and PythonSet up and configure a development environment for Spark on your own computer, as well

zz~~   7年前 (2017-05-27) 4452℃ 0评论14喜欢

HDFS

Ozone:Hadoop 原生分布式对象存储

Ozone:Hadoop 原生分布式对象存储
Hadoop 社区推出了新一代分布式Key-value对象存储系统 Ozone,同时提供对象和文件访问的接口,从构架上解决了长久以来困扰HDFS的小文件问题。本文作为Ozone系列文章的第一篇,抛个砖,介绍Ozone的产生背景,主要架构和功能。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop背景HDFS是业界默认的

w397090770   4年前 (2020-05-26) 1830℃ 1评论1喜欢

网站建设

WordPress网站性能优化

WordPress网站性能优化
  随着过往记忆大数据技术博客的浏览量逐渐增多(目前日IP达到5k+,PV达到1.5W+),博客的访问速度越来越慢,在高峰时期打开一个页面需要近10s的时间,这样的情况非常的糟糕,没多少人愿意等待近10s,所以优化网站的访问速度迫在眉睫!  先来介绍一下本博客的相关配置信息:博客购买的是腾讯云主机,CentOS 6.6 64位、1

w397090770   8年前 (2016-07-19) 1635℃ 0评论4喜欢

Java

Maven如何手动添加依赖的jar文件到本地Maven仓库

Maven如何手动添加依赖的jar文件到本地Maven仓库
  Apache Maven,是一个软件(特别是Java软件)项目管理及自动构建工具,由Apache软件基金会所提供。基于项目对象模型(缩写:POM)概念,Maven利用一个中央信息片断能管理一个项目的构建、报告和文档等步骤。曾是Jakarta项目的子项目,现为独立Apache项目。  大家肯定遇到过想在pom文件中加入自己开发的依赖包,这些包肯定是

w397090770   11年前 (2013-08-02) 39352℃ 0评论19喜欢

Presto

Learning and Operating Presto 预览版下载

Learning and Operating Presto 预览版下载
由 Ahana 工程师 Vivek Bharathan、David E. Simmen 以及 George Wang 编写的《Learning and Operating Presto》图书计划在2021年11月发布,不过预览版已经可以下载了。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop图书描述Presto 社区自2012年诞生于 Facebook 后迅速发展起来。但是,即使对最有经验的工程师来说

w397090770   3年前 (2021-01-21) 449℃ 0评论1喜欢

Spark

Spark Streaming作业提交源码分析接收数据篇

Spark Streaming作业提交源码分析接收数据篇
  《Spark Streaming作业提交源码分析接收数据篇》、《Spark Streaming作业提交源码分析数据处理篇》  最近一段时间在使用Spark Streaming,里面遇到很多问题,只知道参照官方文档写,不理解其中的原理,于是抽了一点时间研究了一下Spark Streaming作业提交的全过程,包括从外部数据源接收数据,分块,拆分Job,提交作业全过程。

w397090770   9年前 (2015-04-28) 9172℃ 2评论9喜欢

算法

给定a和n,计算a+aa+aaa+a...a(n个a)的和(大数据处理)

给定a和n,计算a+aa+aaa+a...a(n个a)的和(大数据处理)
题目描述:给定a和n,计算a+aa+aaa+a...a(n个a)的和。输入:测试数据有多组,输入a,n(1<=a<=9,1<=n<=100)。输出:对于每组输入,请输出结果。样例输入:1 10样例输出:1234567900从题中就可以看出,当a = 9, n = 100的时候,一个int类型的数是存不下100位的数,所以不能运用平常的方法来求,下面介绍我的解法,我声明

w397090770   11年前 (2013-03-31) 4096℃ 0评论1喜欢

网络编程

Web数据挖掘

Web数据挖掘
Web挖掘的目标是从Web的超链接结构、网页内容和使用日志中探寻有用的信息。虽然Web挖掘使用了许多数据挖掘技术,但它不仅仅是传统数据挖掘的一个简单的应用。在过去的20年中,许多新的挖掘任务和算法被相继提出。依据在挖掘过程中使用的数据类别,Web挖掘任务可以分为三种类型:Web结构挖掘、Web内容挖掘和Web使用挖掘。

w397090770   11年前 (2013-04-29) 4177℃ 0评论7喜欢

Hadoop

HDFS ls命令按照时间排序(sort by time)

HDFS ls命令按照时间排序(sort by time)
  我们在使用HDFS Shell的时候只用最频繁的命令可能就是 ls 了,其具体含义我就不介绍了。在使用 ls 的命令时,我们可能想对展示出来的文件按照修改时间排序,也就是最近修改的文件(most recent)显示在最前面。如果你使用的是Hadoop 2.8.0以下版本,内置是不支持按照时间等属性排序的。不过值得高兴的是,我们可以结合Shell命令来

w397090770   7年前 (2017-02-18) 12250℃ 0评论9喜欢

Akka

Akka学习笔记:Actor生命周期

Akka学习笔记:Actor生命周期
  Akka学习笔记系列文章:  《Akka学习笔记:ACTORS介绍》  《Akka学习笔记:Actor消息传递(1)》  《Akka学习笔记:Actor消息传递(2)》    《Akka学习笔记:日志》  《Akka学习笔记:测试Actors》  《Akka学习笔记:Actor消息处理-请求和响应(1) 》  《Akka学习笔记:Actor消息处理-请求和响应(2) 》  《Akka学

w397090770   9年前 (2014-12-12) 10037℃ 1评论5喜欢

Spark

Spark三种属性配置方式详细说明

Spark三种属性配置方式详细说明
随着Spark项目的逐渐成熟, 越来越多的可配置参数被添加到Spark中来。在Spark中提供了三个地方用于配置:Spark properties:这个可以控制应用程序的绝大部分属性。并且可以通过 SparkConf 对象或者Java 系统属性进行设置;环境变量(Environment variables):这个可以分别对每台机器进行相应的设置,比如IP。这个可以在每台机器的 $SPARK_HOME/co

w397090770   10年前 (2014-09-24) 56981℃ 1评论22喜欢

Spark

.NET for Apache Spark 预览版正式发布

.NET for Apache Spark 预览版正式发布
2019年4月25日,微软的 Rahul Potharaju、Terry Kim 以及 Tyson Condie 在 Spark + AI Summit 2019 会议上为我们带来主题为 《Introducing .NET Bindings for Apache Spark 》的分享,并宣布 .NET for Apache Spark 预览版正式发布。.NET 框架是由微软开发,一个致力于敏捷软件开发、快速应用开发、平台无关性和网络透明化的免费软件框架,用于构建许多不同类型的

w397090770   5年前 (2019-04-28) 15218℃ 0评论4喜欢

Docker

[电子书]Troubleshooting Docker PDF下载

[电子书]Troubleshooting Docker PDF下载
  本书由Vaibhav Kohli, Rajdeep Dua, John Wooten所著,全书共290页;Packt Publishing出版社于2017年03月出版。通过本书你将学习到以下的知识:  1、Install Docker ecosystem tools and services, Microservices and N-tier applications  2、Create re-usable, portable containers with help of automation tools  3、Network and inter-link containers  4、Attach volumes securely to containe

zz~~   7年前 (2017-04-05) 1785℃ 2评论7喜欢

Spark

Spark Summit North America 202006 高清 PPT 下载

Spark Summit North America 202006 高清 PPT 下载
为期五天的 Spark Summit North America 2020在美国时间 2020-06-22 ~ 06-26 举行。由于今年新冠肺炎的影响,本次会议第一次以线上的形式进行。这次会议虽然是五天,但是前两天是培训,后面三天才是正式会议。本次会议一共有超过210个议题,一如既往,主题也主要是 Spark + AI,在 AI 方面会议还深入讨论一些流行的软件框架,如 Delta Lake、MLflo

w397090770   4年前 (2020-07-04) 1763℃ 0评论2喜欢

Flink

Flink SQL 在快手的扩展与实践

Flink SQL 在快手的扩展与实践
摘要:本文整理自快手实时计算团队技术专家张静、张芒在 Flink Forward Asia 2021 的分享。主要内容包括: Flink SQL 在快手功能扩展性能优化稳定性提升未来展望 一、Flink SQL 在快手 经过一年多的推广,快手内部用户对 Flink SQL 的认可度逐渐提高,今年新增的 Flink 作业中,SQL 作业达到了 60%,与去年相比有了一倍的提升,峰值吞吐

w397090770   2年前 (2022-02-18) 860℃ 0评论1喜欢

Kafka

Kafka+Spark Streaming+Redis实时系统实践

Kafka+Spark Streaming+Redis实时系统实践
  基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming、Spark SQL、MLlib、GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里,我们基于1.3.0版本的Spark搭建了计算平台,实现基于Spark Streaming的实时

w397090770   9年前 (2015-05-30) 37299℃ 2评论76喜欢

Mysql

Spark RDD写入RMDB(Mysql)方法二

Spark RDD写入RMDB(Mysql)方法二
  在本博客的《Spark将计算结果写入到Mysql中》文章介绍了如果将Spark计算后的RDD最终 写入到Mysql等关系型数据库中,但是这些写操作都是自己实现的,弄起来有点麻烦。不过值得高兴的是,前几天发布的Spark 1.3.0已经内置了读写关系型数据库的方法,我们可以直接在代码里面调用。  Spark 1.3.0中对数据库写操作是通过DataFrame类

w397090770   9年前 (2015-03-17) 13485℃ 6评论16喜欢

Data + AI Summit

Data + AI Summit 2022 PPT 下载

Data + AI Summit 2022 PPT 下载
Data + AI Summit 2022 于2022年06月27日至30日举行。本次会议是在旧金山进行,中国的小伙伴是可以在线收听的,一共为期四天,第一天是培训,后面几天才是正式会议。本次会议有超过200个议题,演讲嘉宾包括业界、研究和学术界的专家,本次会议主要分为六大块:数据分析, BI 以及可视化:了解最新的数据分析、BI 和可视化技术以及

w397090770   2年前 (2022-07-20) 1108℃ 0评论1喜欢

Spark

Apache Spark 1.5重要的修改和Bug修复

Apache Spark 1.5重要的修改和Bug修复
  Apache Spark 1.5版本目前正在社区投票中,相信到9月初应该会发布。这里先剧透一下Apache Spark 1.5版本的一些重要的修改和Bug修复。Apache Spark 1.5有来自220多位贡献者的1000多个commits。这里仅仅是列出重要的修改和Bug修复,详细的还请参见Apache JIRA changelog.如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:itebl

w397090770   9年前 (2015-08-26) 2854℃ 0评论6喜欢

Apache Ambari

Apache 董事会即将终止 Apache Ambari 项目

Apache 董事会即将终止 Apache Ambari 项目
2022年01月10日,来自 Cloudera 的工程师、Apache Ambari PMC 主席 Jayush Luniya 给 Ambari 社区发送了一封名为《[VOTE] Move Apache Ambari to Attic》的邮件:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据邮件内容显示,在过去的两年里,Ambari 只发布了一个版本(2.7.6),大多数提交者(Committer)和 PMC 成员

w397090770   2年前 (2022-01-16) 309℃ 0评论1喜欢

Apache Iceberg

Apache Iceberg 小文件合并原理及实践

Apache Iceberg 小文件合并原理及实践
在 《一条数据在 Apache Iceberg 之旅:写过程分析》 这篇文章中我们分析了 Apache Iceberg 写数据的源码。如下是我们使用 Spark 写两次数据到 Iceberg 表的数据目录布局(测试代码在 这里):[code lang="bash"]/data/hive/warehouse/default.db/iteblog├── data│   └── ts_year=2020│   ├── id_bucket=0│   │   ├── 00000-0-19603f5a-d38a

w397090770   3年前 (2020-11-20) 6113℃ 6评论8喜欢

hudi

恭喜,Apache Hudi 即将成为顶级项目

恭喜,Apache Hudi 即将成为顶级项目
美国当地时间2020年05月11日,Apache Hudi 项目的共同创始人、PMC Vinoth Chandar 给社区发了一封标题为 [DISCUSS] Graduate Apache Hudi (Incubating) as a TLP 的邮件,来投票讨论 Apache Hudi 毕业成为 Apache TLP 项目。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop2020年05月19日共40人投票赞成 。不久社区给 Apache 董事

w397090770   4年前 (2020-05-22) 1068℃ 0评论1喜欢

Presto

Presto 在字节跳动的实践

Presto 在字节跳动的实践
本文资料来自2021年12月09日举办的 PrestoCon 2021,议题为《Presto at Bytedance》,分享者常鹏飞,字节跳动软件工程师。Presto 在字节跳动中得到了广泛的应用,如数据仓库、BI工具、广告等。与此同时,字节跳动的 presto 团队也提供了许多重要的特性和优化,如 Hive UDF Wrapper、多个协调器、运行时过滤器等,扩展了 presto

w397090770   2年前 (2021-12-14) 581℃ 0评论1喜欢

Spark

Spark 1.6.1正式发布

Spark 1.6.1正式发布
  Spark 1.6.1于2016年3月11日正式发布,此版本主要是维护版本,主要涉及稳定性修复,并不涉及到大的修改。推荐所有使用1.6.0的用户升级到此版本。  Spark 1.6.1主要修复的bug包括:  1、当写入数据到含有大量分区表时出现的OOM:SPARK-12546  2、实验性Dataset API的许多bug修复:SPARK-12478, SPARK-12696, SPARK-13101, SPARK-12932  

w397090770   8年前 (2016-03-11) 3816℃ 0评论5喜欢

Hive

Apache Hive 1.2.0正式发布

Apache Hive 1.2.0正式发布
  Apache Hive 1.2.0于美国时间2015年05月18日正式发布,其中修复了大量大Bug,完整邮件内容如下:如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoopThe Apache Hive team is proud to announce the the release of Apache Hive version 1.2.0.The Apache Hive (TM) data warehouse software facilitates querying and managing large datasets residin

w397090770   9年前 (2015-05-19) 5388℃ 0评论4喜欢

wordpress开发

网站升级到HTTPS后如何使用百度分享

网站升级到HTTPS后如何使用百度分享
  相信很多网站为了方便使用了百度分享工具,但是官方提供的类库只支持HTTP方式来访问,如果你网站升级成HTTPS之后,将无法使用百度分享。不过大家别担心,本文就是来教大家解决这个问题的。  原理很简单,下载本文下面提供的包(static.tgz),然后放到你网站的根目录,这些文件其实就是从百度分享网站下载下来的,如

w397090770   7年前 (2016-12-31) 2839℃ 0评论8喜欢

Hive

Hive:CSV Serde介绍以使用

Hive:CSV Serde介绍以使用
  CSV格式的文件也称为逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号。在本文中的CSV格式的数据就不是简单的逗号分割的),其文件以纯文本形式存储表格数据(数字和文本)。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字

w397090770   9年前 (2015-01-26) 9515℃ 0评论12喜欢

Hadoop

通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]

通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]
在第一次建立Hbase表的时候,我们可能需要往里面一次性导入大量的初始化数据。我们很自然地想到将数据一条条插入到Hbase中,或者通过MR方式等。但是这些方式不是慢就是在导入的过程的占用Region资源导致效率低下,所以很不适合一次性导入大量数据。本文将针对这个问题介绍如何通过Hbase的BulkLoad方法来快速将海量数据导入到Hbas

w397090770   7年前 (2016-11-28) 17596℃ 2评论52喜欢

Spark

Apache Spark SQL 参数介绍

Apache Spark SQL 参数介绍
我们可以在初始化 SparkSession 的时候进行一些设置:[code lang="scala"]import org.apache.spark.sql.SparkSessionval spark: SparkSession = SparkSession.builder .master("local[*]") .appName("My Spark Application") .config("spark.sql.warehouse.dir", "c:/Temp") (1) .getOrCreateSets spark.sql.warehouse.dir for the Spark SQL session[/code]也可以使用 SQL SET

w397090770   4年前 (2020-09-09) 3101℃ 0评论2喜欢

Spark

Apache Spark 1.5新特性介绍

Apache Spark 1.5新特性介绍
  Apache Spark社区刚刚发布了1.5版本,大家一定想知道这个版本的主要变化,这篇文章告诉你答案。DataFrame执行后端优化(Tungsten第一阶段)  DataFrame可以说是整个Spark项目最核心的部分,在1.5这个开发周期内最大的变化就是Tungsten项目的第一阶段已经完成。主要的变化是由Spark自己来管理内存而不是使用JVM,这样可以避免JVM

w397090770   9年前 (2015-09-09) 4770℃ 0评论14喜欢