欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

常用工具

在 Shell 中下载 ftp 文件的几种方法

在 Shell 中下载 ftp 文件的几种方法
FTP 是 File Transfer Protocol(文件传输协议)的英文简称,而中文简称为“文传协议”。用于 Internet 上的控制文件的双向传输。同时,它也是一个应用程序(Application)。基于不同的操作系统有不同的 FTP 应用程序,而所有这些应用程序都遵守同一种协议以传输文件。在 FTP 的使用当中,用户经常遇到两个概念:下载(Download)和上传(Up

w397090770   6年前 (2018-05-23) 5040℃ 0评论7喜欢

Deep Learning

2017年关于深度学习的十大趋势预测

2017年关于深度学习的十大趋势预测
  Carlos E. Perez对深度学习的2017年十大预测,让我们不妨看一看。有兴趣的话,可以在一年之后回顾这篇文章,看看这十大预测有多少准确命中硬件将加速一倍摩尔定律(即2017年2倍)  如果你跟踪Nvidia和Intel的发展,这当然是显而易见的。Nvidia将在整个2017年占据主导地位,只因为他们拥有最丰富的深度学习生态系统。没有头

w397090770   7年前 (2016-12-13) 2145℃ 0评论3喜欢

机器学习

机器学习中常用的距离公式

机器学习中常用的距离公式
在计算机人工智能领域,距离(distance)、相似度(similarity)是经常出现的基本概念,它们在自然语言处理、计算机视觉等子领域有重要的应用,而这些概念又大多源于数学领域的度量(metric)、测度(measure)等概念。 曼哈顿距离曼哈顿距离又称计程车几何距离或方格线距离,是由十九世纪的赫尔曼·闵可夫斯基所创词汇 ,为欧几里得几

w397090770   6年前 (2018-01-14) 6511℃ 0评论27喜欢

Spark

Airbnb 是如何通过 balanced Kafka reader 来扩展 Spark streaming 实时流处理能力的

Airbnb 是如何通过 balanced Kafka reader 来扩展 Spark streaming 实时流处理能力的
Airbnb 日志事件获取日志事件从客户端(例如移动应用程序和 Web 浏览器)和在线服务发出,其中包含行为或操作的关键信息。每个事件都有一个特定的信息。例如,当客人在 Airbnb.com 上搜索马里布的海滨别墅时,将生成包含位置,登记和结账日期等的搜索事件。在 Airbnb,事件记录对于我们理解客人和房东,然后为他们提供更

w397090770   5年前 (2019-05-19) 2834℃ 0评论8喜欢

Spark

2014 Spark亚太峰会会议资料下载

2014 Spark亚太峰会会议资料下载
  2014 Spark亚太峰会12月6日在北京珠三角万豪酒店圆满收官,来自易观国际、Intel 、亚信科技、TalkingData、Spark亚太研究院、百度、京东、携程、IBM、星环科技、南京大学、洞庭国际智能硬件检测基地、 AdMaster、Docker中文社区、安徽象形科技的十八位演讲嘉宾为来自国内近305家企业,800多位一线开发者,带来了最干货的分享及一手的

w397090770   9年前 (2014-12-18) 29247℃ 251评论34喜欢

Spark

Spark Structured Streaming入门编程指南

Spark Structured Streaming入门编程指南
概览  Structured Streaming 是一个可拓展,容错的,基于Spark SQL执行引擎的流处理引擎。使用小量的静态数据模拟流处理。伴随流数据的到来,Spark SQL引擎会逐渐连续处理数据并且更新结果到最终的Table中。你可以在Spark SQL上引擎上使用DataSet/DataFrame API处理流数据的聚集,事件窗口,和流与批次的连接操作等。最后Structured Streaming

zz~~   7年前 (2017-03-22) 10709℃ 2评论11喜欢

资料分享

推荐几个国内访问比较快的Maven仓库镜像

推荐几个国内访问比较快的Maven仓库镜像
想必大家在使用Maven从仓库下载Jar的时候都感觉速度非常慢吧。前几年国内的开源中国还提供了免费的Maven镜像,但是由于运营成本过高,此Maven仓库在运营两年后被迫关闭了。不过高兴的是,阿里云在2016年08月悄悄上线了Maven仓库,点这里:http://maven.aliyun.com。我们可以把下面的配置复制到$MAVEN_HOME/conf/setting.xml里面:如果想及时

w397090770   7年前 (2017-02-16) 18204℃ 1评论6喜欢

Spark

Spark函数讲解:cogroup

Spark函数讲解:cogroup
  将多个RDD中同一个Key对应的Value组合到一起。函数原型[code lang="scala"]def cogroup[W1, W2, W3](other1: RDD[(K, W1)], other2: RDD[(K, W2)], other3: RDD[(K, W3)], partitioner: Partitioner) : RDD[(K, (Iterable[V], Iterable[W1], Iterable[W2], Iterable[W3]))] def cogroup[W1, W2, W3](other1: RDD[(K, W1)], other2: RDD[(K, W2)], other3: RDD[(K, W3)], numPartitions: Int) : RDD[(K

w397090770   9年前 (2015-03-10) 17396℃ 0评论17喜欢

Spark

Spark函数讲解:checkpoint

Spark函数讲解:checkpoint
  为当前RDD设置检查点。该函数将会创建一个二进制的文件,并存储到checkpoint目录中,该目录是用SparkContext.setCheckpointDir()设置的。在checkpoint的过程中,该RDD的所有依赖于父RDD中的信息将全部被移出。对RDD进行checkpoint操作并不会马上被执行,必须执行Action操作才能触发。函数原型[code lang="scala"]def checkpoint()[/code]实例

w397090770   9年前 (2015-03-08) 60506℃ 0评论7喜欢

算法

用01背包解决石子归并问题

用01背包解决石子归并问题
题目:有一堆石头质量分别为W1,W2,W3...WN.(W<=100000)现在需要你将石头合并为两堆,使两堆质量的差为最小。这道题目可以用01背包问题来解决。即求出和最接近sum/2的一个子集 令f(i, j)表示前i个元素中和最接近j的子集的和(有点绕),则有: f(i, j) = max( f(i-1, j), f(i-1, j-a[i])+a[i] ) ,其中a数组是用来存储所有石头的质量的。源

w397090770   11年前 (2013-03-31) 3169℃ 0评论2喜欢

Flume

Hadoop等大数据学习相关电子书[共85本]

Hadoop等大数据学习相关电子书[共85本]
  下面的大数据学习电子书我会陆续上传,敬请关注。一、Hadoop1、Hadoop Application Architectures2、Hadoop: The Definitive Guide, 4th Edition3、Hadoop Security Protecting Your Big Data Platform4、Field Guide to Hadoop An Introduction to Hadoop, Its Ecosystem, and Aligned Technologies5、Hadoop Operations A Guide for Developers and Administrators6、Hadoop Backup and Recovery Solutions

w397090770   9年前 (2015-08-11) 20337℃ 2评论54喜欢

Spark

Apache Spark 自定义优化规则:Custom Optimizer Rule

Apache Spark 自定义优化规则:Custom Optimizer Rule
在 《Apache Spark 自定义优化规则:Custom Strategy》 文章中我们介绍了如何自定义策略,策略是用在逻辑计划转换到物理计划阶段。而本文将介绍如何自定义逻辑计划优化规则,主要用于优化逻辑计划,和前文不一样的地方是,逻辑优化规则只是等价变换逻辑计划,也就是 Logic Plan -> Login Plan,这个是在应用策略前进行的。如果想及时

w397090770   4年前 (2020-08-07) 1118℃ 0评论2喜欢

Delta Lake

深入理解 Delta Lake:Schema Enforcement & Evolution

深入理解 Delta Lake:Schema Enforcement & Evolution
在实践经验中,我们知道数据总是在不断演变和增长,我们对于这个世界的心智模型必须要适应新的数据,甚至要应对我们从前未知的知识维度。表的 schema 其实和这种心智模型并没什么不同,需要定义如何对新的信息进行分类和处理。这就涉及到 schema 管理的问题,随着业务问题和需求的不断演进,数据结构也会不断发生变化。

w397090770   4年前 (2020-09-12) 534℃ 0评论0喜欢

其他

微信公众号开发者模式自动回复图片

微信公众号开发者模式自动回复图片
微信公众号开发者模式可以支持自动回复回复文本、图片、图文、语音、视频以及音乐(参见 被动回复用户消息),下面是回复图片消息的返回结果格式:[code lang="xml"]<xml> <ToUserName><![CDATA[toUser]]></ToUserName> <FromUserName><![CDATA[fromUser]]></FromUserName> <CreateTime>12345678</CreateTime> <MsgType>

w397090770   4年前 (2020-08-04) 630℃ 0评论1喜欢

机器学习

来自RISELab实验室解决机器学习新的大数据工具

来自RISELab实验室解决机器学习新的大数据工具
大家对加州大学伯克利分校的AMPLab可能不太熟悉,但是它的项目我们都有所耳闻——没错,它就是Spark和Mesos的诞生之地。AMPLab是加州大学伯克利分校一个为期五年的计算机研究计划,其初衷是为了理解机器和人如何合作处理和解决数据中的问题——使用数据去训练更加丰富的模型,有效的数据清理,以及进行可衡量的数据扩展。

w397090770   7年前 (2017-02-09) 1289℃ 0评论3喜欢

Java

[电子书]Apache Spark 2.x for Java Developers PDF下载

[电子书]Apache Spark 2.x for Java Developers PDF下载
本书于2017-07由Packt Publishing出版,作者Sourav Gulati, Sumit Kumar,全书662页。关注大数据猿(bigdata_ai)公众号及时获取最新大数据相关电子书、资讯等通过本书你将学到以下知识Process data using different file formats such as XML, JSON, CSV, and plain and delimited text, using the Spark core Library.Perform analytics on data from various data sources such as Kafka, and Flume

zz~~   7年前 (2017-08-22) 6431℃ 0评论27喜欢

Spark

Spark性能优化:开发调优篇

Spark性能优化:开发调优篇
《Spark性能优化:开发调优篇》《Spark性能优化:资源调优篇》《Spark性能优化:数据倾斜调优》《Spark性能优化:shuffle调优》  在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计

w397090770   8年前 (2016-05-04) 16730℃ 3评论45喜欢

Kafka

Kafka in Action 下载

Kafka in Action 下载
《Kafka in Action》于 2022年01月由 Manning 出版, ISBN 为 9781617295232 ,全书 272 页。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop图书介绍作者有多年使用 Kafka 的真实世界的经验,这本书的实地感觉真的让它与众不同。---- From the foreword by Jun Rao, Confluent CofounderMaster the wicked-fast Apache Kafka streaming

w397090770   2年前 (2022-03-02) 466℃ 0评论2喜欢

Spark

[电子书]Learning Real-time Processing with Spark Streaming PDF下载

[电子书]Learning Real-time Processing with Spark Streaming PDF下载
  通过使用易于理解的实例,本书将教你如何使用Spark Streaming构建实时应用程序。从安装和设置所需的环境开始,您将编写并执行第一个程序Spark Streaming。接下来将探讨Spark Streaming的架构和组件以及概述Spark公开的库/函数的。接下来,您将通过处理分布式日志文件的用例来了解有关Spark中的各种客户端API编码。然后,您将学习到各

w397090770   7年前 (2017-02-12) 3079℃ 0评论6喜欢

Presto

Presto 在字节跳动的应用

Presto 在字节跳动的应用
本资料来自2021年12月09日举办的 PrestoCon 2021,标题为《Presto at Bytedance》Presto 在字节跳动中得到了广泛的应用,如数据仓库、BI工具、广告等。与此同时,字节跳动的 presto 团队也提供了许多重要的特性和优化,如 Hive UDF Wrapper、多个协调器、运行时过滤器等,扩展了 presto 的用法,增强了 presto 的稳定性。下面是字节跳动目前 Presto

w397090770   2年前 (2021-12-08) 358℃ 0评论0喜欢

hudi

Apache Hudi 0.8.0 版本发布,Flink 集成有重大提升以及支持并行写

Apache Hudi 0.8.0 版本发布,Flink 集成有重大提升以及支持并行写
迁移指南如果从 0.5.3 以下版本迁移,请检查这个版本后面的其他版本的升级说明。如果需要升级到 0.8 版本,请参阅 0.6.0 版本的升级指南,因为本版本没有引入新的表版本(table versions)HoodieRecordPayload接口不建议使用现有方法,而推荐使用新方法,该方法还允许我们在运行时传递属性。 鼓励用户从不建议使用的方法中迁移

w397090770   3年前 (2021-04-14) 842℃ 0评论2喜欢

Hadoop

Hadoop2.2.0完全分布式集群平台安装与设置

Hadoop2.2.0完全分布式集群平台安装与设置
  如果你想搭建伪分布式Hadoop平台,请参见本博客《在Fedora上部署Hadoop2.2.0伪分布式平台》  经过好多天的各种折腾,终于在几台电脑里面配置好了Hadoop2.2.0分布式系统,现在总结一下如何配置。  前提条件:  (1)、首先在每台Linux电脑上面安装好JDK6或其以上版本,并设置好JAVA_HOME等,测试一下java、javac、jps等命令

w397090770   11年前 (2013-11-06) 21221℃ 6评论27喜欢

Delta Lake

Spark Delta Lake 0.4.0 发布,支持 Python API 和部分 SQL

Spark Delta Lake 0.4.0 发布,支持 Python API 和部分 SQL
​Apache Spark 发布了 Delta Lake 0.4.0,主要支持 DML 的 Python API、将 Parquet 表转换成 Delta Lake 表 以及部分 SQL 功能。 如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop下面详细地介绍这些功能部分功能的 SQL 支持SQL 的支持能够为用户提供极大的便利,如果大家去看数砖的 Delta Lake 产品,你肯定已

w397090770   5年前 (2019-10-01) 1246℃ 0评论4喜欢

HBase

HBase 读流程解析与优化的最佳实践

HBase 读流程解析与优化的最佳实践
本文首先对 HBase 做简单的介绍,包括其整体架构、依赖组件、核心服务类的相关解析。再重点介绍 HBase 读取数据的流程分析,并根据此流程介绍如何在客户端以及服务端优化性能,同时结合有赞线上 HBase 集群的实际应用情况,将理论和实践结合,希望能给读者带来启发。如文章有纰漏请在下面留言,我们共同探讨共同学习。HBas

w397090770   5年前 (2019-02-20) 5092℃ 0评论10喜欢

Apache Kudu

Apache Kudu在网易的实践

Apache Kudu在网易的实践
本次的分享内容分成四个部分:系统概述:认识kudu,理解Kudu的系统设计与定位生产实践:分享网易内部的典型使用场景遇到的问题:实际使用过程中遇到的问题和问题的排障过程功能展望:对Kudu功能特性的展望Kudu定位与架构Kudu是一个存储引擎,可以接入Impala、Presto、Spark等Olap计算引擎进行数据分析,容易融入Hadoop社区

w397090770   3年前 (2021-07-17) 209℃ 0评论1喜欢

Spark meetup

上海Spark Meetup第十一次聚会

上海Spark Meetup第十一次聚会
  Shanghai Apache Spark Meetup第十一次聚会,将于12月10日,举办于上海大连路688号宝地广场22楼小沃科技活动场地。靠近地铁4号线和12号线的大连路站。本次会议得到中国联通小沃科技的大力支持。欢迎大家前来参加!会议主题1、演讲主题:《Spark Streaming构建实时系统介绍》 演讲嘉宾:程然,小沃科技高级架构师,开源爱好者

w397090770   7年前 (2016-12-01) 1822℃ 0评论5喜欢

CPP编程

atoi和itoa函数实现

atoi和itoa函数实现
atoi函数是C语言库提供的,是把字符串转换成整型数和把字符串转换成整型数。而itoa函数是广泛应用的非标准C语言扩展函数,由于它不是标准C语言函数,所以不能在所有的编译器中使用,它的功能是把一整数转换为字符串。两个函数功能很好理解,但是它们的实现需要考虑到很多问题,在面试中,很多面试官都会问atoi和itoa的实现

w397090770   11年前 (2013-04-05) 16953℃ 3评论1喜欢

Hadoop

Spark和Hadoop优劣

Spark和Hadoop优劣
  Spark已经取代Hadoop成为最活跃的开源大数据项目。但是,在选择大数据框架时,企业不能因此就厚此薄彼。近日,著名大数据专家Bernard Marr在一篇文章(http://www.forbes.com/sites/bernardmarr/2015/06/22/spark-or-hadoop-which-is-the-best-big-data-framework/)中分析了Spark和Hadoop的异同。  Hadoop和Spark均是大数据框架,都提供了一些执行常见大数据任务

w397090770   8年前 (2015-12-01) 9442℃ 0评论31喜欢

Linux

Ubuntu在命令行里面更新系统

Ubuntu在命令行里面更新系统
版本升级[code lang="bash"]//更新软件源,最后会读取软件包列表sudo apt-get update sudo update-manager -c -d[/code]然后选择 upgrade普通升级[code lang="bash"]sudo apt-get updatesudo apt-get upgrade[/code]升级单一软件[code lang="bash"]sudo apt-get updatesudo apt-get upgrade package_name_your_want_to_upgrade[/code]全部升级[code lang="bash"]//更新所

w397090770   11年前 (2013-07-03) 18673℃ 0评论1喜欢

Hadoop

传智播客Hadoop课程视频资料[共七天]

传智播客Hadoop课程视频资料[共七天]
本博客分享的其他视频下载地址:《传智播客Hadoop实战视频下载地址[共14集]》、《传智播客Hadoop课程视频资料[共七天]》、《Hadoop入门视频分享[共44集]》、《Hadoop大数据零基础实战培训教程下载》、《Hadoop2.x 深入浅出企业级应用实战视频下载》、《Hadoop新手入门视频百度网盘下载[全十集]》本博客收集到的Hadoop学习书籍分享地

w397090770   10年前 (2014-02-14) 202495℃ 5评论421喜欢