欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

Hadoop

传智播客Hadoop课程视频资料[共七天]

传智播客Hadoop课程视频资料[共七天]
本博客分享的其他视频下载地址:《传智播客Hadoop实战视频下载地址[共14集]》、《传智播客Hadoop课程视频资料[共七天]》、《Hadoop入门视频分享[共44集]》、《Hadoop大数据零基础实战培训教程下载》、《Hadoop2.x 深入浅出企业级应用实战视频下载》、《Hadoop新手入门视频百度网盘下载[全十集]》本博客收集到的Hadoop学习书籍分享地

w397090770   10年前 (2014-02-14) 202495℃ 5评论421喜欢

资料分享

IntelliJ IDEA 15激活码(破解)

IntelliJ IDEA 15激活码(破解)
本 IntelliJ IDEA 激活方式已经失效,请购买正版 IntelliJ IDEA 或者下载 免费的 IntelliJ IDEA 社区版  最近发布的idea 15带来了很多的新特性,想必大家都非常想使用这个版本。但是遗憾的是,该版本的注册方式和之前版本不一样,只能通过联网激活。本文将提供的方法可以完美地破解idea 15的联网注册问题。破解步骤如下:  1

w397090770   8年前 (2015-12-04) 815090℃ 89评论1075喜欢

ElasticSearch

[电子书]Mastering Elasticsearch 5.x - Third Edition PDF下载

[电子书]Mastering Elasticsearch 5.x - Third Edition PDF下载
  本书将为您简要介绍ElasticSearch的基础知识以及Elasticsearch 5的新功能。通过本书将学习到Elasticsearch的基本功能和高级功能,例如查询,索引,搜索和修改数据。本书还介绍了一些高级知识,包括聚合,索引控制,分片,复制和聚类。中间部分介绍了ElasticSearch集群相关的知识,包括备份、监控、恢复等。读完本书,您将掌握Elastics

zz~~   7年前 (2017-02-28) 4930℃ 0评论13喜欢

算法

C++函数前和函数后加const修饰符区别

C++函数前和函数后加const修饰符区别
c++中关于const的用法有很多,const既可以修饰变量,也可以函数,不同的环境下,是有不同的含义。今天来讲讲const加在函数前和函数后面的区别。比如:[code lang="CPP"]#include<iostream>using namespace std;// Ahthor: 过往记忆// E-mail: wyphao.2007@163.com// Blog: // 转载请注明出处class TestClass {public: size_t length() const; const char* ge

w397090770   11年前 (2013-04-05) 24873℃ 1评论55喜欢

Spark

Apache Spark 3.0 将内置支持 GPU 调度

Apache Spark 3.0 将内置支持 GPU 调度
如今大数据和机器学习已经有了很大的结合,在机器学习里面,因为计算迭代的时间可能会很长,开发人员一般会选择使用 GPU、FPGA 或 TPU 来加速计算。在 Apache Hadoop 3.1 版本里面已经开始内置原生支持 GPU 和 FPGA 了。作为通用计算引擎的 Spark 肯定也不甘落后,来自 Databricks、NVIDIA、Google 以及阿里巴巴的工程师们正在为 Apache Spark 添加

w397090770   5年前 (2019-03-10) 6413℃ 0评论9喜欢

资料分享

2016中国架构师大会大数据专场PPT下载

2016中国架构师大会大数据专场PPT下载
2016中国架构师大会大数据专场于10月27日在京进行,大数据专场有来自搜狐、优酷介绍其视频个性化推荐架构设计;也有来自饿了么的实时架构演变;有来自Qunar、宜信以及广发证券再金融中应用大数据的架构设计;也有华为CarbonData的介绍,干货十足!值得一看。主要涉及如下主题: 10月27

w397090770   8年前 (2016-11-03) 4623℃ 0评论9喜欢

Akka

Akka学习笔记:Actor生命周期

Akka学习笔记:Actor生命周期
  Akka学习笔记系列文章:  《Akka学习笔记:ACTORS介绍》  《Akka学习笔记:Actor消息传递(1)》  《Akka学习笔记:Actor消息传递(2)》    《Akka学习笔记:日志》  《Akka学习笔记:测试Actors》  《Akka学习笔记:Actor消息处理-请求和响应(1) 》  《Akka学习笔记:Actor消息处理-请求和响应(2) 》  《Akka学

w397090770   9年前 (2014-12-12) 10037℃ 1评论5喜欢

nginx

Nginx:504 Gateway Time-out解决

Nginx:504 Gateway Time-out解决
  如果你使用Nginx web server,你可能在访问你网站的时候出现了504 Gateway Time-out错误,这个错误代码很常见,这可能是因为超过了PHP的最大执行时间的限制或者是FastCGI读超时。这篇文章将向大家展示如何解决Nginx的504 gateway timeout的问题。一、修改php.ini文件  下面都是以CentOS服务器为例进行介绍,如果你是CentOS,那么可以直

w397090770   9年前 (2015-08-18) 19688℃ 2评论16喜欢

Spark

Spark Structured Streaming入门编程指南

Spark Structured Streaming入门编程指南
概览  Structured Streaming 是一个可拓展,容错的,基于Spark SQL执行引擎的流处理引擎。使用小量的静态数据模拟流处理。伴随流数据的到来,Spark SQL引擎会逐渐连续处理数据并且更新结果到最终的Table中。你可以在Spark SQL上引擎上使用DataSet/DataFrame API处理流数据的聚集,事件窗口,和流与批次的连接操作等。最后Structured Streaming

zz~~   7年前 (2017-03-22) 10710℃ 2评论11喜欢

Alluxio

使用 Shadow Cache 改进 Presto 架构决策在 Facebook 的实践

使用 Shadow Cache 改进 Presto 架构决策在 Facebook 的实践
本文是 2021-10-13 日周三下午13:30 举办的议题为《Improve Presto Architectural Decisions with Shadow Cache at Facebook》的分享,作者来自 Facebook 的 Ke Wang 和 普林斯顿CS系的 Zhenyu Song。Ke Wang is a software engineer at Facebook. She is currently developing solutions to help low latency queries in Presto at Facebook.Zhenyu Song is a Ph.D. student at Princeton CS Department. He works on using mach

w397090770   2年前 (2021-11-16) 182℃ 0评论0喜欢

Guava

Guava学习之Iterators

Guava学习之Iterators
  Iterators类提供了返回Iterator类型的对象或者对Iterator类型对象操作的方法。除了特别的说明,Iterators类中所有的方法都在Iterables类中有相应的基于Iterable方法对应。  性能说明:除非特别说明,所有在这个类中的迭代器都是懒惰的,这意味着在觉得必要的时候,需要提前得到迭代功能。Iterators类可以通过emptyIterator()方法得到

w397090770   11年前 (2013-09-11) 3873℃ 3评论0喜欢

HBase

通过例子剖析 OpenTSDB 的 Rowkey 及列名设计

通过例子剖析 OpenTSDB 的 Rowkey 及列名设计
通过《OpenTSDB 底层 HBase 的 Rowkey 是如何设计的》 文章我们已经了解 OpenTSDB 底层的 HBase Rowkey 是如何设计的了。我们现在来测试一下 OpenTSDB 导入的时序数据到底长什么样子。在 OpenTSDB 里面默认存时序数据的表为 tsdb。前面说了,每个指标名称、标签名称以及标签值都有唯一的编码,这些编码数据是存放在 tsdb-uid 表里面。为了更加

w397090770   5年前 (2018-11-16) 2955℃ 3评论6喜欢

Spark

Spark源码分析:多种部署方式之间的区别与联系(2)

Spark源码分析:多种部署方式之间的区别与联系(2)
《Spark源码分析:多种部署方式之间的区别与联系(1)》《Spark源码分析:多种部署方式之间的区别与联系(2)》  在《Spark源码分析:多种部署方式之间的区别与联系(1)》我们谈到了SparkContext的初始化过程会做好几件事情(这里就不再列出,可以去《Spark源码分析:多种部署方式之间的区别与联系(1)》查看),其中做了一件重要

w397090770   10年前 (2014-10-28) 7585℃ 6评论8喜欢

CarbonData

Apache CarbonData性能基准报告:查询性能秒杀Parquet

Apache CarbonData性能基准报告:查询性能秒杀Parquet
本文相关测试数据由华为陈亮大神提供,特别感谢。  Apache CarbonData是由华为开发、开源并支持Apache Hadoop的列式存储文件格式,支持索引、压缩以及解编码等,其目的是为了实现同一份数据达到多种需求,而且能够实现更快的交互查询,目前该项目正处于Apache孵化过程中。详细介绍可以参见(《CarbonData:华为开发并支持Hadoop的

w397090770   8年前 (2016-09-11) 8118℃ 1评论7喜欢

Docker

Docker 入门教程:快速开始

Docker 入门教程:快速开始
我们在 《一文了解什么是 Docker》 文章中已经介绍了 Docker 是什么,以及为什么需要 Docker 技术。本文将快速介绍一下如何使用 Docker。安装 DockerDocker 是一个开源的商业产品,支持几乎所有的 Linux 发行版,也支持 Mac 以及 Windows 平台。在各平台上又分为两个版本:免费的社区版(Community Edition,缩写为 CE)和收费的企业版(Enterpri

w397090770   4年前 (2020-02-02) 799℃ 0评论3喜欢

Akka

Akka学习笔记:Actor消息传递(1)

Akka学习笔记:Actor消息传递(1)
Akka学习笔记系列文章:《Akka学习笔记:ACTORS介绍》《Akka学习笔记:Actor消息传递(1)》《Akka学习笔记:Actor消息传递(2)》  《Akka学习笔记:日志》《Akka学习笔记:测试Actors》《Akka学习笔记:Actor消息处理-请求和响应(1) 》《Akka学习笔记:Actor消息处理-请求和响应(2) 》《Akka学习笔记:ActorSystem(配置)》《Akka学习笔记

w397090770   10年前 (2014-10-13) 21895℃ 5评论40喜欢

Spark

Apache Spark 2.4.0 正式发布

Apache Spark 2.4.0 正式发布
Apache Spark 2.4 与昨天正式发布,Apache Spark 2.4 版本是 2.x 系列的第五个版本。 如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoopApache Spark 2.4 为我们带来了众多的主要功能和增强功能,主要如下:新的调度模型(Barrier Scheduling),使用户能够将分布式深度学习训练恰当地嵌入到 Spark 的 stage 中

w397090770   5年前 (2018-11-09) 3254℃ 0评论1喜欢

Spark

Apache Spark 2.0.1稳定版正式发布

Apache Spark 2.0.1稳定版正式发布
今天凌晨(2016-10-05)Apache Spark 2.0.1稳定版正式发布。Apache Spark 2.0.1是一个维护版本,一共处理了300个Issues,推荐所有使用Spark 2.0.0的用户升级到此版本。Apache Spark 2.0为我们带来了许多新的功能: DataFrame和Dataset统一(可以参见《Spark 2.0技术预览:更容易、更快速、更智能》):https://www.iteblog.com/archives/1668.html SparkSession:一个

w397090770   8年前 (2016-10-05) 3137℃ 0评论7喜欢

Spark

Spark 背后的商业公司收购的 Redash 是个啥?

Spark 背后的商业公司收购的 Redash 是个啥?
在2020年6月24日的 Spark AI summit Keynote 上,数砖的首席执行官 Ali Ghodsi 宣布其收购了 Redash 开源产品的背后公司 Redash!如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop通过这次收购,Redash 加入了 Apache Spark、Delta Lake 和 MLflow,创建了一个更大、更繁荣的开源系统,为数据团队提供了同类中最好的

w397090770   4年前 (2020-06-26) 827℃ 0评论3喜欢

Java

Java 中的 jmap 使用介绍

Java 中的 jmap 使用介绍
在安装完 JDK 之后,会自带安装一些常用的小工具,而 jmap 就是其中一个比较常用的。jmap 打印给定进程、core file 或远程调试服务器的共享对象内存映射或堆内存细节。我们可以查看下 jmap 的命令使用:[code lang="bash"]iteblog@iteblog.com:~|⇒ jmapUsage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <co

w397090770   3年前 (2021-08-02) 739℃ 0评论0喜欢

Spark

spark.cleaner.ttl将在Spark 1.4中取消

spark.cleaner.ttl将在Spark 1.4中取消
  spark.cleaner.ttl参数的原意是清除超过这个时间的所有RDD数据,以便腾出空间给后来的RDD使用。周期性清除保证在这个时间之前的元数据会被遗忘,对于那些运行了几小时或者几天的Spark作业(特别是Spark Streaming)设置这个是很有用的。注意:任何内存中的RDD只要过了这个时间就会被清除掉。官方文档是这么介绍的:Duration (secon

w397090770   9年前 (2015-05-20) 8048℃ 0评论7喜欢

Spark

Spark函数讲解:checkpoint

Spark函数讲解:checkpoint
  为当前RDD设置检查点。该函数将会创建一个二进制的文件,并存储到checkpoint目录中,该目录是用SparkContext.setCheckpointDir()设置的。在checkpoint的过程中,该RDD的所有依赖于父RDD中的信息将全部被移出。对RDD进行checkpoint操作并不会马上被执行,必须执行Action操作才能触发。函数原型[code lang="scala"]def checkpoint()[/code]实例

w397090770   9年前 (2015-03-08) 60507℃ 0评论7喜欢

Spark

Spark 3.0 中七个必须知道的 SQL 性能优化

Spark 3.0 中七个必须知道的 SQL 性能优化
​本文来自 IBM 东京研究院的高级技术人员 Kazuaki Ishizaki 博士在 Spark Summit North America 2020 的 《SQL Performance Improvements at a Glance in Apache Spark 3.0》议题的分享,本文视频参见今天的推文第三条​。PPT 请关注过往记忆大数据并后台回复 sparksql3 ​获取。Spark 3.0 正式版在上个月已经发布了,其中更新了很多功能,参见过往记忆大数据的 Ap

w397090770   4年前 (2020-07-08) 2409℃ 0评论3喜欢

Flink

Flink:本地执行(Local Execution)

Flink:本地执行(Local Execution)
  Flink可以在单台机器上运行,甚至是单个Java虚拟机(Java Virtual Machine)。这种机制使得用户可以在本地测试或者调试Flink程序。本节主要概述Flink本地模式的运行机制。  本地环境和执行器(executors)运行你在本地的Java虚拟机上运行Flink程序,或者是在属于正在运行程序的如何Java虚拟机上。对于大部分示例程序而言,你只需简单

w397090770   8年前 (2016-04-27) 16298℃ 0评论19喜欢

Spark

Apache Spark 2.3 重要特性介绍

Apache Spark 2.3 重要特性介绍
本文翻译自:Introducing Apache Spark 2.3为了继续实现 Spark 更快,更轻松,更智能的目标,Spark 2.3 在许多模块都做了重要的更新,比如 Structured Streaming 引入了低延迟的连续处理(continuous processing);支持 stream-to-stream joins;通过改善 pandas UDFs 的性能来提升 PySpark;支持第四种调度引擎 Kubernetes clusters(其他三种分别是自带的独立模式St

w397090770   6年前 (2018-03-01) 7177℃ 3评论32喜欢

Scala

[电子书]Scala and Spark for Big Data Analytics PDF下载

[电子书]Scala and Spark for Big Data Analytics PDF下载
本书于2017-07由Packt Publishing出版,作者Md. Rezaul Karim, Sridhar Alla,全书1587页。关注大数据猿(bigdata_ai)公众号及时获取最新大数据相关电子书、资讯等通过本书你将学到以下知识Understand object-oriented & functional programming concepts of ScalaIn-depth understanding of Scala collection APIsWork with RDD and DataFrame to learn Spark’s core abstractionsAnalysin

zz~~   7年前 (2017-08-21) 7766℃ 0评论31喜欢

Scala

Spark函数讲解:aggregate

Spark函数讲解:aggregate
  我们先来看看aggregate函数的官方文档定义:Aggregate the elements of each partition, and then the results for all the partitions, using given combine functions and a neutral "zero value". This function can return a different result type, U, than the type of this RDD, T. Thus, we need one operation for merging a T into an U and one operation for merging two U's, as in scala.TraversableOnce. Both of these functions

w397090770   9年前 (2015-02-12) 37268℃ 5评论23喜欢

Spark

上海Spark Meetup第五次聚会

上海Spark Meetup第五次聚会
  上海Spark Meetup第五次聚会将于2015年7月18日在太库科技创业发展有限公司举办,详细地址上海市浦东新区金科路2889弄3号长泰广场 C座12层,太库。本次聚会由七牛和Intel联合举办。大会主题  1、hadoop/spark生态的落地实践   王团结(七牛)七牛云数据平台工程师。主要负责数据平台的设计研发工作。关注大数据处理,高

w397090770   9年前 (2015-07-06) 3142℃ 0评论6喜欢

Presto

Presto 中支持的七种 Join 类型

Presto 中支持的七种 Join 类型
SQL Join 是最重要和最昂贵的 SQL 操作之一,需要数据库工程师深入理解才能编写高效的 SQL 查询。 从数据库工程师的角度来看,了解 JOIN 操作的工作原理有助于他们优化 JOIN 以实现高效执行。 本文介绍了开源分布式计算引擎 Presto SQL 支持的 join 操作。几乎所有众所周知的数据库都支持以下五种类型的 JOIN 操作:Cross Join, Inner Join, L

w397090770   2年前 (2021-11-01) 1209℃ 0评论1喜欢

Docker

Docker 公司宣布把 Docker Distribution 捐献给了 CNCF

Docker 公司宣布把 Docker Distribution 捐献给了 CNCF
2021年2月4日,负责维护 Docker 引擎的 Justin Cormack 在 Docker 官方博客宣布把 Docker 发行版(Docker Distribution)捐献给了 CNCF,全文如下:​我们很高兴地宣布,Docker 已经把 Docker 发行版(Docker Distribution)捐献给了 CNCF。Docker 致力于开源社区和我们许多项目的开放标准,这一举动将确保 Docker 发行版有一个广泛的团队来维护许多注册中心

w397090770   3年前 (2021-02-06) 220℃ 0评论2喜欢