哎哟~404了~休息一下,下面的文章你可能很感兴趣:
二叉树的三种遍历的递归实现都很简单,但是在面试中,面试官一般都不会问你递归的实现,所以学习二叉树的非递归实现还是很重要的。[code lang="CPP"]#include <iostream>using namespace std;//Author: 过往记忆//Blog: www.iteblog.com//Email: wyphao.2007@163.com/////////////////////////////////////////////////////////////////////////stack template <class T& w397090770 11年前 (2013-04-23) 7069℃ 0评论2喜欢
大家在提交MapReduce作业的时候肯定看过如下的输出:[code lang="bash"]17/04/17 14:00:38 INFO mapreduce.Job: Running job: job_1472052053889_000117/04/17 14:00:48 INFO mapreduce.Job: Job job_1472052053889_0001 running in uber mode : false17/04/17 14:00:48 INFO mapreduce.Job: map 0% reduce 0%17/04/17 14:00:58 INFO mapreduce.Job: map 100% reduce 0%17/04/17 14:01:04 INFO mapreduce.Job: map 100% reduce 100%[/ w397090770 7年前 (2017-04-18) 3490℃ 2评论11喜欢
Databricks 开源的 Apache Spark 对于分布式数据处理来说是一个伟大的进步。我们在使用 Spark 时发现了很多可圈可点之处,我们在此与大家分享一下我们在简化Spark使用和编程以及加快Spark在生产环境落地上做的一些努力。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop一个Spark Streaming读取Kafka w397090770 6年前 (2018-02-28) 6561℃ 0评论13喜欢
和其他计算引擎一样,一条 SQL 从客户的提交到 Coordinator 端经过 SqlParser 进行词法和语法解析形成 AST 树,然后经过 Analyzer 进行语义分析,生成了逻辑计划(LogicalPlan);接着经过优化器处理(优化规则都是在 PlanOptimizers 里面定义好的,然后在 LogicalPlanner 里面循环遍历每个规则)生成物理计划(PhysicalPlan);最后使用 PlanFragmenter 并 w397090770 3年前 (2021-08-08) 1061℃ 0评论3喜欢
2014 Spark亚太峰会12月6日在北京珠三角万豪酒店圆满收官,来自易观国际、Intel 、亚信科技、TalkingData、Spark亚太研究院、百度、京东、携程、IBM、星环科技、南京大学、洞庭国际智能硬件检测基地、 AdMaster、Docker中文社区、安徽象形科技的十八位演讲嘉宾为来自国内近305家企业,800多位一线开发者,带来了最干货的分享及一手的 w397090770 9年前 (2014-12-18) 29248℃ 251评论34喜欢
《Apache Spark快速入门:基本概念和例子(1)》 《Apache Spark快速入门:基本概念和例子(2)》 本文聚焦Apache Spark入门,了解其在大数据领域的地位,覆盖Apache Spark的安装及应用程序的建立,并解释一些常见的行为和操作。一、 为什么要选择Apache Spark 当前,我们正处在一个“大数据"的时代,每时每刻,都有各 w397090770 9年前 (2015-07-13) 6076℃ 1评论24喜欢
本文来自11月举办的 Data + AI Summit 2020 (原 Spark+AI Summit),主题为《Improving Spark SQL Performance by 30%: How We Optimize Parquet Filter Pushdown and Parquet Reader》的分享,作者为字节跳动的孙科和郭俊。相关 PPT 可以关注 Java与大数据架构 公众号并回复 9912 获取。Parquet 是一种非常流行的列式存储格式。Spark 的算子下推(pushdown filters)可以利用 P w397090770 3年前 (2020-12-14) 2123℃ 2评论4喜欢
如今,很多公司可能会在内部使用多种数据存储和处理系统。这些不同的系统解决了对应的使用案例。除了传统的 RDBMS (比如 Oracle DB,Teradata或PostgreSQL) 之外,我们还会使用 Apache Kafka 来获取流和事件数据。使用 Apache Druid 处理实时系列数据(real-time series data),使用 Apache Phoenix 进行快速索引查找。 此外,我们还可能使用云存储 w397090770 5年前 (2019-03-16) 4977℃ 1评论7喜欢
MMLSpark为Apache Spark提供了大量深度学习和数据科学工具,包括将Spark Machine Learning管道与Microsoft Cognitive Toolkit(CNTK)和OpenCV进行无缝集成,使您能够快速创建功能强大,高度可扩展的大型图像和文本数据集分析预测模型。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoopMMLSpark需要Scala 2.11,Spark 2 w397090770 7年前 (2017-10-24) 4030℃ 0评论9喜欢
Spark Streaming和Flink都能提供恰好一次的保证,即每条记录都仅处理一次。与其他处理系统(比如Storm)相比,它们都能提供一个非常高的吞吐量。它们的容错开销也都非常低。之前,Spark提供了可配置的内存管理,而Flink提供了自动内存管理,但从1.6版本开始,Spark也提供了自动内存管理。这两个流处理引擎确实有许多相似之处, w397090770 8年前 (2016-04-02) 4612℃ 0评论5喜欢
国内区 Apple ID 转美国区的教程参见:2021年最新中国区 Apple ID 转美国区教程注意:下面的操作步骤是在2021年10月29日进行的,过程中都没有使用到 VPN 软件。使用苹果手机的有可能知道,国内使用的 App Store 只能下载国内的一些 APP 应用。有一些 APP 并没有在国内 App Store 上架,这时候就无法下载。我们需要使用一个国外的 Apple I w397090770 2年前 (2021-10-22) 3913℃ 0评论5喜欢
以下文章是转载自国外网站,介绍了Hadoop生态系统上面的几种SQL:Hive、Drill、Impala、Presto以及Spark\Shark等应用场景、对比以及一些结论Within the big data landscape there are multiple approaches to accessing, analyzing, and manipulating data in Hadoop. Each depends on key considerations such as latency, ANSI SQL completeness (and the ability to tolerate machine-generated SQL), developer and a w397090770 10年前 (2014-08-11) 9864℃ 0评论14喜欢
Apache Zeppelin使用入门指南:安装Apache Zeppelin使用入门指南:编程Apache Zeppelin使用入门指南:添加外部依赖 Apache Zeppelin是一款基于web的notebook(类似于ipython的notebook),支持交互式地数据分析。原生就支持Spark、Scala、SQL 、shell, markdown等。而且它是完全开源的,目前还处于Apache孵化阶段。本文所有的操作都是基于Apache Zeppelin w397090770 8年前 (2016-02-02) 20481℃ 9评论20喜欢
有多个地方需要使用Java client: 1、在存在的集群中执行标准的index, get, delete和search 2、在集群中执行管理任务 3、当你要运行嵌套在你的应用程序中的Elasticsearch的时候或者当你要运行单元测试或者集合测试的时候,启动所有节点获得一个Client是非常容易的,最通用的步骤如下所示: 1、创建一个嵌套的 zz~~ 8年前 (2016-10-02) 1112℃ 0评论7喜欢
本系列文章将展示ElasticSearch中23种非常有用的查询使用方法。由于篇幅原因,本系列文章分为六篇,本文是此系列的第五篇文章。欢迎关注大数据技术博客微信公共账号:iteblog_hadoop。《23种非常有用的ElasticSearch查询例子(1)》《23种非常有用的ElasticSearch查询例子(2)》《23种非常有用的ElasticSearch查询例子(3)》《23种非常有用 zz~~ 8年前 (2016-10-01) 3814℃ 0评论6喜欢
假设有k个称为顺串的有序序列,我们希望将他们归并到一个单独的有序序列中。每一个顺串包含一些记录,并且这些记录按照键值的大小,以非递减的顺序排列。令n为k个顺串中的所有记录的总数。并归的任务可以通过反复输出k个顺串中键值最小的记录来完成。键值最小的记录的选择有k种可能,它可能是任意有一个顺串中的第1个 w397090770 11年前 (2013-04-01) 6595℃ 2评论7喜欢
本文将介绍如何通过Flink读取Kafka中Topic的数据。 和Spark一样,Flink内置提供了读/写Kafka Topic的Kafka连接器(Kafka Connectors)。Flink Kafka Consumer和Flink的Checkpint机制进行了整合,以此提供了exactly-once处理语义。为了实现这个语义,Flink不仅仅依赖于追踪Kafka的消费者group偏移量,而且将这些偏移量存储在其内部用于追踪。 和Sp w397090770 8年前 (2016-05-03) 23877℃ 1评论23喜欢
我们在使用Spark的时候有时候需要将一些数据分发到计算节点中。一种方法是将这些文件上传到HDFS上,然后计算节点从HDFS上获取这些数据。当然我们也可以使用addFile函数来分发这些文件。addFile addFile方法可以接收本地文件(或者HDFS上的文件),甚至是文件夹(如果是文件夹,必须是HDFS路径),然后Spark的Driver和Exector w397090770 8年前 (2016-07-11) 12403℃ 0评论13喜欢
什么是SSH?Secure Shell(缩写为SSH),由IETF的网络工作小组(Network Working Group)所制定;SSH为一项创建在应用层和传输层基础上的安全协议,为计算机上的Shell(壳层)提供安全的传输和使用环境。传统的网络服务程序,如rsh、FTP、POP和Telnet其本质上都是不安全的;因为它们在网络上用明文传送数据、用户帐号和用户口令,很容 w397090770 11年前 (2013-10-22) 8670℃ 3评论2喜欢
如果你想搭建伪分布式Hadoop平台,请参见本博客《在Fedora上部署Hadoop2.2.0伪分布式平台》 经过好多天的各种折腾,终于在几台电脑里面配置好了Hadoop2.2.0分布式系统,现在总结一下如何配置。 前提条件: (1)、首先在每台Linux电脑上面安装好JDK6或其以上版本,并设置好JAVA_HOME等,测试一下java、javac、jps等命令 w397090770 11年前 (2013-11-06) 21221℃ 6评论27喜欢
《Spark meetup(Beijing)资料分享》 《Spark meetup(杭州)PPT资料分享》 《北京第二次Spark meetup会议资料分享》 《北京第三次Spark meetup会议资料分享》 《北京第四次Spark meetup会议资料分享》 《北京第五次Spark meetup会议资料分享》》 《北京第六次Spark meetup会议资料分享》 《杭州第三次Spark meetup会议 w397090770 9年前 (2015-03-30) 4806℃ 0评论4喜欢
PrestoDB 官方并没有提供 Docker 镜像,但是其为我们提供了制作 Docker 镜像的方法,步骤很简单。本文主要是用于学习交流,并为大家展示如何制作并运行简单的的 Docker 镜像,Dockerfile 的编写大量参考了 PrestoDB 的文档。因为这里仅仅是测试,所以仅留了 tpch connecter,大家可以根据自己需求去修改。如果想及时了解Spark、Hadoop或者HBase w397090770 2年前 (2021-11-19) 488℃ 0评论1喜欢
昨天分享了《[电子书]Apache Spark 2 for Beginners pdf下载》,这本书很适合入门学习Spark,虽然书名上写着是Apache Spark 2,但是其内容介绍几乎和Spark 2毫无关系,今天要分享的图书也是一本适合入门的Spark电子书,也是Packt出版,2016年09月开始发行的,全书共339页,其面向读者是数据科学家,本书内容涵盖了Spark编程模型、DataFrame介绍 w397090770 8年前 (2016-10-24) 5041℃ 0评论13喜欢
本博客曾经介绍了《如何手动添加依赖的jar文件到本地Maven仓库》这里的方法非常的简单,而且局限性很大:只能提供给本人开发使用,无法共享给其他需要的人。本文将介绍如何把自己开发出来的Java包发布到Maven中央仓库(http://search.maven.org/),这样任何人都可以搜索到这个包并使用它。如果你现在还不了解Maven是啥东西,请你 w397090770 8年前 (2016-09-27) 9651℃ 2评论23喜欢
本系列文章将展示ElasticSearch中23种非常有用的查询使用方法。由于篇幅原因,本系列文章分为六篇,本文是此系列的第二篇文章。欢迎关注大数据技术博客微信公共账号:iteblog_hadoop。《23种非常有用的ElasticSearch查询例子(1)》《23种非常有用的ElasticSearch查询例子(2)》《23种非常有用的ElasticSearch查询例子(3)》《23种非常有用 w397090770 8年前 (2016-08-16) 5537℃ 0评论6喜欢
本文将介绍如何通过简单地几步来开始编写你的 Flink Java 程序。要求 编写你的Flink Java程序唯一的要求是需要安装Maven 3.0.4(或者更高)和Java 7.x(或者更高) 创建Flink Java工程使用下面其中一个命令来创建Flink Java工程1、使用Maven archetypes:[code lang="bash"]$ mvn archetype:generate \ -DarchetypeGrou w397090770 8年前 (2016-04-06) 13838℃ 0评论8喜欢
VSFTP是一个基于GPL发布的类Unix系统上使用的FTP服务器软件,它的全称是Very Secure FTP 从此名称可以看出来,编制者的初衷是代码的安全。本文将介绍如何在CentOS系统上安装、部署和卸载vsftp。1. 安装VSFTP[code lang="bash"][iteblog@www.iteblog.com ~]# yum -y install vsftpd[/code]2. 配置vsftpd.conf文件[code lang="bash"][iteblog@www.iteblog.com ~]# v w397090770 8年前 (2016-04-16) 2029℃ 0评论3喜欢
Spark已经成为数据科学专业人士最有前途的大数据分析引擎。Apache Spark真正的力量和价值在于它能够以高速和准确的方式执行数据科学任务;Spark的卖点是它结合ETL,批处理分析,实时流分析,机器学习,图形处理和可视化;它允许您轻松处理非结构化的原始数据集。 本书将让您舒适和自信地使用Spark完成数据科学任务。 w397090770 7年前 (2017-02-10) 2127℃ 0评论6喜欢
从Apache Zeppelin 0.5.6 版本开始,内置支持 Elasticsearch Interpreter了。我们可以直接在Apache Zeppelin中查询 ElasticSearch 中的数据。但是默认的 Apache Zeppelin 发行版本中可能并没有包含 Elasticsearch Interpreter。这种情况下我们需要自己安装。如果你参照了官方的这篇文档,即使你全部看完这篇文档,也是无法按照上面的说明启用 Elasticsearch Interpre w397090770 7年前 (2017-07-05) 1820℃ 0评论5喜欢
Spark 0.9.2于昨天(2014年07月23日)发布。对,你没看错,是Spark 0.9.2。Spark 0.9.2是基于0.9的分枝,修复了一些bug,推荐所有使用0.9.x的用户升级到这个稳定版本。有28位开发者参与了这次版本的开发。虽然Spark已经发布了Spark 1.0.x,但是里面有不少的bug,这次的Spark是稳定版。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关 w397090770 10年前 (2014-07-24) 4603℃ 0评论3喜欢