欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

wordpress开发

怎么让WordPress首页显示文章摘要

怎么让WordPress首页显示文章摘要
Wordpress的功能很强大,可以根据自己的需求来修改自己的网站。在Wordpress 3.5.1的中提供了默认的主题Twenty Twelve,很不错,但是首页显示的是全文信息,这不仅使得页面太长,也使得加载速度变的很慢,只有在搜索的时候才会显示摘要,那么怎么去让首页显示文章的摘要呢?到wordpress后台,依次选择 外观-->编辑-->选择右边的

w397090770   11年前 (2013-03-31) 27061℃ 9评论23喜欢

HBase

Spark读取Hbase中的数据

Spark读取Hbase中的数据
Spark和Flume-ng整合,可以参见本博客:《Spark和Flume-ng整合》《使用Spark读取HBase中的数据》如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop  大家可能都知道很熟悉Spark的两种常见的数据读取方式(存放到RDD中):(1)、调用parallelize函数直接从集合中获取数据,并存入RDD中;Java版本如

w397090770   10年前 (2014-06-29) 74809℃ 47评论58喜欢

Alluxio

Alluxio 对 Presto 的查询性能加速测试报告

Alluxio 对 Presto 的查询性能加速测试报告
金山云-企业云团队(赵侃、李金辉)在交互查询场景下对Presto与Alluxio相结合进行了一系列测试,并总结了一些Presto搭配Alluxio使用的建议。本次测试未使用对象存储,计算引擎与存储间的网络延时也比较低。如果存储IO耗时和网络耗时较大时,Alluxio加速收益应会更明显。测试目的验证影响Alluxio加速收益的各种因素记录Alluxio

w397090770   2年前 (2022-03-29) 655℃ 0评论1喜欢

Flume

Flume-0.9.4分布式安装与配置手册

Flume-0.9.4分布式安装与配置手册
  Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。  Flume主要有以下几类组件:  (1)、Master: 负责配置及通信管理,是集群的控制器,并支持多mas

w397090770   10年前 (2014-01-23) 6757℃ 1评论3喜欢

Kafka

Key为null时Kafka如何选择分区(Partition)

Key为null时Kafka如何选择分区(Partition)
我们往Kafka发送消息时一般都是将消息封装到KeyedMessage类中:[code lang="scala"]val message = new KeyedMessage[String, String](topic, key, content)producer.send(message)[/code]Kafka会根据传进来的key计算其分区ID。但是这个Key可以不传,根据Kafka的官方文档描述:如果key为null,那么Producer将会把这条消息发送给随机的一个Partition。If the key is null, the

w397090770   8年前 (2016-03-30) 16081℃ 0评论10喜欢

数据湖

OPPO 数据湖统一存储技术实践

OPPO 数据湖统一存储技术实践
导读:OPPO是一家智能终端制造公司,有着数亿的终端用户,手机 、IoT设备产生的数据源源不断,设备的智能化服务需要我们对这些数据做更深层次的挖掘。海量的数据如何低成本存储、高效利用是大数据部门必须要解决的问题。目前业界流行的解决方案是数据湖,本次Xiaochun He老师介绍的OPPO自研数据湖存储系统CBFS在很大程度上可

zz~~   3年前 (2021-09-24) 346℃ 0评论2喜欢

Spark

Spark生态系统项目收集

Spark生态系统项目收集
  现在Apache Spark已形成一个丰富的生态系统,包括官方的和第三方开发的组件或工具。后面主要给出5个使用广泛的第三方项目。Spark官方构建了一个非常紧凑的生态系统组件,提供各种处理能力。 下面是Spark官方给出的生态系统组件  1、Spark DataFrames:列式存储的分布式数据组织,类似于关系型数据表。  2、Spark SQL:可

w397090770   8年前 (2016-03-08) 4920℃ 2评论7喜欢

Hadoop

Hadoop 2.2.0编译hadoop-eclipse-plugin插件

Hadoop 2.2.0编译hadoop-eclipse-plugin插件
  前提条件:  1、安装好jdk1.6或以上版本  2、部署好Hadoop 2.2.0(可以参见本博客《Hadoop2.2.0完全分布式集群平台安装与设置》)  3、安装好ant,这很简单:[code lang="JAVA"]$ wget http://mirrors.cnnic.cn/apache/ant/binaries/apache-ant-1.9.3-bin.tar.gz$ tar -zxvf apache-ant-1.9.3-bin.tar.gz[/code]然后设置好ANT_HOME和PATH就行  4、安装好相

w397090770   10年前 (2014-03-26) 23687℃ 1评论35喜欢

Scala

Scala:fold,foldLeft和foldRight区别与联系

Scala:fold,foldLeft和foldRight区别与联系
  从本质上说,fold函数将一种格式的输入数据转化成另外一种格式返回。fold, foldLeft和foldRight这三个函数除了有一点点不同外,做的事情差不多。我将在下文解释它们的共同点并解释它们的不同点。  我将从一个简单的例子开始,用fold计算一系列整型的和。[code lang="scala"]val numbers = List(5, 4, 8, 6, 2)numbers.fold(0) { (z, i) =>

w397090770   9年前 (2014-12-17) 36043℃ 0评论42喜欢

面试题

2013年百度校园招聘笔试题(附答案)

2013年百度校园招聘笔试题(附答案)
第一题,基础题:  1. 数据库及线程产生死锁的原理和必要条件,如何避免死锁。  2. 列举面向对象程序设计的三个要素和五项基本原则。  3.Windows内存管理的方式有哪些?各自的优缺点。第二题,算法与程序设计:  1.公司举行羽毛球比赛,采用淘汰赛,有1001个人参加,要决出“羽毛球最高选手”,应如何组织这

w397090770   11年前 (2013-04-20) 9093℃ 0评论9喜欢

Spark

Spark函数讲解序列文章

Spark函数讲解序列文章
  本博客近日将对Spark 1.2.1 RDD中所有的函数进行讲解,主要包括函数的解释,实例以及注意事项,每日一篇请关注。以下是将要介绍的函数,按照字母的先后顺序进行介绍,可以点的说明已经发布了。  aggregate、aggregateByKey、cache、cartesian、checkpoint、coalesce、cogroup groupWith collect, toArraycollectAsMap combineByKey computecontext, spar

w397090770   9年前 (2015-03-08) 7233℃ 0评论6喜欢

wordpress开发

网站建设:强烈推荐使用七牛云存储

网站建设:强烈推荐使用七牛云存储
七牛云存储直达地址:(点击这里)  随着网站建设的使用时间越来越长,我们的网站可能使用了越来越多的图片、CSS以及js文件,虽然这些的大小都不大,但如果请求的次数多了,这些文件的大小加起来就是一个可观的大小了!而且,如果你们页面图片或者js等文件多了,并且你的网站访问速度不太快的话,这会严重影响到

w397090770   9年前 (2015-01-12) 8759℃ 0评论11喜欢

Kafka

避坑指南:Kafka集群快速扩容的方案总结

避坑指南:Kafka集群快速扩容的方案总结
什么是数据迁移Apache Kafka 对于数据迁移的官方说法是分区重分配。即重新分配分区在集群的分布情况。官方提供了kafka-reassign-partitions.sh脚本来执行分区重分配操作。其底层实现主要有如下三步: 通过副本复制的机制将老节点上的分区搬迁到新的节点上。 然后再将Leader切换到新的节点。 最后删除老节点上的分区。重分

zz~~   3年前 (2021-09-24) 659℃ 0评论4喜欢

Spark

第三次北京Spark Meetup活动详情

第三次北京Spark Meetup活动详情
  《Spark meetup(Beijing)资料分享》  《Spark meetup(杭州)PPT资料分享》  《北京第二次Spark meetup会议资料分享》  《北京第三次Spark meetup会议资料分享》  第三次北京Spark Meetup活动将于2014年10月26日星期日的下午1:30到6:00在海淀区中关村科学院南路2号融科资讯中心A座8层举行,本次分享的主题主要是MLlib与分布式机器学

w397090770   10年前 (2014-10-09) 4441℃ 6评论5喜欢

Kafka

Kafka in Action 下载

Kafka in Action 下载
《Kafka in Action》于 2022年01月由 Manning 出版, ISBN 为 9781617295232 ,全书 272 页。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop图书介绍作者有多年使用 Kafka 的真实世界的经验,这本书的实地感觉真的让它与众不同。---- From the foreword by Jun Rao, Confluent CofounderMaster the wicked-fast Apache Kafka streaming

w397090770   2年前 (2022-03-02) 467℃ 0评论2喜欢

Kafka

Kafka剖析:Kafka背景及架构介绍

Kafka剖析:Kafka背景及架构介绍
《Kafka剖析:Kafka背景及架构介绍》《Kafka设计解析:Kafka High Availability(上)》《Kafka设计解析:Kafka High Availability (下)》《Kafka设计解析:Replication工具》《Kafka设计解析:Kafka Consumer解析》  Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源

w397090770   9年前 (2015-04-08) 7712℃ 2评论16喜欢

Kafka

Spark Streaming和Kafka整合是如何保证数据零丢失

Spark Streaming和Kafka整合是如何保证数据零丢失
  当我们正确地部署好Spark Streaming,我们就可以使用Spark Streaming提供的零数据丢失机制。为了体验这个关键的特性,你需要满足以下几个先决条件:  1、输入的数据来自可靠的数据源和可靠的接收器;  2、应用程序的metadata被application的driver持久化了(checkpointed );  3、启用了WAL特性(Write ahead log)。  下面我将简单

w397090770   8年前 (2016-03-02) 17549℃ 16评论50喜欢

Maven

如何发布Jar包到Maven中央仓库

如何发布Jar包到Maven中央仓库
  本博客曾经介绍了《如何手动添加依赖的jar文件到本地Maven仓库》这里的方法非常的简单,而且局限性很大:只能提供给本人开发使用,无法共享给其他需要的人。本文将介绍如何把自己开发出来的Java包发布到Maven中央仓库(http://search.maven.org/),这样任何人都可以搜索到这个包并使用它。如果你现在还不了解Maven是啥东西,请你

w397090770   8年前 (2016-09-27) 9651℃ 2评论23喜欢

Flink

Flink快速上手之Scala API使用

Flink快速上手之Scala API使用
  本文将介绍如何通过简单地几步来开始编写你的 Flink Scala 程序。构建工具  Flink工程可以使用不同的工具进行构建,为了快速构建Flink工程, Flink为下面的构建工具分别提供了模板:  1、SBT  2、Maven这些模板可以帮助我们组织项目结构并初始化一些构建文件。SBT创建工程1、使用Giter8可以使用下

w397090770   8年前 (2016-04-07) 10087℃ 0评论8喜欢

Hadoop

重磅 | HPE 宣布收购 MapR!

重磅 | HPE 宣布收购 MapR!
美国当地时间2019年8月5日,惠普企业(Hewlett Packard Enterprises,纽约证券交易所股票代码:HPE)宣布收购 MapR Technologies Inc. 的业务资产!如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop此交易包括 MapR 的技术,知识产权以及人工智能和机器学习(AI/ML)和分析数据管理领域的专业知识。MapR 是

w397090770   5年前 (2019-08-12) 1174℃ 0评论1喜欢

Linux命令

rpm卸载软件忽略循环依赖

rpm卸载软件忽略循环依赖
  今天由于某些原因需要卸载掉服务器上的php软件,然后我使用下面命令显示出本机安装的所有和php相关的软件,如下:[code lang="bash"]iteblog$ rpm -qa | grep phpphp-mysqlnd-5.6.25-0.1.RC1.el6.remi.x86_64php-fpm-5.6.25-0.1.RC1.el6.remi.x86_64php-pecl-jsonc-1.3.10-1.el6.remi.5.6.x86_64php-pecl-memcache-3.0.8-3.el6.remi.5.6.x86_64php-pdo-5.6.25-0.1.RC1.el6.remi.x86_64php-mbstrin

w397090770   8年前 (2016-08-08) 2251℃ 0评论2喜欢

Apache Impala

Impala在腾讯金融大数据场景中的应用

Impala在腾讯金融大数据场景中的应用
导读:在腾讯金融场景,我们每天都会产生大量的数据,为了提升分析的交互性,让决策更加敏捷,我们引入了Impala来解决我们的分析需求。所以,本文将和大家分享Impala在腾讯金融大数据场景中的应用架构,Impala的原理,落地过程的案例和优化以及总结思考。Impala的架构 首先介绍Impala的整体架构,帮助大家从宏观角度理

w397090770   2年前 (2021-10-28) 316℃ 0评论1喜欢

Apache

盘点2021年晋升为Apache TLP的大数据相关项目

盘点2021年晋升为Apache TLP的大数据相关项目
时间过得真快,2021年就过去了,又到了一年总结的时候了。本文将延续之前的惯例来总结一下过去一年大数据相关的项目顺利毕业成 Apache 顶级项目。在2021年一共有四个大数据相关项目顺利毕业成顶级项目,主要是 Apache® DataSketches™、Apache® Gobblin™、Apache® DolphinScheduler™ 以及 Apache® Pinot™;同时有两个项目进入到 Apache 孵化器,

w397090770   2年前 (2022-01-03) 1261℃ 0评论2喜欢

电子书

Hadoop: The Definitive Guide, 4th Edition[pdf]

Hadoop: The Definitive Guide, 4th Edition[pdf]
Hadoop权威指南英文版第四版,它的内容组织得当,思路清晰,紧密结合实际。但是要把它翻译成中文介绍给中国的读者,并非易事。它不单单要求译者能够熟练地掌握英文,还要求他们对书中的技术性内容有深入、准确的了解和掌握。从这两点来审视,本书的译者团队完全足以胜任。作为大学老师,他们不仅在大数据领域从事一线

w397090770   9年前 (2015-08-15) 4735℃ 0评论9喜欢

ElasticSearch

Elasticsearch 6.3 发布,你们要的 SQL 功能来了

Elasticsearch 6.3 发布,你们要的 SQL 功能来了
Elasticsearch 6.3 于前天正式发布,其中带来了很多新特性,详情请参见:https://www.elastic.co/blog/elasticsearch-6-3-0-released。这个版本最大的亮点莫过于内置支持 SQL 模块!我在早些时间就说过 Elasticsearch 将会内置支持 SQL,参见:ElasticSearch内置也将支持SQL特性。我们可以像操作 MySQL一样使用 Elasticsearch,这样我们就可以减少 DSL 的学习成本,

w397090770   6年前 (2018-06-15) 8870℃ 3评论12喜欢

Hive

Apache Hive 1.2.0正式发布

Apache Hive 1.2.0正式发布
  Apache Hive 1.2.0于美国时间2015年05月18日正式发布,其中修复了大量大Bug,完整邮件内容如下:如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoopThe Apache Hive team is proud to announce the the release of Apache Hive version 1.2.0.The Apache Hive (TM) data warehouse software facilitates querying and managing large datasets residin

w397090770   9年前 (2015-05-19) 5388℃ 0评论4喜欢

Spark

.NET for Apache Spark 预览版正式发布

.NET for Apache Spark 预览版正式发布
2019年4月25日,微软的 Rahul Potharaju、Terry Kim 以及 Tyson Condie 在 Spark + AI Summit 2019 会议上为我们带来主题为 《Introducing .NET Bindings for Apache Spark 》的分享,并宣布 .NET for Apache Spark 预览版正式发布。.NET 框架是由微软开发,一个致力于敏捷软件开发、快速应用开发、平台无关性和网络透明化的免费软件框架,用于构建许多不同类型的

w397090770   5年前 (2019-04-28) 15219℃ 0评论4喜欢

Delta Lake

还在玩数据仓库?现在已经是 LakeHouse 时代!

还在玩数据仓库?现在已经是 LakeHouse 时代!
引入在Databricks的过去几年中,我们看到了一种新的数据管理范式,该范式出现在许多客户和案例中:LakeHouse。在这篇文章中,我们将描述这种新范式及其相对于先前方案的优势。数据仓库技术自1980诞生以来一直在发展,其在决策支持和商业智能应用方面拥有悠久的历史,而MPP体系结构使得系统能够处理更大数据量。但是,虽

w397090770   4年前 (2020-02-03) 2973℃ 0评论6喜欢

Spark

即将发布的 Apache Spark 2.4 都有哪些新功能

即将发布的 Apache Spark 2.4 都有哪些新功能
本文来自于2018年09月19日在 Adobe Systems Inc 举行的 Apache Spark Meetup。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop即将发布的 Apache Spark 2.4 版本是 2.x 系列的第五个版本。 本文对 Apache Spark 2.4 的主要功能和增强功能进行了概述。新的调度模型(Barrier Scheduling),使用户能够将分布式深度学

w397090770   6年前 (2018-09-20) 3282℃ 0评论8喜欢

Presto

Tardigrade:Trino 解决 ETL 场景的方案

Tardigrade:Trino 解决 ETL 场景的方案
Presto 在 Facebook 的诞生最开始是为了填补当时 Facebook 内部实时查询和 ETL 处理之间的空白。Presto 的核心目标就是提供交互式查询,也就是我们常说的 Ad-Hoc Query,很多公司都使用它作为 OLAP 计算引擎。但是随着近年来业务场景越来越复杂,除了交互式查询场景,很多公司也需要批处理;但是 Presto 作为一个 MPP 计算引擎,将一个 MPP 体

w397090770   2年前 (2022-06-23) 1379℃ 0评论3喜欢