欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

Akka

Akka学习笔记:Actor消息处理-请求和响应(1)

Akka学习笔记:Actor消息处理-请求和响应(1)
Akka学习笔记系列文章:《Akka学习笔记:ACTORS介绍》《Akka学习笔记:Actor消息传递(1)》《Akka学习笔记:Actor消息传递(2)》  《Akka学习笔记:日志》《Akka学习笔记:测试Actors》《Akka学习笔记:Actor消息处理-请求和响应(1) 》《Akka学习笔记:Actor消息处理-请求和响应(2) 》《Akka学习笔记:ActorSystem(配置)》《Akka学习笔记

w397090770   10年前 (2014-10-17) 9467℃ 6评论5喜欢

wordpress开发

怎么让WordPress首页显示文章摘要

怎么让WordPress首页显示文章摘要
Wordpress的功能很强大,可以根据自己的需求来修改自己的网站。在Wordpress 3.5.1的中提供了默认的主题Twenty Twelve,很不错,但是首页显示的是全文信息,这不仅使得页面太长,也使得加载速度变的很慢,只有在搜索的时候才会显示摘要,那么怎么去让首页显示文章的摘要呢?到wordpress后台,依次选择 外观-->编辑-->选择右边的

w397090770   11年前 (2013-03-31) 27061℃ 9评论23喜欢

PostgreSQL

Spark SQL整合PostgreSQL

Spark SQL整合PostgreSQL
  本博客的《Spark与Mysql(JdbcRDD)整合开发》和《Spark RDD写入RMDB(Mysql)方法二》文章中介绍了如何通过Spark读写Mysql中的数据。  在生产环境下,很多公司都会使用PostgreSQL数据库,这篇文章将介绍如何通过Spark获取PostgreSQL中的数据。我将使用Spark 1.3中的DataFrame(也就是之前的SchemaRDD),我们可以通过SQLContext加载数据库中的数据,

w397090770   9年前 (2015-05-23) 12956℃ 0评论11喜欢

Hadoop

Hadoop源码编译与调试

Hadoop源码编译与调试
  虽然在运行Hadoop的时候可以打印出大量的运行日志,但是很多时候只通过打印这些日志是不能很好地跟踪Hadoop各个模块的运行状况。这时候编译与调试Hadoop源码就得派上场了。这也就是今天本文需要讨论的。编译Hadoop源码  先说说怎么编译Hadoop源码,本文主要介绍在Linux环境下用Maven来编译Hadoop。在编译Hadoop之前,我们

w397090770   10年前 (2014-01-09) 19805℃ 0评论10喜欢

送书活动

日志采集的挑战,留言免费获取《大数据之路:阿里巴巴大数据实践》

日志采集的挑战,留言免费获取《大数据之路:阿里巴巴大数据实践》
本文节选自《大数据之路:阿里巴巴大数据实践》,关注 iteblog_hadoop 公众号并在这篇文章里面文末评论区留言(认真写评论,增加上榜的机会)。留言点赞数排名前5名的粉丝,各免费赠送一本《大数据之路:阿里巴巴大数据实践》,活动截止至08月11日18:00。这篇文章评论区留言才有资格参加送书活动:https://mp.weixin.qq.com/s/BR7M8Rty

w397090770   7年前 (2017-08-03) 1651℃ 0评论11喜欢

资料分享

2016中国架构师大会大数据专场PPT下载

2016中国架构师大会大数据专场PPT下载
2016中国架构师大会大数据专场于10月27日在京进行,大数据专场有来自搜狐、优酷介绍其视频个性化推荐架构设计;也有来自饿了么的实时架构演变;有来自Qunar、宜信以及广发证券再金融中应用大数据的架构设计;也有华为CarbonData的介绍,干货十足!值得一看。主要涉及如下主题: 10月27

w397090770   8年前 (2016-11-03) 4623℃ 0评论9喜欢

Spark

What's new in Spark 3.2.0

What's new in Spark 3.2.0
本文来自 Kyligence 主办的 Data & AI Meetup(第二期),会议时间为 11月16日。本期会议特别邀请了 Spark 社区大佬范文臣带来 Spark 3.2.0 新特性的首发解读。范文臣,Databricks 开源组技术主管,Apache Spark PMC member,Spark 社区最活跃的贡献者之一,目前主要负责 Spark Core/SQL 的设计开发和开源社区管理。Spark 作为目前大数据领域使用最普及的

w397090770   2年前 (2021-11-30) 628℃ 0评论0喜欢

Flink

基于 Flink 的实时特征平台在携程的应用

基于 Flink 的实时特征平台在携程的应用
本文来自7月26日在上海举行的 Flink Meetup 会议,分享来自于刘康,目前在大数据平台部从事模型生命周期相关平台开发,现在主要负责基于flink开发实时模型特征计算平台。熟悉分布式计算,在模型部署及运维方面有丰富实战经验和深入的理解,对模型的算法及训练有一定的了解。本文主要内容如下:在公司实时特征开发的现

zz~~   6年前 (2018-08-14) 7363℃ 0评论3喜欢

Docker

创建 Presto Docker 镜像教程

创建 Presto Docker 镜像教程
PrestoDB 官方并没有提供 Docker 镜像,但是其为我们提供了制作 Docker 镜像的方法,步骤很简单。本文主要是用于学习交流,并为大家展示如何制作并运行简单的的 Docker 镜像,Dockerfile 的编写大量参考了 PrestoDB 的文档。因为这里仅仅是测试,所以仅留了 tpch connecter,大家可以根据自己需求去修改。如果想及时了解Spark、Hadoop或者HBase

w397090770   2年前 (2021-11-19) 488℃ 0评论1喜欢

Apache Doris

Apache Doris 和 ClickHouse 的深度分析

Apache Doris 和 ClickHouse 的深度分析
背景介绍Apache Doris是由百度贡献的开源MPP分析型数据库产品,亚秒级查询响应时间,支持实时数据分析;分布式架构简洁,易于运维,可以支持10PB以上的超大数据集;可以满足多种数据分析需求,例如固定历史报表,实时数据分析,交互式数据分析和探索式数据分析等。 ClickHouse 是俄罗斯的搜索公司Yadex开源的MPP架构的分析引

w397090770   2年前 (2022-02-15) 2501℃ 0评论0喜欢

Spark

Spark 2.0介绍:从RDD API迁移到DataSet API

Spark 2.0介绍:从RDD API迁移到DataSet API
  《Spark 2.0技术预览:更容易、更快速、更智能》文章中简单地介绍了Spark 2.0带来的新技术等。Spark 2.0是Apache Spark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大的变化,为该框架明年的发展方向奠定了方向,所以了解Spark 2.0的一些特性对我们能够使用它有着非常重要的作用。本博客将对Spark 2.0进行一

w397090770   8年前 (2016-05-24) 13008℃ 0评论26喜欢

Mysql

Spark将计算结果写入到Mysql中

Spark将计算结果写入到Mysql中
  建议用Spark 1.3.0提供的写关系型数据库的方法,参见《Spark RDD写入RMDB(Mysql)方法二》。  在《Spark与Mysql(JdbcRDD)整合开发》文章中我们介绍了如何通过Spark读取Mysql中的数据,当时写那篇文章的时候,Spark还未提供通过Java来使用JdbcRDD的API,不过目前的Spark提供了Java使用JdbcRDD的API。  今天主要来谈谈如果将Spark计算的结果

w397090770   9年前 (2015-03-10) 36798℃ 5评论33喜欢

Apache Iceberg

Apache Iceberg 中三种操作表的方式

Apache Iceberg 中三种操作表的方式
在 Apache Iceberg 中有很多种方式可以来创建表,其中就包括使用 Catalog 方式或者实现 org.apache.iceberg.Tables 接口。下面我们来简单介绍如何使用。.如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop使用 Hive catalog从名字就可以看出,Hive catalog 是通过连接 Hive 的 MetaStore,把 Iceberg 的表存储到其中,它

w397090770   3年前 (2020-11-08) 2148℃ 0评论5喜欢

Apache Doris

Apache Doris:基于 MPP 的交互式SQL数据仓库,可用于 OLAP

Apache Doris:基于 MPP 的交互式SQL数据仓库,可用于 OLAP
Apache Doris 简介Doris(原百度 Palo)是一款基于大规模并行处理技术的分布式 SQL 数据库,由百度在 2017 年开源,2018 年 8 月进入 Apache 孵化器。本次将主要从以下三部分介绍 Apache Doris.Doris 定位:即 Doris 所要面临的业务场景及解决的问题Doris 关键技术Doris 案例介绍01 Doris 定位实时数据仓库 Doris产品定位我们首先看一下

w397090770   4年前 (2019-12-11) 2861℃ 0评论4喜欢

其他

大数据开发命令大全

大数据开发命令大全
Linux(vi/vim)一般模式语法功能描述yy复制光标当前一行y数字y复制一段(从第几行到第几行)p箭头移动到目的行粘贴u撤销上一步dd删除光标当前行d数字d删除光标(含)后多少行x删除一个字母,相当于delX删除一个字母,相当于Backspaceyw复制一个词dw删除一个词

zz~~   2年前 (2021-12-01) 143℃ 0评论0喜欢

ClickHouse

Clickhouse 在58的实践之路

Clickhouse 在58的实践之路
在数据量日益增长的当下,传统数据库的查询性能已满足不了我们的业务需求。而Clickhouse在OLAP领域的快速崛起引起了我们的注意,于是我们引入Clickhouse并不断优化系统性能,提供高可用集群环境。本文主要讲述如何通过Clickhouse结合大数据生态来定制一套完善的数据分析方案、如何打造完备的运维管理平台以降低维护成本,并结合具

w397090770   3年前 (2021-01-22) 1657℃ 0评论2喜欢

Hadoop

使用MapReduce读取XML文件

使用MapReduce读取XML文件
  XML(可扩展标记语言,英语:eXtensible Markup Language,简称: XML)是一种标记语言,也是行业标准数据交换交换格式,它很适合在系统之间进行数据存储和交换(话说Hadoop、Hive等的配置文件就是XML格式的)。本文将介绍如何使用MapReduce来读取XML文件。但是Hadoop内部是无法直接解析XML文件;而且XML格式中没有同步标记,所以并行地处

w397090770   8年前 (2016-03-07) 5712℃ 1评论7喜欢

Spark

Spark 1.1.0正式发布

Spark 1.1.0正式发布
  我们期待已久的Spark 1.1.0在美国时间的9月11日正式发布了,官方发布的声明如下:We are happy to announce the availability of Spark 1.1.0! Spark 1.1.0 is the second release on the API-compatible 1.X line. It is Spark’s largest release ever, with contributions from 171 developers!This release brings operational and performance improvements in Spark core including a new implementation of the Spark

w397090770   10年前 (2014-09-12) 3764℃ 0评论2喜欢

Spark

Apache Spark 动态分区 OverWrite 问题

Apache Spark 动态分区 OverWrite 问题
如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop假设我们有以下表:[code lang="scala"]scala> spark.sql("""CREATE TABLE iteblog_test (name STRING, id int) using orc PARTITIONED BY (id)""").show(100)[/code]我们往里面插入一些数据:[code lang="sql"]scala> spark.sql("insert into table iteblog_test select

w397090770   4年前 (2020-08-03) 3043℃ 0评论4喜欢

Flink

Flink是如何与YARN进行交互的

Flink是如何与YARN进行交互的
在前面(《Flink on YARN部署快速入门指南》的文章中我们简单地介绍了如何在YARN上提交和运行Flink作业,本文将简要地介绍Flink是如何与YARN进行交互的。  YRAN客户端需要访问Hadoop的相关配置文件,从而可以连接YARN资源管理器和HDFS。它使用下面的规则来决定Hadoop配置:  1、判断YARN_CONF_DIR,HADOOP_CONF_DIR或HADOOP_CONF_PATH等环境

w397090770   8年前 (2016-04-04) 5986℃ 0评论8喜欢

CarbonData

Apache CarbonData性能基准报告:查询性能秒杀Parquet

Apache CarbonData性能基准报告:查询性能秒杀Parquet
本文相关测试数据由华为陈亮大神提供,特别感谢。  Apache CarbonData是由华为开发、开源并支持Apache Hadoop的列式存储文件格式,支持索引、压缩以及解编码等,其目的是为了实现同一份数据达到多种需求,而且能够实现更快的交互查询,目前该项目正处于Apache孵化过程中。详细介绍可以参见(《CarbonData:华为开发并支持Hadoop的

w397090770   8年前 (2016-09-11) 8118℃ 1评论7喜欢

Hadoop

使用JavaScript编写MapReduce程序并运行在Hadoop集群上

使用JavaScript编写MapReduce程序并运行在Hadoop集群上
  Hadoop Streaming 是 Hadoop 提供的一个 MapReduce 编程工具,它允许用户使用任何可执行文件、脚本语言或其他编程语言来实现 Mapper 和 Reducer,从而充分利用 Hadoop 并行计算框架的优势和能力,来处理大数据。而我们在官方文档或者是Hadoop权威指南看到的Hadoop Streaming例子都是使用 Ruby 或者 Python 编写的,官方说可以使用任何可执行文件

w397090770   7年前 (2017-03-14) 2621℃ 0评论2喜欢

Spark

Spark作业代码(源码)IDE远程调试

Spark作业代码(源码)IDE远程调试
我们在编写Spark Application或者是阅读源码的时候,我们很想知道代码的运行情况,比如参数设置的是否正确等等。用Logging方式来调试是一个可以选择的方式,但是,logging方式调试代码有很多的局限和不便。今天我就来介绍如何通过IDE来远程调试Spark的Application或者是Spark的源码。本文以调试Spark Application为例进行说明,本文用到的I

w397090770   10年前 (2014-11-05) 23846℃ 16评论21喜欢

Spark Summit

上海Spark Meetup第十次聚会

上海Spark Meetup第十次聚会
  Shanghai Apache Spark Meetup第十次聚会活动将于2016年09月10日12:30 至 17:20在四星级的上海通茂大酒店 (浦东新区陆家嘴金融区松林路357号)。距离地铁2、4、6、9号线的世纪大道站1000米,距离地铁4号线浦电路站740米。本次活动分别请到了运营商和高校系统的讲师来分享经验,主题覆盖了从研发到应用的各种不同视角,希望带给大家耳目

w397090770   8年前 (2016-08-25) 1376℃ 5评论2喜欢

Kafka

雅虎开源的Kafka集群管理器(Kafka Manager)

雅虎开源的Kafka集群管理器(Kafka Manager)
《Apache Kafka监控之Kafka Web Console》《Apache Kafka监控之KafkaOffsetMonitor》《雅虎开源的Kafka集群管理器(Kafka Manager)》Kafka在雅虎内部被很多团队使用,媒体团队用它做实时分析流水线,可以处理高达20Gbps(压缩数据)的峰值带宽。为了简化开发者和服务工程师维护Kafka集群的工作,构建了一个叫做Kafka管理器的基于Web工具,叫做 Kafka M

w397090770   9年前 (2015-02-04) 22063℃ 0评论14喜欢

Hive

从行存储到 RCFile,Facebook 为什么要设计出 RCFile?

从行存储到 RCFile,Facebook 为什么要设计出 RCFile?
2010年,Facebook 的工程师在 ICDC(IEEE International Conference on Data Engineering) 发表了一篇 《RCFile: A Fast and Space-efficient Data Placement Structure in MapReduce-based Warehouse Systems》 的论文,介绍了其为基于 MapReduce 的数据仓库设计的高效存储结构,这就是我们熟知的 RCFile(Record Columnar File)。下面介绍 RCFile 的一些诞生背景和设计。背景早在2010

w397090770   4年前 (2020-06-16) 1213℃ 0评论7喜欢

Spark

Apache Spark DataFrames入门指南:创建DataFrame(2)

Apache Spark DataFrames入门指南:创建DataFrame(2)
  本系列文章翻译自:《scala data analysis cookbook》第二章:Getting Started with Apache Spark DataFrames。原书是基于Spark 1.4.1编写的,我这里使用的是Spark 1.6.0,丢弃了一些已经标记为遗弃的函数。并且修正了其中的错误。  一、从csv文件创建DataFrame    如何做?    如何工作的    附录  二、操作DataFrame   

w397090770   8年前 (2016-01-18) 7574℃ 0评论6喜欢

网站建设

一个网站空间如何配置两个独立的网站

一个网站空间如何配置两个独立的网站
  今天我有一个网站空间到期了,如果去续费空间是可以的,但是那空间是国内的,一般国内的空间都是比较贵,所以我突然想到为什么不一个网站空间配置两个独立的网站呢?虽然网站空间是一样的,但是结果配置可以使得两个不同域名访问的网站不一样,也就是说互不干扰。当然这个前提是你空间所在的服务器支持我们把一

w397090770   11年前 (2013-04-26) 4734℃ 1评论4喜欢

算法

2012年腾讯招聘实习生笔试题

2012年腾讯招聘实习生笔试题
程序的问题:已知数组a[n],求数组b[n].要求:b[i]=a[0]*a[1]*……*a[n-1]/a[i],不能用除法。a.时间复杂度O(n),空间复杂度O(1)。 b.除了迭代器i,不允许使用任何其它变量(包括栈临时变量等)大家有什么解法?先不要看我下面的解法。希望大家讨论讨论一下,留个言,一起交流一下。下面给出我的解法一:[code lang="CPP"]#include <stdio.

w397090770   11年前 (2013-04-03) 4156℃ 0评论3喜欢