欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

Spark

Apache Spark 2.4 中解决复杂数据类型的内置函数和高阶函数介绍

Apache Spark 2.4 中解决复杂数据类型的内置函数和高阶函数介绍
Apache Spark 2.4 是在11月08日正式发布的,其带来了很多新的特性具体可以参见这里,本文主要介绍这次为复杂数据类型新引入的内置函数和高阶函数。本次 Spark 发布共引入了29个新的内置函数来处理复杂类型(例如,数组类型),包括高阶函数。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop

w397090770   5年前 (2018-11-21) 2441℃ 0评论2喜欢

Idea

IntelliJ IDEA 2020.2.1 版本正式发布

IntelliJ IDEA 2020.2.1 版本正式发布
如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop尽管 IntelliJ IDEA 2020.2 版本发布不久,但我们已经带着一个改进版 IntelliJ IDEA 回来了。这个版本主要对 2020.2 版本进行了一些的调整,帮助您更加专注和高效。重要更新如下: 修复了 Lombok 插件被异常阻止的问题 经调试后,MacBook Touch Bar 不再

w397090770   4年前 (2020-08-25) 627℃ 0评论1喜欢

Delta Lake

Delta Lake 第一篇论文发布了

Delta Lake 第一篇论文发布了
最近,数砖大佬们给 VLDB 投了一篇名为《Delta Lake: High-Performance ACID Table Storage overCloud Object Stores》的论文,并且被 VLDB 收录了,这是第一篇比较系统介绍数砖开发 Delta Lake 的论文。随着云对象存储(Cloud object stores)的普及,因为其廉价的成本,越来越多的企业都选择对象存储作为其海量数据的存储引擎。但是由于对象存储的特点

w397090770   4年前 (2020-08-25) 986℃ 0评论2喜欢

Kafka

Apache Kafka 2.6.0 有哪些值得关心的变化

Apache Kafka 2.6.0 有哪些值得关心的变化
Apache Kafka 2.6.0 于2020年08月03日正式发布。在这个版本中,社区做了很多显著的性能改进,特别是当 Broker 有非常多的分区时。Broker 关闭性能得到了显著提高;当生产者使用压缩时,性能也得到了显著提高。ACL 使用的各个方面都有不同程度的提升,并且需要更少的内存。这个版本还增加了对 Java 14 的支持。在过去的几个版本中,社

w397090770   4年前 (2020-08-23) 816℃ 0评论0喜欢

ElasticSearch

滴滴ElasticSearch千万级TPS写入性能翻倍技术剖析

滴滴ElasticSearch千万级TPS写入性能翻倍技术剖析
桔妹导读:滴滴ElasticSearch平台承接了公司内部所有使用ElasticSearch的业务,包括核心搜索、RDS从库、日志检索、安全数据分析、指标数据分析等等。平台规模达到了3000+节点,5PB 的数据存储,超过万亿条数据。平台写入的峰值写入TPS达到了2000w/s,每天近 10 亿次检索查询。为了承接这么大的体量和丰富的使用场景,滴滴ElasticSearch需要

w397090770   4年前 (2020-08-19) 1318℃ 0评论6喜欢

Mysql

Mysql备份还原数据库实例及参数详细说明

Mysql备份还原数据库实例及参数详细说明
备份数据库,还原数据库的情况,我们一般用一下两种方式来处理:1.使用into outfile 和 load data infile导入导出备份数据这种方法的好处是,导出的数据可以自己规定格式,并且导出的是纯数据,不存在建表信息,你可以直接导入另外一个同数据库的不同表中,相对于mysqldump比较灵活机动。我们来看下面的例子:(1)下面

w397090770   10年前 (2014-08-15) 4775℃ 0评论5喜欢

Flink

Flink Forward 201812 PPT资料下载

Flink Forward 201812 PPT资料下载
Flink Forward 是由 Apache 官方授权,Apache Flink China社区支持,有来自阿里巴巴,dataArtisans(Apache Flink 商业母公司),华为、腾讯、滴滴、美团以及字节跳动等公司参加的国际型会议。旨在汇集大数据领域一流人才共同探讨新一代大数据计算引擎技术。通过参会不仅可以了解到Flink社区的最新动态和发展计划,还可以了解到国内外一线大

w397090770   5年前 (2018-12-22) 3932℃ 0评论17喜欢

ElasticSearch

ElasticSearch系列文章:集群操作

ElasticSearch系列文章:集群操作
rest 接口  现在我们已经有一个正常运行的节点(和集群),下一步就是要去理解怎样与其通信。幸运的是,Elasticsearch提供了非常全面和强大的REST API,利用这个REST API你可以同你的集群交互。下面是利用这个API,可以做的几件事情:  1、查你的集群、节点和索引的健康状态和各种统计信息  2、管理你的集群、节点、

zz~~   8年前 (2016-08-31) 1414℃ 0评论2喜欢

hudi

Apache Hudi 0.8.0 版本发布,Flink 集成有重大提升以及支持并行写

Apache Hudi 0.8.0 版本发布,Flink 集成有重大提升以及支持并行写
迁移指南如果从 0.5.3 以下版本迁移,请检查这个版本后面的其他版本的升级说明。如果需要升级到 0.8 版本,请参阅 0.6.0 版本的升级指南,因为本版本没有引入新的表版本(table versions)HoodieRecordPayload接口不建议使用现有方法,而推荐使用新方法,该方法还允许我们在运行时传递属性。 鼓励用户从不建议使用的方法中迁移

w397090770   3年前 (2021-04-14) 842℃ 0评论2喜欢

Spark

怎么在Idea IDE里面打开Spark源码而不报错

怎么在Idea IDE里面打开Spark源码而不报错
  我们在学习或者使用Spark的时候都会选择下载Spark的源码包来加强Spark的学习。但是在导入Spark代码的时候,我们会发现yarn模块的相关代码总是有相关类依赖找不到的错误(如下图),而且搜索(快捷键Ctrl+N)里面的类时会搜索不到!这给我们带来了很多不遍。。  本文就是来解决这个问题的。我使用的是Idea IDE工具阅读代

w397090770   9年前 (2015-11-07) 8937℃ 4评论11喜欢

Distributed System

Paxos Made Simple 译文

Paxos Made Simple 译文
原文名:Paxos Made Simple [PDF下载] Leslie Lamport 2001/11/01翻译:phylipsbmy 原译文链接: http://duanple.blog.163.com/blog/static/709717672011440267333/审校:Jerry Lee oldratlee<at>gmail<dot>com译序“在PODC2001会议上,我总是听到人们在抱怨Paxos算法是那么的难以理解。人们总是被那些古希腊的名称弄得晕头转向,而使得他们觉得论文难以理解

w397090770   6年前 (2018-03-12) 3495℃ 0评论9喜欢

Python

Newspaper: 新闻文章元数据抽取的开源Python库

Newspaper: 新闻文章元数据抽取的开源Python库
  来自于requests的灵感,因为它很简单;并且由lxml驱动,因为它速度很快。  Newspaper是一个惊人的新闻、全文以及文章元数据抽取开源的Python类库,这个类库支持10多种语言,所有的东西都是用unicode编码的。我们可以使用下面命令查看:[code lang="python"]/** * User: 过往记忆 * Date: 2015-05-20 * Time: 下午23:14 * bolg: * 本文地

w397090770   9年前 (2015-05-20) 2685℃ 0评论0喜欢

ElasticSearch

五分钟了解Elasticsearch

五分钟了解Elasticsearch
使用 ElasticSearch 我们可以构建一个功能完备的搜索服务器。这一切实现起来都很简单,本文将花五分钟向你介绍如何实现。安装和运行Elasticsearch这篇文章的操作环境是 Linux 或者 Mac,在安装 ElasticSearch 之前,确保你的系统上已经安装好 JDK 6 或者以上版本。[code lang="bash"]wget https://download.elastic.co/elasticsearch/elasticsearch/elasticsearc

w397090770   7年前 (2017-09-01) 3203℃ 0评论11喜欢

行业资讯

SSDB:可用于替代Redis的高性能NoSQL数据库

SSDB:可用于替代Redis的高性能NoSQL数据库
SSDB 是一个使用 C/C++ 语言开发的高性能 NoSQL 数据库, 支持 KV, list, map(hash), zset(sorted set) 等数据结构, 用来替代或者与 Redis 配合存储十亿级别列表的数据。实现上其使用了 Google 的 LevelDB作为存储引擎,SSDB 不会像 Redis 一样狂吃内存,而是将大部分数据存储到磁盘上。最重要的是,SSDB采用了New BSD License 开源协议进行了开源,目前已经

w397090770   7年前 (2017-05-27) 2824℃ 0评论7喜欢

Spark

即将发布的 Apache Spark 3.2 将内置 Pandas API

即将发布的 Apache Spark 3.2 将内置 Pandas API
在即将发布的 Apache Spark™ 3.2 版本中 pandas API 将会成为其中的一部分。Pandas 是一个强大、灵活的库,并已迅速发展成为标准的数据科学库之一。现在,pandas 的用户将能够在他们现有的 Spark 集群上利用 pandas API。几年前,我们启动了 Koalas 这个开源项目,它在 Spark 之上实现了 Pandas DataFrame API,并被数据科学家广泛采用。最近,Koala

w397090770   2年前 (2021-10-13) 710℃ 0评论3喜欢

nginx

nginx给网站开启图片防盗链

nginx给网站开启图片防盗链
  大家在查看分析网站访问日志的时候,很可能发现自己网站里面的很多图片被外部网站引用,这样给我们自己的博客带来了最少两点的不好:  (1)、如果别的网站引用我们网站图片的次数非常多的话,会给咱们网站服务器带来很大的负载压力;  (2)、被其他网站引用图片会消耗我们网站的流量,如果我们的网站服

w397090770   9年前 (2014-12-27) 5396℃ 0评论3喜欢

Spark

Spark: SchemaRDD隐式转换

Spark: SchemaRDD隐式转换
  SchemaRDD在Spark SQL中已经被我们使用到,这篇文章简单地介绍一下如果将标准的RDD(org.apache.spark.rdd.RDD)转换成SchemaRDD,并进行SQL相关的操作。[code lang="scala"]scala> val sqlContext = new org.apache.spark.sql.SQLContext(sc)sqlContext: org.apache.spark.sql.SQLContext = org.apache.spark.sql.SQLContext@6edd421fscala> case class Person(name: String, age:Int)defined class Perso

w397090770   9年前 (2014-12-16) 21181℃ 0评论20喜欢

Hadoop

Hadoop 2.7 不停服升级到 3.2 在滴滴的实践

Hadoop 2.7 不停服升级到 3.2 在滴滴的实践
为什么要升级在2017年底, Hadoop3.0 发布了,到目前为止, Hadoop 发布的最新版本为3.2.1。在 Hadoop3 中有很多有用的新特性出现,如支持 ErasureCoding、多 NameNode、Standby NameNode read、DataNode Disk Balance、HDFS RBF 等等。除此之外,还有很多性能优化以及 BUG 修复。其中最吸引我们的就是 ErasureCoding 特性,数据可靠性保持不变的情况下可以降

w397090770   4年前 (2020-01-05) 2532℃ 0评论11喜欢

Hadoop

Hadoop NameNode元数据相关文件目录解析

Hadoop NameNode元数据相关文件目录解析
  下面所有的内容是针对Hadoop 2.x版本进行说明的,Hadoop 1.x和这里有点不一样。  在第一次部署好Hadoop集群的时候,我们需要在NameNode(NN)节点上格式化磁盘:[code lang="JAVA"][wyp@wyp hadoop-2.2.0]$ $HADOOP_HOME/bin/hdfs namenode -format[/code]  格式化完成之后,将会在$dfs.namenode.name.dir/current目录下如下的文件结构[code lang="JAVA"]c

w397090770   10年前 (2014-03-04) 13229℃ 1评论17喜欢

Hadoop

Apache Hadoop 的 HDFS Federation 前世今生(上)

Apache Hadoop 的 HDFS Federation 前世今生(上)
背景熟悉大数据的人应该都知道,HDFS 是一个分布式文件系统,它是基于谷歌的 GFS 思路实现的开源系统,它的设计目的就是提供一个高度容错性和高吞吐量的海量数据存储解决方案。在经典的 HDFS 架构中有2个 NameNode 和多个 DataNode 的,如下:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop从

w397090770   5年前 (2019-07-25) 2130℃ 0评论3喜欢

Linux

六种使用Linux命令发送带附件的邮件

六种使用Linux命令发送带附件的邮件
在很多场景中我们会使用Shell命令来发送邮件,而且我们还可能在邮件里面添加附件,本文将介绍使用Shell命令发送带附件邮件的几种方式,希望对大家有所帮助。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop使用mail命令mail命令是mailutils(On Debian)或mailx(On RedHat)包中的一部分,我们可以使

w397090770   7年前 (2017-02-23) 15949℃ 0评论12喜欢

Hive

Spark 1.1.0中使用Hive注意事项

Spark 1.1.0中使用Hive注意事项
  Spark 1.1.0中兼容大部分Hive特性,我们可以在Spark中使用Hive。但是默认的Spark发行版本并没有将Hive相关的依赖打包进spark-assembly-1.1.0-hadoop2.2.0.jar文件中,官方对此的说明是:Spark SQL also supports reading and writing data stored in Apache Hive. However, since Hive has a large number of dependencies, it is not included in the default Spark assembly  所以,如果你直

w397090770   10年前 (2014-09-26) 12672℃ 5评论9喜欢

Delta Lake

Spark Delta Lake 现在由Linux基金会托管,将成为数据湖的开放标准

Spark Delta Lake 现在由Linux基金会托管,将成为数据湖的开放标准
如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop一年一度的 Spark + AI Summit Europe 峰会于2019年10月15-17日在欧洲的阿姆斯特丹举行。在10年16日 数砖和 Linux 基金会共同宣布 Delta Lake 和 将成为一个 Linux 基金会项目(参考:The Delta Lake Project Turns to Linux Foundation to Become the Open Standard for Data Lakes)。该项

w397090770   5年前 (2019-10-16) 1207℃ 0评论2喜欢

Spark

Apache Spark SQL自适应执行实践

Apache Spark SQL自适应执行实践
本文作者:汪愈舟 俞育才 郭晨钊 程浩(英特尔),李元健(百度)Spark SQL是Apache Spark最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据,在很多应用领域都有成功的生产实践,但是在超大规模集群和数据集上,Spark SQL仍然遇到不少易用性和可扩展性的挑战。为了应对这些挑战,英特尔大数据技术团

w397090770   6年前 (2018-01-11) 90799℃ 0评论75喜欢

WP技巧

为WordPress的suffusion主题添加文章浏览次数

为WordPress的suffusion主题添加文章浏览次数
  Suffusion 是一款功能十分强大的免费WordPress主题,可以对样式模板、整体框架、内容调用进行自定义设置。本文主要来分享一下如何给文章添加统计次数。 安装WP-PostViews插件,这个是用来统计文章浏览次数的。 依次选择 外观-->编辑-->post-header.php 在里面找到[code lang="CPP"]<span class="comments">[/code]  可以

w397090770   11年前 (2013-04-20) 3462℃ 0评论4喜欢

Git

Window 7(Linux/Unix/Mac)下让git记住帐号和密码

Window 7(Linux/Unix/Mac)下让git记住帐号和密码
如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop在使用Git的时候,比如push操作,需要我们输入用户名和密码,如下:[code lang="bash"]D:\iteblog\spark>git push origin initUsername for 'http://gitlab.iteblog.com': iteblogPassword for 'http://iteblog@gitlab.iteblog.com':[/code]如果频繁地进行push等需要输入用户名和密码

w397090770   8年前 (2016-02-29) 2787℃ 0评论4喜欢

Flink Meetup

杭州第一次Flink Meetup会议

杭州第一次Flink Meetup会议
  杭州第一次Flink Meetup会议将于2016年11月05日在杭州市滨江区江虹路410号进行,本次活动由华为杭研院承办。  Flink Meetup目前由德国柏林和英国伦敦这两个,这次活动是国内第一次Flink Meetup线下活动,开启第三个Flink Meeup活动大本营。  当下流计算系统可选的较多,Flink的性能和特性比较突出,其他流系统也各有特点。这

w397090770   8年前 (2016-10-18) 1652℃ 0评论1喜欢

Solr

使用 Apache Solr 检索数据

使用 Apache Solr 检索数据
在《Apache Solr 介绍及安装部署》 文章里面我简单地介绍了如何在 Linux 平台搭建单机版的 Solr 服务,而且我们已经创建了一个名为 iteblog 的 core,已经导入了相关的索引数据,接下来让我们来使用 Solr 检索这些数据。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop查询所有的数据可以使用 *:*

w397090770   6年前 (2018-07-24) 1471℃ 0评论4喜欢

Hive

Apache Hive 0.13发布,新增ACID特性

Apache Hive 0.13发布,新增ACID特性
  4月16日在http://mirror.bit.edu.cn/apache/hive/hive-0.13.0/网址就可以下载Hive 0.13,这个版本在Hive执行速度、扩展性、SQL以及其他方面做了相当多的修改:一、执行速度  用户可以选择基于Tez的查询,基于Tez的查询可以大大提高Hive的查询速度(官网上上可以提升100倍)。下面一些技术对查询速度的提升:  (1)、Broadcast Joins:和M

w397090770   10年前 (2014-04-25) 8217℃ 1评论1喜欢

Hadoop

Hadoop源码编译与调试

Hadoop源码编译与调试
  虽然在运行Hadoop的时候可以打印出大量的运行日志,但是很多时候只通过打印这些日志是不能很好地跟踪Hadoop各个模块的运行状况。这时候编译与调试Hadoop源码就得派上场了。这也就是今天本文需要讨论的。编译Hadoop源码  先说说怎么编译Hadoop源码,本文主要介绍在Linux环境下用Maven来编译Hadoop。在编译Hadoop之前,我们

w397090770   10年前 (2014-01-09) 19805℃ 0评论10喜欢