欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

ClickHouse

ClickHouse 在网易的实践

ClickHouse 在网易的实践
ClickHouse作为一款开源列式数据库管理系统(DBMS)近年来备受关注,主要用于数据分析(OLAP)领域。作者根据以往经验和遇到的问题,总结出一些基本的开发和使用规范,以供使用者参考。随着公司业务数据量日益增长,数据处理场景日趋复杂,急需一种具有高可用性和高性能的数据库来支持业务发展,ClickHouse是俄罗斯的搜索公

w397090770   2年前 (2022-03-10) 1469℃ 0评论0喜欢

Hadoop

解决Spark shell模式下初始化Job出现的异常

解决Spark shell模式下初始化Job出现的异常
Spark 的 shell 作为一个强大的交互式数据分析工具,提供了一个简单的方式来学习 API。它可以使用 Scala(在 Java 虚拟机上运行现有的 Java 库的一个很好方式) 或 Python。我们很可能会在Spark Shell模式下运行下面的测试代码:如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop[code lang="scala"]scala> imp

w397090770   7年前 (2017-04-26) 2862℃ 0评论9喜欢

Cassandra

重磅:阿里云全球首发云 Cassandra 服务!

重磅:阿里云全球首发云 Cassandra 服务!
引言:十年沉淀、全球宽表排名第一、阿里云首发云Cassandra服务ApsaraDB for Cassandra是基于开源Apache Cassandra,融合阿里云数据库DBaaS能力的分布式NoSQL数据库。Cassandra已有10年+的沉淀,基于Amazon DynamoDB的分布式设计和 Google Bigtable 的数据模型。具备诸多优异特性:采用分布式架构、无中心、支持多活、弹性可扩展、高可用、容错、一

w397090770   5年前 (2019-09-05) 2109℃ 0评论4喜欢

Spark

Spark RDD API扩展开发(1)

Spark RDD API扩展开发(1)
  《Spark RDD API扩展开发(1)》、《Spark RDD API扩展开发(2):自定义RDD》  我们都知道,Apache Spark内置了很多操作数据的API。但是很多时候,当我们在现实中开发应用程序的时候,我们需要解决现实中遇到的问题,而这些问题可能在Spark中没有相应的API提供,这时候,我们就需要通过扩展Spark API来实现我们自己的方法。我们可

w397090770   9年前 (2015-03-30) 7136℃ 2评论15喜欢

Hive

Hive SQL迁移 Spark SQL 在网易传媒的实践

Hive SQL迁移 Spark SQL 在网易传媒的实践
引言:把基于mapreduce的离线hiveSQL任务迁移到sparkSQL,不但能大幅缩短任务运行时间,还能节省不少计算资源。最近我们也把组内2000左右的hivesql任务迁移到了sparkSQL,这里做个简单的记录和分享,本文偏重于具体条件下的方案选择。迁移背景 SQL任务运行慢Hive SQL处理任务虽然较为稳定,但是其时效性已经达瓶颈,无法再进一

w397090770   2年前 (2021-10-19) 749℃ 0评论2喜欢

Hadoop

Hbase 0.96.0分布式安装手册

Hbase 0.96.0分布式安装手册
在《Zookeeper 3.4.5分布式安装手册》、《Hadoop2.2.0完全分布式集群平台安装与设置》文章中,我们已经详细地介绍了如何搭建分布式的Zookeeper、Hadoop等平台,今天,我们来说说如何在Hadoop、Zookeeper上搭建完全分布式的Hbase平台。这里同样选择目前最新版的Hbase用于配合最新版的Hadoop-2.2.0,所以我们选择了Hbase-0.96.0。  1、下载并解压HB

w397090770   10年前 (2014-01-19) 11114℃ 6评论1喜欢

ElasticSearch

ElasticSearch系列文章:数据操作

ElasticSearch系列文章:数据操作
样本数据集  现在我们对于基本的东西已经有了一些认识,现在让我们尝试使用一些更加贴近现实的数据集。我准备了一些假想的客户银行账户信息的JSON文档样本。文档具有以下的模式(schema):[code lang="java"]{ "account_number": 0, "balance": 16623, "firstname": "Bradshaw", "lastname": &quo

zz~~   8年前 (2016-09-04) 1025℃ 0评论5喜欢

ElasticSearch

Elasticsearch 5.0.0版本新特性介绍

Elasticsearch 5.0.0版本新特性介绍
  Elasticsearch 5.0.0在2016年10月26日发布,该版本基于Lucene 6.2.0,这是最新的稳定版本,并且已经在Elastic Cloud上完成了部署。Elasticsearch 5.0.0是目前最快、最安全、最具弹性、最易用的版本,此版本带来了一系列的新功能和性能优化。ElasticSearch 5.0.0 release Note点击下载ElasticSearch 5.0.0阅读最新文档如果想及时了解Spark、Hadoop或者Hbase

w397090770   8年前 (2016-11-02) 4930℃ 0评论10喜欢

Flume

基于Spark的公安大数据实时运维技术实践

基于Spark的公安大数据实时运维技术实践
  公安行业存在数以万计的前后端设备,前端设备包括相机、检测器及感应器,后端设备包括各级中心机房中的服务器、应用服务器、网络设备及机房动力系统,数量巨大、种类繁多的设备给公安内部运维管理带来了巨大挑战。传统通过ICMP/SNMP、Trap/Syslog等工具对设备进行诊断分析的方式已不能满足实际要求,由于公安内部运维管

w397090770   7年前 (2017-01-01) 11145℃ 1评论37喜欢

Hadoop

Hadoop面试题系列(8/11)

Hadoop面试题系列(8/11)
一. 问答题1.hive如何调优?2.hive如何权限控制?3.hbase写数据的原理是什么?4.hive能像关系数据库那样,建多个库吗?5.hbase宕机如何处理?6.hive实现统计的查询语句是什么?7.生产环境中为什么建议使用外部表?8.hadoop mapreduce创建类DataWritable的作用是什么?9.为什么创建类DataWritable?二. 思考题1.假

w397090770   8年前 (2016-08-26) 3480℃ 0评论5喜欢

HBase

中国民生银行 HBase 读写设计与实践

中国民生银行 HBase 读写设计与实践
背景介绍本项目主要解决 check 和 opinion2 张历史数据表(历史数据是指当业务发生过程中的完整中间流程和结果数据)的在线查询。原实现基于 Oracle 提供存储查询服务,随着数据量的不断增加,在写入和读取过程中面临性能问题,且历史数据仅供业务查询参考,并不影响实际流程,从系统结构上来说,放在业务链条上游比较重。

w397090770   7年前 (2017-10-28) 2641℃ 0评论7喜欢

网站建设

关于禁止推酷网站收录本博客文章

关于禁止推酷网站收录本博客文章
为什么禁止推酷网站收录本博客文章  近一段时间观察发现,推酷网站 在我发出文章不到几分钟内就收录了,由于我网站权重很低,导致从搜索引擎里面搜索到的文章很多直接链接到推酷网站,而不能显示到我博客,这严重影响我网站!  这就是为什么每次我发文章开始都会要求回复可见。已通知推酷网处理  本

w397090770   10年前 (2014-10-17) 14036℃ 15评论65喜欢

Delta Lake

Apache Spark Delta Lake 删除使用及实现原理代码解析

Apache Spark Delta Lake 删除使用及实现原理代码解析
Delta Lake 的 Delete 功能是由 0.3.0 版本引入的,参见这里,对应的 Patch 参见这里。在介绍 Apache Spark Delta Lake 实现逻辑之前,我们先来看看如何使用 delete 这个功能。Delta Lake 删除使用Delta Lake 的官方文档为我们提供如何使用 Delete 的几个例子,参见这里,如下:[code lang="scala"]import io.delta.tables._val iteblogDeltaTable = DeltaTable.forPath(spa

w397090770   5年前 (2019-09-27) 1435℃ 0评论2喜欢

网络编程

使用HttpClient通过post方式发送json数据

使用HttpClient通过post方式发送json数据
  有时候我们在发送HTTP请求的时候会使用到POST方式,如果是传送普通的表单数据那将很方便,直接将参数到一个Key-value形式的Map中即可。但是如果我们需要传送的参数是Json格式的,会稍微有点麻烦,我们可以使用HttpClient类库提供的功能来实现这个需求。假设我们需要发送的数据是:[code lang="java"]{ "blog": "",

w397090770   9年前 (2015-06-01) 84568℃ 0评论69喜欢

Spark

杭州第三次Spark meetup会议资料分享

杭州第三次Spark meetup会议资料分享
  《Spark meetup(Beijing)资料分享》  《Spark meetup(杭州)PPT资料分享》  《北京第二次Spark meetup会议资料分享》  《北京第三次Spark meetup会议资料分享》  《北京第四次Spark meetup会议资料分享》  《北京第五次Spark meetup会议资料分享》》  《北京第六次Spark meetup会议资料分享》  《杭州第三次Spark meetup会议

w397090770   9年前 (2015-03-30) 4806℃ 0评论4喜欢

Kafka

Apache Kafka编程入门指南:Producer篇

Apache Kafka编程入门指南:Producer篇
  《Apache Kafka编程入门指南:Producer篇》  《Apache Kafka编程入门指南:设置分区数和复制因子》  Apache Kafka编程入门指南:Consumer篇  Kafka最初由Linkedin公司开发的分布式、分区的、多副本的、多订阅者的消息系统。它提供了类似于JMS的特性,但是在设计实现上完全不同,此外它并不是JMS规范的实现。kafka对消息保存

w397090770   8年前 (2016-02-05) 10206℃ 1评论12喜欢

Hadoop

Spark和Hadoop优劣

Spark和Hadoop优劣
  Spark已经取代Hadoop成为最活跃的开源大数据项目。但是,在选择大数据框架时,企业不能因此就厚此薄彼。近日,著名大数据专家Bernard Marr在一篇文章(http://www.forbes.com/sites/bernardmarr/2015/06/22/spark-or-hadoop-which-is-the-best-big-data-framework/)中分析了Spark和Hadoop的异同。  Hadoop和Spark均是大数据框架,都提供了一些执行常见大数据任务

w397090770   8年前 (2015-12-01) 9442℃ 0评论31喜欢

Git

Git 修改分支名称

Git 修改分支名称
假设现在的分支名称为 oldName,想要修改为 newName如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop本地分支重命名这种情况是你的代码还没有推送到远程,分支只是在本地存在,那直接执行下面的命令即可:[code lang="bash"]git branch -m oldName newName[/code]远程分支重命名 如果你的分支已经推

w397090770   7年前 (2017-03-02) 668℃ 0评论1喜欢

Kafka

Kafka设计解析:Kafka High Availability

Kafka设计解析:Kafka High Availability
《Kafka剖析:Kafka背景及架构介绍》《Kafka设计解析:Kafka High Availability(上)》《Kafka设计解析:Kafka High Availability (下)》《Kafka设计解析:Replication工具》《Kafka设计解析:Kafka Consumer解析》  Kafka在0.8以前的版本中,并不提供High Availablity机制,一旦一个或多个Broker宕机,则宕机期间其上所有Partition都无法继续提供服

w397090770   9年前 (2015-05-19) 5398℃ 0评论3喜欢

Spark

Apache Spark 2.4 新增内置函数和高阶函数使用介绍

Apache Spark 2.4 新增内置函数和高阶函数使用介绍
Apache Spark 2.4 新增了24个内置函数和5个高阶函数,本文将对这29个函数的使用进行介绍。关于 Apache Spark 2.4 的新特性,可以参见 《Apache Spark 2.4 正式发布,重要功能详细介绍》。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop针对数组类型的函数array_distinctarray_distinct(array<T>): array<T

w397090770   5年前 (2018-11-25) 7065℃ 0评论18喜欢

Google

最新可访问Google的Hosts文件[最新更新]

最新可访问Google的Hosts文件[最新更新]
本页面不再更新,请移步到 《2018 最新 hosts 文件持续更新》如果之前的hosts文件还有效可以不更新;由于大家使用的带宽种类,地区,被墙的程度不一样,所以有些地区使用本Hosts文件可能仍然无法使用Google;光靠修改Hosts文件是无法观看youtube里面的视频,重要的事说三遍:通过本hosts文件可以打开youtube网站,但是无法观看

w397090770   9年前 (2015-09-25) 193788℃ 376喜欢

ElasticSearch

23种非常有用的ElasticSearch查询例子(2)

23种非常有用的ElasticSearch查询例子(2)
  本系列文章将展示ElasticSearch中23种非常有用的查询使用方法。由于篇幅原因,本系列文章分为六篇,本文是此系列的第二篇文章。欢迎关注大数据技术博客微信公共账号:iteblog_hadoop。《23种非常有用的ElasticSearch查询例子(1)》《23种非常有用的ElasticSearch查询例子(2)》《23种非常有用的ElasticSearch查询例子(3)》《23种非常有用

w397090770   8年前 (2016-08-16) 5537℃ 0评论6喜欢

Alluxio

史上最全的大数据学习资源(Awesome Big Data)

史上最全的大数据学习资源(Awesome Big Data)
为了让大家更好地学习交流,过往记忆大数据花了一个周末的时间把 Awesome Big Data 里近 600 个大数据相关的调度、存储、计算、数据库以及可视化等介绍全部翻译了一遍,供大家学习交流。关系型数据库管理系统MySQL 世界上最流行的开源数据库。PostgreSQL 世界上最先进的开源数据库。Oracle Database - 对象关系数据库管理系统。T

w397090770   5年前 (2019-09-23) 12300℃ 0评论31喜欢

wordpress开发

WordPress:自定义各个类别每页显示文章数

WordPress:自定义各个类别每页显示文章数
  在Wordpress后台的设置->阅读->博客页面至多显示里面可以设置每页最多显示的文章数目,但是那个设置只能将所有的类别(首页、分类目录页、标签页、作者页)显示的文章数都设置成一个值。  但是在开发Wordpress主题的时候,有些需求需要修改不同类别的每页显示的文章数。比如首页显示10篇;分类页显示20篇;标签页显示3

w397090770   9年前 (2014-11-30) 6058℃ 0评论7喜欢

ClickHouse

Clickhouse 在58的实践之路

Clickhouse 在58的实践之路
在数据量日益增长的当下,传统数据库的查询性能已满足不了我们的业务需求。而Clickhouse在OLAP领域的快速崛起引起了我们的注意,于是我们引入Clickhouse并不断优化系统性能,提供高可用集群环境。本文主要讲述如何通过Clickhouse结合大数据生态来定制一套完善的数据分析方案、如何打造完备的运维管理平台以降低维护成本,并结合具

w397090770   3年前 (2021-01-22) 1657℃ 0评论2喜欢

Mahout

用Maven编译Mahout工程

用Maven编译Mahout工程
一、前提条件  1、安装好Java JDK 1.6或以上版本;  2、安装好Apache Maven。  如果上述条件准备好之后,下面开始用Maven编译Mahout源码二、git一份Mahout源码  用下面的命令从 Mahout GitHub 仓库Git(如果你电脑没有安装Git软件,可以参照这个安装《Git安装》)一份代码到本地[code lang="JAVA"]git clone git@github.com:apache/mahout.git

w397090770   10年前 (2014-09-16) 6149℃ 0评论3喜欢

Kafka

使用idea阅读Kafka源码

使用idea阅读Kafka源码
本文涉及到的环境:操作系统:Windows 7Idea 版本:IntelliJ IDEA 2016.3.4 Build #IU-163.12024.16, built on January 31, 2017Kafka 版本:Kafka 0.8.2.0Gradle 版本:gradle-4.0.1JDK 版本:jdk1.7.0Scala 版本:2.10.4首先到http://archive.apache.org/dist/kafka/里面下载你需要的Kafka源码,本文选自的是kafka-0.8.2.0。因为Kafka代码自0.8.x之后就使用 Gradle 来进行编译

w397090770   7年前 (2017-07-21) 6110℃ 0评论16喜欢

nginx

Nginx:504 Gateway Time-out解决

Nginx:504 Gateway Time-out解决
  如果你使用Nginx web server,你可能在访问你网站的时候出现了504 Gateway Time-out错误,这个错误代码很常见,这可能是因为超过了PHP的最大执行时间的限制或者是FastCGI读超时。这篇文章将向大家展示如何解决Nginx的504 gateway timeout的问题。一、修改php.ini文件  下面都是以CentOS服务器为例进行介绍,如果你是CentOS,那么可以直

w397090770   9年前 (2015-08-18) 19688℃ 2评论16喜欢

Spark

Spark 2.0介绍:从RDD API迁移到DataSet API

Spark 2.0介绍:从RDD API迁移到DataSet API
  《Spark 2.0技术预览:更容易、更快速、更智能》文章中简单地介绍了Spark 2.0带来的新技术等。Spark 2.0是Apache Spark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大的变化,为该框架明年的发展方向奠定了方向,所以了解Spark 2.0的一些特性对我们能够使用它有着非常重要的作用。本博客将对Spark 2.0进行一

w397090770   8年前 (2016-05-24) 13008℃ 0评论26喜欢

CPP编程

C++四种强制类型转换

C++四种强制类型转换
在C++中一共有四种强制类型转换:dynamic_cast、const_cast 、static_cast、reinterpret_cast。除了dynamic_cast是在运行的时候进行类型转换的,其它三种都是在编译期间实现转换的。四种类型的转换介绍如下: dynamic_cast:只能在继承类对象的指针之间或引用之间进行类型转换,进行转换时,会根据对象的运行时类型信息,判断类型对象之间的

w397090770   11年前 (2013-04-04) 3191℃ 0评论2喜欢