欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

Spark

在Spark中尽量少使用GroupByKey函数

在Spark中尽量少使用GroupByKey函数
  为什么建议尽量在Spark中少用GroupByKey,让我们看一下使用两种不同的方式去计算单词的个数,第一种方式使用 reduceByKey ;另外一种方式使用groupByKey,代码如下:[code lang="scala"]# User: 过往记忆# Date: 2015-05-18# Time: 下午22:26# bolg: # 本文地址:/archives/1357# 过往记忆博客,专注于hadoop、hive、spark、shark、flume的技术博客,大量

w397090770   9年前 (2015-05-18) 33281℃ 0评论51喜欢

网站建设

DataTables四种数据源

DataTables四种数据源
  DataTables是一款非常简单的前端表格展示插件,它支持排序,翻页,搜索以及在客户端和服务端分页等多种功能。官方介绍:DataTables is a plug-in for the jQuery Javascript library. It is a highly flexible tool, based upon the foundations of progressive enhancement, and will add advanced interaction controls to any HTML table.它的数据源有很多种:主要有HTML (DOM)数据源

w397090770   9年前 (2015-01-28) 14598℃ 0评论16喜欢

Java

Java8 IntStream、LongStream 以及 DoubleStream 介绍

Java8 IntStream、LongStream 以及 DoubleStream 介绍
本章节我们提供一些 Java 8 中的 IntStream、LongStream 和 DoubleStream 使用范例。IntStream、LongStream 和 DoubleStream 分别表示原始 int 流、 原始 long 流 和 原始 double 流。这三个原始流类提供了大量的方法用于操作流中的数据,同时提供了相应的静态方法来初始化它们自己。这三个原始流类都在 java.util.stream 命名空间下。java.util.stream.Int

w397090770   2年前 (2022-03-31) 117℃ 0评论0喜欢

Hadoop

Hadoop NameNode元数据相关文件目录解析

Hadoop NameNode元数据相关文件目录解析
  下面所有的内容是针对Hadoop 2.x版本进行说明的,Hadoop 1.x和这里有点不一样。  在第一次部署好Hadoop集群的时候,我们需要在NameNode(NN)节点上格式化磁盘:[code lang="JAVA"][wyp@wyp hadoop-2.2.0]$ $HADOOP_HOME/bin/hdfs namenode -format[/code]  格式化完成之后,将会在$dfs.namenode.name.dir/current目录下如下的文件结构[code lang="JAVA"]c

w397090770   10年前 (2014-03-04) 13229℃ 1评论17喜欢

Spark

Spark Summit East 2017高清视频和PPT下载

Spark Summit East 2017高清视频和PPT下载
  Spark Summit East 2017会议于2017年2月07日到09日在波士顿进行,本次会议有来自工业界的上百位Speaker;官方日程:https://spark-summit.org/east-2017/schedule/。  目前本站昨晚已经把里面的85(今天早上发现又上传了25个视频,晚上我补全)个视频全部从Youtube下载下来,已经上传到百度网盘(访问https://github.com/397090770/spark-summit-east-2017获

w397090770   7年前 (2017-02-15) 2767℃ 0评论15喜欢

Java

Ubuntu和CentOS如何配置SSH使得无密码登陆

Ubuntu和CentOS如何配置SSH使得无密码登陆
在使用Hadoop的时候,一般配置SSH使得我们可以无密码登录到主机,下面分别以Ubuntu和CentOS两个平台来举例说明如何配置SSH使得我们可以无密码登录到主机,当然,你得先安装好SSH服务器,并开启(关于如何在Linux平台下安装好SSH请参加本博客的《Linux平台下安装SSH》)在 Ubuntu 平台设置 SSH 无秘钥登录Ubuntu配置步骤如下所示:[c

w397090770   11年前 (2013-10-24) 7711℃ 4评论3喜欢

Flink

Flink:Scala API函数扩展

Flink:Scala API函数扩展
  为了保存Scala和Java API之间的一致性,一些允许Scala使用高层次表达式的特性从批处理和流处理的标准API中删除。  如果你想体验Scala表达式的全部特性,你可以通过隐式转换(implicit conversions)来加强Scala API。  为了使用这些扩展,在DataSet API中,你仅仅需要引入下面类:[code lang="scala"]import org.apache.flink.api.scala.extensio

w397090770   8年前 (2016-04-25) 3719℃ 0评论3喜欢

ElasticSearch

23种非常有用的ElasticSearch查询例子(4)

23种非常有用的ElasticSearch查询例子(4)
  本系列文章将展示ElasticSearch中23种非常有用的查询使用方法。由于篇幅原因,本系列文章分为六篇,本文是此系列的第四篇文章。欢迎关注大数据技术博客微信公共账号:iteblog_hadoop。《23种非常有用的ElasticSearch查询例子(1)》《23种非常有用的ElasticSearch查询例子(2)》《23种非常有用的ElasticSearch查询例子(3)》《23种非常有用

w397090770   8年前 (2016-09-04) 7407℃ 0评论8喜欢

Kafka

Kafka在LinkedIn公司的使用及维护实战

Kafka在LinkedIn公司的使用及维护实战
  Apache Kafka在LinkedIn和其他公司中是作为各种数据管道和异步消息的后端。Netflix和Microsoft公司作为Kafka的重量级使用者(Four Comma Club,每天万亿级别的消息量),他们在Kafka Summit的分享也让人受益良多。  虽然Kafka有着极其稳定的架构,但是在每天万亿级别消息量的大规模下也会偶尔出现有趣的bug。在本篇文章以及以后的几篇

w397090770   8年前 (2016-07-20) 5266℃ 1评论6喜欢

wordpress开发

如何替换WordPress登录页面的图标链接等

如何替换WordPress登录页面的图标链接等
  默认情况下,使用WordPress系统的博客登录页面都比较简单,登陆页面显示的logo是WordPress 的logo,链接也是WordPress的链接,如下图所示:如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop  值得高兴的是,WordPress博客系统为我们提供了很多钩子(hook)来自定义这些信息,比如Logo、链接、提

w397090770   8年前 (2016-09-03) 1866℃ 0评论6喜欢

ElasticSearch

基于 MySQL Binlog 的 ElasticSearch 数据同步实践

基于 MySQL Binlog 的 ElasticSearch 数据同步实践
背景随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。现有方法及问题对于数据同步,我们目前

w397090770   4年前 (2020-01-04) 1124℃ 0评论4喜欢

Hadoop

Hadoop作业JVM堆大小设置优化

Hadoop作业JVM堆大小设置优化
  前段时间,公司Hadoop集群整体的负载很高,查了一下原因,发现原来是客户端那边在每一个作业上擅自配置了很大的堆空间,从而导致集群负载很高。下面我就来讲讲怎么来现在客户端那边的JVM堆大小的设置。  我们知道,在mapred-site.xml配置文件里面有个mapred.child.java.opts配置,专门来配置一些诸如堆、垃圾回收之类的。看

w397090770   10年前 (2014-03-18) 19010℃ 0评论10喜欢

Spark

Spark源码分析之Worker

Spark源码分析之Worker
  Spark支持三种模式的部署:YARN、Standalone以及Mesos。本篇说到的Worker只有在Standalone模式下才有。Worker节点是Spark的工作节点,用于执行提交的作业。我们先从Worker节点的启动开始介绍。  Spark中Worker的启动有多种方式,但是最终调用的都是org.apache.spark.deploy.worker.Worker类,启动Worker节点的时候可以传很多的参数:内存、核、工作

w397090770   10年前 (2014-10-08) 11297℃ 3评论7喜欢

Hadoop

Hadoop YARN中web服务的REST API介绍

Hadoop YARN中web服务的REST API介绍
  Hadoop YARN自带了一系列的web service REST API,我们可以通过这些web service访问集群(cluster)、节点(nodes)、应用(application)以及应用的历史信息。根据API返回的类型,这些URL源归会类到不同的组。一些API返回collector类型的,有些返回singleton类型。这些web service REST API的语法如下:[code lang="JAVA"]http://{http address of service}/ws/{version}/{resourcepa

w397090770   10年前 (2014-02-27) 25931℃ 2评论18喜欢

Hive

从行存储到 RCFile,Facebook 为什么要设计出 RCFile?

从行存储到 RCFile,Facebook 为什么要设计出 RCFile?
2010年,Facebook 的工程师在 ICDC(IEEE International Conference on Data Engineering) 发表了一篇 《RCFile: A Fast and Space-efficient Data Placement Structure in MapReduce-based Warehouse Systems》 的论文,介绍了其为基于 MapReduce 的数据仓库设计的高效存储结构,这就是我们熟知的 RCFile(Record Columnar File)。下面介绍 RCFile 的一些诞生背景和设计。背景早在2010

w397090770   4年前 (2020-06-16) 1213℃ 0评论7喜欢

网站建设

一个网站空间如何配置两个独立的网站

一个网站空间如何配置两个独立的网站
  今天我有一个网站空间到期了,如果去续费空间是可以的,但是那空间是国内的,一般国内的空间都是比较贵,所以我突然想到为什么不一个网站空间配置两个独立的网站呢?虽然网站空间是一样的,但是结果配置可以使得两个不同域名访问的网站不一样,也就是说互不干扰。当然这个前提是你空间所在的服务器支持我们把一

w397090770   11年前 (2013-04-26) 4734℃ 1评论4喜欢

Git

Git 合并多个已经提交的 commits

Git 合并多个已经提交的 commits
在实际开发过程中,我们可能会每开发一些代码就会把这些代码进行提交,以防止一些意外;但是随着提交的 commits 数越来越多,一方面维护起来不便,另一方面可能会造成版本控制的混乱,为了解决这个问题,我们可以把多个 commit 合并成一个。比如下面这个 MR 一共提交了两次:如果想及时了解Spark、Hadoop或者HBase相关的文

w397090770   3年前 (2021-07-31) 999℃ 0评论3喜欢

Flume

Spark和Flume-ng整合

Spark和Flume-ng整合
  在本博客的《Spark读取Hbase中的数据》文章中我谈到了如何用Spark和Hbase整合的过程以及代码的编写测试等。今天我们继续谈谈Spark如何和Flume-ng进行整合,也就是如何将Flune-ng里面的数据发送到Spark,利用Spark进行实时的分析计算。本文将通过Java和Scala版本的程序进行程序的测试。  Spark和Flume-ng的整合属于Spark的Streaming这块。在

w397090770   10年前 (2014-07-08) 23122℃ 4评论17喜欢

ElasticSearch

使用Hive读取ElasticSearch中的数据

使用Hive读取ElasticSearch中的数据
  本文将介绍如何通过Hive来读取ElasticSearch中的数据,然后我们可以像操作其他正常Hive表一样,使用Hive来直接操作ElasticSearch中的数据,将极大的方便开发人员。本文使用的各组件版本分别为 Hive0.12、Hadoop-2.2.0、ElasticSearch 2.3.4。  我们先来看看ElasticSearch中相关表的mapping:[code lang="bash"]{ "user": { "propert

w397090770   8年前 (2016-10-26) 17018℃ 0评论29喜欢

Guava

Guava学习之Preconditions

Guava学习之Preconditions
  在编写程序的时候,很多时候都需要检查输入的参数是否符合我们的需要,比如人的年龄需要大于0,名字不能为空;如果不符合这两个要求,我们将认为这个对象是不合法的,这时候我们需要编写判断这些参数是否合法的函数,我们可能这样写:[code lang="JAVA"]package com.wyp;import java.util.ArrayList;import java.util.List;/** * Crea

w397090770   11年前 (2013-07-24) 6000℃ 4评论2喜欢

Spark

Apache Spark1.6.0正式发布

Apache Spark1.6.0正式发布
历时一个多月的投票和补丁修复,Apache Spark 1.6.0于今天凌晨正式发布。Spark 1.6.0是1.x线上第七个发行版.本发行版有来自248+的贡献者参与。详细邮件如下:Hi All,Spark 1.6.0 is the seventh release on the 1.x line. This release includes patches from 248+ contributors! To download Spark 1.6.0 visit the downloads page. (It may take a while for all mirrors to update.)A huge t

w397090770   8年前 (2016-01-05) 2962℃ 1评论5喜欢

Flume

Hadoop等大数据学习相关电子书[共85本]

Hadoop等大数据学习相关电子书[共85本]
  下面的大数据学习电子书我会陆续上传,敬请关注。一、Hadoop1、Hadoop Application Architectures2、Hadoop: The Definitive Guide, 4th Edition3、Hadoop Security Protecting Your Big Data Platform4、Field Guide to Hadoop An Introduction to Hadoop, Its Ecosystem, and Aligned Technologies5、Hadoop Operations A Guide for Developers and Administrators6、Hadoop Backup and Recovery Solutions

w397090770   9年前 (2015-08-11) 20337℃ 2评论54喜欢

Flink

Flink Forward 201904 PPT资料下载

Flink Forward 201904 PPT资料下载
Flink Forward 是由 Apache 官方授权,Apache Flink China社区支持,有来自阿里巴巴,Ververica(Apache Flink 商业母公司)、腾讯、Google、Airbnb以及 Uber 等公司参加的国际型会议。旨在汇集大数据领域一流人才共同探讨新一代大数据计算引擎技术。通过参会不仅可以了解到Flink社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕Flink生

w397090770   5年前 (2019-04-20) 3427℃ 0评论11喜欢

Spark

Spark自定义分区(Partitioner)

Spark自定义分区(Partitioner)
  我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略(这两种分区的代码解析可以参见:《Spark分区器HashPartitioner和RangePartitioner代码详解》),这两种分区策略在很多情况下都适合我们的场景。但是有些情况下,Spark内部不能符合咱们的需求,这时候我们就可以自定义分区策略。为此,Spark提供了相应的接口,我们只

w397090770   9年前 (2015-05-21) 18186℃ 0评论20喜欢

Hadoop

汽车之家离线计算平台的演进之路

汽车之家离线计算平台的演进之路
本次的分享内容分成四个部分: 1.汽车之家离线计算平台现状2.平台构建过程中遇到的问题3.基于构建过程中问题的解决方案4.离线计算平台未来规划 汽车之家离线计算平台现状 1. 汽车之家离线计算平台发展历程如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据 2013年的时候汽

w397090770   3年前 (2021-08-30) 502℃ 0评论2喜欢

Docker

Docker 公司宣布把 Docker Distribution 捐献给了 CNCF

Docker 公司宣布把 Docker Distribution 捐献给了 CNCF
2021年2月4日,负责维护 Docker 引擎的 Justin Cormack 在 Docker 官方博客宣布把 Docker 发行版(Docker Distribution)捐献给了 CNCF,全文如下:​我们很高兴地宣布,Docker 已经把 Docker 发行版(Docker Distribution)捐献给了 CNCF。Docker 致力于开源社区和我们许多项目的开放标准,这一举动将确保 Docker 发行版有一个广泛的团队来维护许多注册中心

w397090770   3年前 (2021-02-06) 220℃ 0评论2喜欢

Presto

Presto on Spark:通过 Spark 来扩展 Presto

Presto on Spark:通过 Spark 来扩展 Presto
概述Presto 最初设计是对数据仓库中的数据运行交互式查询,但现在它已经发展成为一个位于开放数据湖分析之上的统一 SQL 引擎,用于交互式和批处理工作负载,数据湖上的流行工作负载包括:报告和仪表盘:这包括为内部和外部开发人员提供自定义报告以获取业务洞察力,以及许多使用 Presto 进行交互式 A/B 测试分析的组织

w397090770   2年前 (2021-11-14) 1223℃ 0评论1喜欢

nginx

续签Let's Encrypt的HTTPS证书

续签Let's Encrypt的HTTPS证书
  本博客的《如何申请免费好用的HTTPS证书Let's Encrypt》和《在Nginx中使用Let's Encrypt免费证书配置HTTPS》文章分别介绍了如何申请Let's Encrypt的HTTPS证书和如何在nginx里面配置Let's Encrypt的HTTPS证书。但是Let's Encrypt HTTPS证书的有效期只有90天:如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop到期之

w397090770   8年前 (2016-08-07) 1556℃ 0评论4喜欢

Kafka

Spark Streaming 1.3对Kafka整合的提升详解

Spark Streaming 1.3对Kafka整合的提升详解
  Apache Kafka近年来迅速地成为开源社区流行的流输入平台。同时我们也看到了Spark Streaming的使用趋势和它类似。因此,在Spark 1.3中,社区对Kafka和Spark Streaming的整合做了很多重要的提升。主要修改如下:  1、为Kafka新增了新的Direct API。这个API可以使得每个Kafka记录仅且被处理一次(processed exactly once),即使读取过程中出现了失

w397090770   9年前 (2015-04-10) 16749℃ 0评论24喜欢