欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

CPP编程

各种排序算法C++模版类实现

各种排序算法C++模版类实现
闲来无事,于是把常用的排序算法自己写了一遍,也当做是复习一下。[code lang="CPP"]/*************************************************************** * * * * * Date : 2012. 05. 03 * * Author : 397090770 * * Email : wyphao.2007@163.com * * * * * ***************************

w397090770   11年前 (2013-04-04) 3002℃ 0评论3喜欢

资料分享

IntelliJ IDEA 15激活码(破解)

IntelliJ IDEA 15激活码(破解)
本 IntelliJ IDEA 激活方式已经失效,请购买正版 IntelliJ IDEA 或者下载 免费的 IntelliJ IDEA 社区版  最近发布的idea 15带来了很多的新特性,想必大家都非常想使用这个版本。但是遗憾的是,该版本的注册方式和之前版本不一样,只能通过联网激活。本文将提供的方法可以完美地破解idea 15的联网注册问题。破解步骤如下:  1

w397090770   8年前 (2015-12-04) 815094℃ 89评论1075喜欢

Hadoop

操作系统级别对Hadoop性能优化

操作系统级别对Hadoop性能优化
  由于Hadoop自身的一些特点,它只适合用于将Linux作为操作系统的生产环境。在实际应用场景中,管理员适当对Linux内核参数进行调优,可在一定程度上提高作业的运行效率,比较有用的调整选项如下。一、增大同时打开的文件描述符和网络连接上限  在Hadoop集群中,由于涉及的作业和任务数目非常多,对于某个节点,由于

w397090770   10年前 (2014-04-02) 12889℃ 1评论7喜欢

Shark

Shark 0.9.1安装遇到的问题及解决办法

Shark 0.9.1安装遇到的问题及解决办法
这几天在集群上部署了Shark 0.9.1,我下载的是已经编译好的,Hadoop版本是2.2.0,下面就总结一下我在安装Shark的过程中遇到的问题及其解决方案。一、YARN mode not available ?[code lang="JAVA"]Exception in thread "main" org.apache.spark.SparkException: YARN mode not available ? at org.apache.spark.SparkContext$.org$apache$spark$SparkContext$$createTaskScheduler(SparkContext.

w397090770   10年前 (2014-05-05) 15983℃ 3评论4喜欢

网络编程

爬虫程序中怎么加入动态代理

爬虫程序中怎么加入动态代理
  相信很多人都用过代码写过不同的爬虫程序吧,来获取互联网上自己需要的信息,这比自己手动的去一个一个复制来的容易。但是,居然是用程序来获取某个网站里面的信息,可以知道,在很短的时间内,这个程序会访问某个网站很多次,很多网站都会对这样的情况进行屏蔽;比如,隔几分钟才能正常访问。这对于我们的爬虫

w397090770   11年前 (2013-04-02) 15864℃ 5评论26喜欢

hudi

Apache Hudi 0.7.0 版本发布,新特性介绍

Apache Hudi 0.7.0 版本发布,新特性介绍
本版本迁移指南 If migrating from release older than 0.5.3, please also check the upgrade instructions for each subsequent release below. Specifically check upgrade instructions for 0.6.0. This release does not introduce any new table versions. The HoodieRecordPayload interface deprecated existing methods, in favor of new ones that also lets us pass properties at runtime. Users areencouraged to migrate out of the depr

w397090770   3年前 (2021-01-31) 239℃ 0评论0喜欢

HBase

通过例子剖析 OpenTSDB 的 Rowkey 及列名设计

通过例子剖析 OpenTSDB 的 Rowkey 及列名设计
通过《OpenTSDB 底层 HBase 的 Rowkey 是如何设计的》 文章我们已经了解 OpenTSDB 底层的 HBase Rowkey 是如何设计的了。我们现在来测试一下 OpenTSDB 导入的时序数据到底长什么样子。在 OpenTSDB 里面默认存时序数据的表为 tsdb。前面说了,每个指标名称、标签名称以及标签值都有唯一的编码,这些编码数据是存放在 tsdb-uid 表里面。为了更加

w397090770   5年前 (2018-11-16) 2955℃ 3评论6喜欢

Deep Learning

2017年关于深度学习的十大趋势预测

2017年关于深度学习的十大趋势预测
  Carlos E. Perez对深度学习的2017年十大预测,让我们不妨看一看。有兴趣的话,可以在一年之后回顾这篇文章,看看这十大预测有多少准确命中硬件将加速一倍摩尔定律(即2017年2倍)  如果你跟踪Nvidia和Intel的发展,这当然是显而易见的。Nvidia将在整个2017年占据主导地位,只因为他们拥有最丰富的深度学习生态系统。没有头

w397090770   7年前 (2016-12-13) 2145℃ 0评论3喜欢

Akka

Akka学习笔记:Actor消息传递(1)

Akka学习笔记:Actor消息传递(1)
Akka学习笔记系列文章:《Akka学习笔记:ACTORS介绍》《Akka学习笔记:Actor消息传递(1)》《Akka学习笔记:Actor消息传递(2)》  《Akka学习笔记:日志》《Akka学习笔记:测试Actors》《Akka学习笔记:Actor消息处理-请求和响应(1) 》《Akka学习笔记:Actor消息处理-请求和响应(2) 》《Akka学习笔记:ActorSystem(配置)》《Akka学习笔记

w397090770   10年前 (2014-10-13) 21895℃ 5评论40喜欢

Spark

Spark性能优化:shuffle调优

Spark性能优化:shuffle调优
《Spark性能优化:开发调优篇》《Spark性能优化:资源调优篇》《Spark性能优化:数据倾斜调优》《Spark性能优化:shuffle调优》shuffle调优调优概述  大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对sh

w397090770   8年前 (2016-05-15) 22318℃ 2评论52喜欢

wordpress开发

WordPress所有分页URL由/page/n/变成/page-n.html实现

WordPress所有分页URL由/page/n/变成/page-n.html实现
  最近,本博客由于流量增加,网站响应速度变慢,于是将全站页面全部静态化了;其中采取的方式主要是(1)、把所有https://www.iteblog.com/archives/\d{1,}全部跳转成https://www.iteblog.com/archives/\d{1,}.html,比如之前访问https://www.iteblog.com/archives/1983链接会自动跳转到https://www.iteblog.com/archives/1983.html;(2)、所有https://www.iteblog.com/page页

w397090770   7年前 (2017-02-22) 3525℃ 2评论9喜欢

Flink

Flink:本地执行(Local Execution)

Flink:本地执行(Local Execution)
  Flink可以在单台机器上运行,甚至是单个Java虚拟机(Java Virtual Machine)。这种机制使得用户可以在本地测试或者调试Flink程序。本节主要概述Flink本地模式的运行机制。  本地环境和执行器(executors)运行你在本地的Java虚拟机上运行Flink程序,或者是在属于正在运行程序的如何Java虚拟机上。对于大部分示例程序而言,你只需简单

w397090770   8年前 (2016-04-27) 16298℃ 0评论19喜欢

其他

微信公众号开发者模式自动回复图片

微信公众号开发者模式自动回复图片
微信公众号开发者模式可以支持自动回复回复文本、图片、图文、语音、视频以及音乐(参见 被动回复用户消息),下面是回复图片消息的返回结果格式:[code lang="xml"]<xml> <ToUserName><![CDATA[toUser]]></ToUserName> <FromUserName><![CDATA[fromUser]]></FromUserName> <CreateTime>12345678</CreateTime> <MsgType>

w397090770   4年前 (2020-08-04) 631℃ 0评论1喜欢

Guava

Guava学习之CharSequenceReader

Guava学习之CharSequenceReader
  CharSequenceReader类是以CharSequence的形式读取字符。CharSequenceReader类继承自Reader类,除了remaining()、hasRemaining()以及checkOpen()函数之后,其他的函数都是重写Reader类中的函数。CharSequenceReader类声明没有用public关键字,所以我们暂时还不能调用这个类CharSequenceReader类有下面三个成员变量[code lang="JAVA"] private CharSequence seq; //存放

w397090770   11年前 (2013-09-23) 2839℃ 1评论2喜欢

Hadoop

四种常见的MapReduce设计模式

四种常见的MapReduce设计模式
  使用MapReduce解决任何问题之前,我们需要考虑如何设计。并不是任何时候都需要map和reduce job。MapReduce设计模式(MapReduce Design Pattern)整个MapReduce作业的阶段主要可以分为以下四种:  1、Input-Map-Reduce-Output  2、Input-Map-Output  3、Input-Multiple Maps-Reduce-Output  4、Input-Map-Combiner-Reduce-Output下面我将一一介绍哪种

w397090770   8年前 (2016-09-01) 5623℃ 0评论16喜欢

Hadoop

Hadoop面试题系列(6/11)

Hadoop面试题系列(6/11)
一. 问答题1. 简单说说map端和reduce端溢写的细节2. hive的物理模型跟传统数据库有什么不同3. 描述一下hadoop机架感知4. 对于mahout,如何进行推荐、分类、聚类的代码二次开发分别实现那些接口5. 直接将时间戳作为行健,在写入单个region 时候会发生热点问题,为什么呢?二. 计算题1. 比方:如今有10个文件夹, 每个

w397090770   8年前 (2016-08-26) 3124℃ 0评论1喜欢

开源软件

Apache Trafodion:基于 Hadoop 平台的事务数据库引擎

Apache Trafodion:基于 Hadoop 平台的事务数据库引擎
Apache Trafodion 是由惠普开发并开源的基于 Hadoop 平台的事务数据库引擎。提供了一个基于Hadoop平台的交易型SQL引擎。它是一个擅长处理交易型负载的Hadoop大数据解决方案。其主要特性包括:完整的ANSI SQL语言支持完整的ACID事务支持。对于读、写查询,Trafodion支持跨行,跨表和跨语句的事务保护支持多种异构存储引擎的直接访问为应

w397090770   6年前 (2018-01-07) 2315℃ 0评论5喜欢

Spark

Apache Spark1.6.0正式发布

Apache Spark1.6.0正式发布
历时一个多月的投票和补丁修复,Apache Spark 1.6.0于今天凌晨正式发布。Spark 1.6.0是1.x线上第七个发行版.本发行版有来自248+的贡献者参与。详细邮件如下:Hi All,Spark 1.6.0 is the seventh release on the 1.x line. This release includes patches from 248+ contributors! To download Spark 1.6.0 visit the downloads page. (It may take a while for all mirrors to update.)A huge t

w397090770   8年前 (2016-01-05) 2962℃ 1评论5喜欢

Hive

从 Hive 迁移到 Spark SQL 在有赞的实践

从 Hive 迁移到 Spark SQL 在有赞的实践
有赞数据平台从2017年上半年开始,逐步使用 SparkSQL 替代 Hive 执行离线任务,目前 SparkSQL 每天的运行作业数量5000个,占离线作业数目的55%,消耗的 cpu 资源占集群总资源的50%左右。本文介绍由 SparkSQL 替换 Hive 过程中碰到的问题以及处理经验和优化建议,包括以下方面的内容:有赞数据平台的整体架构。SparkSQL 在有赞的技术演进

w397090770   5年前 (2019-03-20) 8161℃ 5评论28喜欢

HBase

为了让你更全面的了解Apache HBase,我们做了这本专刊

为了让你更全面的了解Apache HBase,我们做了这本专刊
Apache HBase是基于Hadoop构建的一个分布式的、可伸缩的海量数据存储系统。随着时间的推移,HBase目前不管是在国内还是国外都受到了非常大的欢迎,以下分别是近几年 Google 和百度关于 HBase 的搜索趋势:Google如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop大家可以看到,整体趋势是越来越

w397090770   5年前 (2019-01-05) 3431℃ 4评论15喜欢

Hive

Hive分区修复命令MSCK介绍与使用

Hive分区修复命令MSCK介绍与使用
  我们在使用Hive的时候肯定遇到过建立了一张分区表,然后手动(比如使用 cp 或者 mv )将分区数据拷贝到刚刚新建的表作为数据初始化的手段;但是对于分区表我们需要在hive里面手动将刚刚初始化的数据分区加入到hive里面,这样才能供我们查询使用,我们一般会想到使用 alter table add partition 命令手动添加分区,但是如果初始化

w397090770   7年前 (2017-02-21) 16180℃ 0评论31喜欢

Scala

如何让Scala脚本快速运行

如何让Scala脚本快速运行
  本博客前两篇文章介绍了如何在脚本中使用Scala(《在脚本中运行Scala》、《在脚本中使用Scala的高级特性》),我们可以在脚本里面使用Scala强大的语法,但细心的同学可能会发现每次运行脚本的时候会花上一大部分时间,然后才会有结果。我们来测试下面简单的Scala脚本:[code lang="shell"]#!/bin/shexec scala "$0" "$@"

w397090770   8年前 (2015-12-17) 4716℃ 0评论8喜欢

Spark

精选30个炫酷的数据可视化大屏(含源码),拿走就用!

精选30个炫酷的数据可视化大屏(含源码),拿走就用!
 今天给大家分享30款开源的可视化大屏(含源码)。下载到本地后,直接运行文件夹中的index.html,即可看到大屏。01 数据可视化页面设计有动画效果,显得高大上!主要图表:柱状图、水球图、折线图等。02 数据可视化演示系统不仅有动画效果,还有科技感光效。主要图表:柱状图、折线图、饼图、地图等

zz~~   2年前 (2021-12-23) 3397℃ 0评论3喜欢

Spark meetup

上海第七次Spark meetup会议资料分享

上海第七次Spark meetup会议资料分享
  上海Spark meetup第七次聚会将于2016年1月23日(周六)在上海市长宁区金钟路968号凌空SOHO 8号楼 进行。此次聚会由Intel联合携程举办。大会主题  1、开场/Opening Keynote: 张翼,携程大数据平台的负责人  个人介绍:本科和研究生都是浙江大学;2015年加入携程,推动携程大数据平台的演进;对大数据底层框架Hadoop,HIVE,Spark

w397090770   8年前 (2016-01-28) 2491℃ 0评论6喜欢

HBase

中国民生银行 HBase 读写设计与实践

中国民生银行 HBase 读写设计与实践
背景介绍本项目主要解决 check 和 opinion2 张历史数据表(历史数据是指当业务发生过程中的完整中间流程和结果数据)的在线查询。原实现基于 Oracle 提供存储查询服务,随着数据量的不断增加,在写入和读取过程中面临性能问题,且历史数据仅供业务查询参考,并不影响实际流程,从系统结构上来说,放在业务链条上游比较重。

w397090770   7年前 (2017-10-28) 2641℃ 0评论7喜欢

Hadoop

Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(二)

Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(二)
  由于本文比较长,考虑到篇幅问题,所以将本文拆分为二,请阅读本文之前先阅读本文的第一部分《Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)》。为你带来的不变,敬请谅解。  与MultipleOutputFormat类不一样的是,MultipleOutputs可以为不同的输出产生不同类型,到这里所说的MultipleOutputs类还是旧版本的功能,后

w397090770   10年前 (2013-11-27) 21407℃ 0评论17喜欢

Flume

Spark和Flume-ng整合

Spark和Flume-ng整合
  在本博客的《Spark读取Hbase中的数据》文章中我谈到了如何用Spark和Hbase整合的过程以及代码的编写测试等。今天我们继续谈谈Spark如何和Flume-ng进行整合,也就是如何将Flune-ng里面的数据发送到Spark,利用Spark进行实时的分析计算。本文将通过Java和Scala版本的程序进行程序的测试。  Spark和Flume-ng的整合属于Spark的Streaming这块。在

w397090770   10年前 (2014-07-08) 23122℃ 4评论17喜欢

Spark

Apache Spark 3.1.1 版本发布,众多新特性

Apache Spark 3.1.1 版本发布,众多新特性
Apache Spark 3.1.1 版本于美国当地时间2021年3月2日正式发布,这个版本继续保持使得 Spark 更快,更容易和更智能的目标,Spark 3.1 的主要目标如下:提升了 Python 的可用性;加强了 ANSI SQL 兼容性;加强了查询优化;Shuffle hash join 性能提升;History Server 支持 structured streaming注意,由于技术上的原因,Apache Spark 没有发布 3.1.0 版

w397090770   3年前 (2021-03-03) 2156℃ 0评论9喜欢

Linux

六种使用Linux命令发送带附件的邮件

六种使用Linux命令发送带附件的邮件
在很多场景中我们会使用Shell命令来发送邮件,而且我们还可能在邮件里面添加附件,本文将介绍使用Shell命令发送带附件邮件的几种方式,希望对大家有所帮助。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop使用mail命令mail命令是mailutils(On Debian)或mailx(On RedHat)包中的一部分,我们可以使

w397090770   7年前 (2017-02-23) 15947℃ 0评论12喜欢