欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

Mahout

Mahout项目已经实现的算法

Mahout项目已经实现的算法
  Mahout项目发展到了今天已经实现了许多的算法。下面列出Mahout项目主要的算法名称,供大家参考。一、协同过滤 Collaborative Filtering  1、基于用户的协同过滤 User-Based Collaborative Filtering  2、基于项目的协同过滤统 Item-Based Collaborative Filtering  3、交替最小二乘张量分解 Matrix Factorization with Alternating Least Squares  4、基

w397090770   10年前 (2014-09-23) 9463℃ 0评论17喜欢

HBase

Apache HBase中等对象存储MOB压缩分区策略介绍

Apache HBase中等对象存储MOB压缩分区策略介绍
关于 HBase 的 MOB 具体使用可以参见 《HBase MOB(Medium Object)使用入门指南》介绍Apache HBase 中等对象存储(Medium Object Storage, 下面简称 MOB)的特性是由 HBASE-11339 引入的。该功能可以提高 HBase 对中等尺寸文件的低延迟读写访问(理想情况下,文件大小为 100K 到 10MB),这个功能使得 HBase 非常适合存储文档,图片和其他中等尺寸的对

w397090770   6年前 (2018-08-27) 2269℃ 0评论2喜欢

Spark

Spark meetup(Beijing)资料分享

Spark meetup(Beijing)资料分享
  《Spark meetup(Beijing)资料分享》  《Spark meetup(杭州)PPT资料分享》  《北京第二次Spark meetup会议资料分享》  《北京第三次Spark meetup会议资料分享》  《北京第四次Spark meetup会议资料分享》  《北京第五次Spark meetup会议资料分享》》  《北京第六次Spark meetup会议资料分享》  下面是Spark meetup(Beijing)第

w397090770   10年前 (2014-08-29) 23664℃ 204评论16喜欢

分布式系统理论

MPP 和 Batch 架构优缺点对比

MPP 和 Batch 架构优缺点对比
Apache HAWQ(incubating)的第一个版本受益于ASF(Apache software foundation)组织,通过将MPP(Massively Parallel Processing)和批处理系统(batch system)有效的结合,在性能上有了很大的提升,并且克服了一些关键的限制问题。一个新的重新设计的执行引擎在以下的几个问题在总体系统性能上有了很大的提高:硬件错误引起的短板问题(straggler)并发限制

w397090770   3年前 (2021-06-18) 871℃ 0评论0喜欢

nginx

Nginx:413 Request Entity Too Large解决

Nginx:413 Request Entity Too Large解决
  最近在做给博客添加上传PDF的功能,但是在测试上传文件的过程中遇到了413 Request Entity Too Large错误。不过这个无错误是很好解决的,这个错误的出现是因为上传的文件大小超过了Nginx和PHP的配置,我们可以通过以下的方法来解决:一、设置PHP上传文件大小限制  PHP默认的文件上传大小是2M,我们可以通过修改php.ini里面的

w397090770   9年前 (2015-08-17) 20581℃ 0评论6喜欢

Flume

Flume-0.9.4配置Hbase sink

Flume-0.9.4配置Hbase sink
  在本博客的《Flume-1.4.0和Hbase-0.96.0整合》我们已经学习了如何使用Flume-1.4.0和Hbase-0.96.0进行整合。我们可以很容易的配置Hbase sink,并和最新版的Hbase整合,但是由于项目的特殊情况,我需要将Flume-0.9.4和Hbase-0.96整合,搞过这个的人应该知道,Flume-0.9.4和Hbase-0.96非常棘手,各种版本的不兼容等情况,最终通过我和同事的两天奋战

w397090770   10年前 (2014-01-25) 7059℃ 1评论2喜欢

Idea

IntelliJ IDEA 2020.1 稳定版发布

IntelliJ IDEA 2020.1 稳定版发布
IntelliJ IDEA 2020.1 稳定版来了!这是今年发布的首个重大更新版本,新版本增加了对 Java 14 的支持、为部分 Web 和测试框架添加新功能、为调试器添加数据流分析协助功能(dataflow analysis assistance)、新增 LightEdit 模式,以及支持从 IDE 下载和配置 JDK。下载地址 https://www.jetbrains.com/idea/download,也可以使用 Toolbox App 进行更新

w397090770   4年前 (2020-04-10) 189℃ 0评论2喜欢

Cassandra

Apache Cassandra 数据存储模型

Apache Cassandra 数据存储模型
我们在《Apache Cassandra 简介》文章中介绍了 Cassandra 的数据模型类似于 Google 的 Bigtable,对应的开源实现为 Apache HBase,而且我们在 《HBase基本知识介绍及典型案例分析》 文章中简单介绍了 Apache HBase 的数据模型。按照这个思路,Apache Cassandra 的数据模型应该和 Apache HBase 的数据模型很类似,那么这两者的数据存储模型是不是一样的呢?

w397090770   5年前 (2019-04-28) 1722℃ 0评论4喜欢

Mysql

Spark RDD写入RMDB(Mysql)方法二

Spark RDD写入RMDB(Mysql)方法二
  在本博客的《Spark将计算结果写入到Mysql中》文章介绍了如果将Spark计算后的RDD最终 写入到Mysql等关系型数据库中,但是这些写操作都是自己实现的,弄起来有点麻烦。不过值得高兴的是,前几天发布的Spark 1.3.0已经内置了读写关系型数据库的方法,我们可以直接在代码里面调用。  Spark 1.3.0中对数据库写操作是通过DataFrame类

w397090770   9年前 (2015-03-17) 13485℃ 6评论16喜欢

前端框架

网站优化:图片异步加载

网站优化:图片异步加载
  随着网站的文章越来越多,网站的图片也不知不觉的多了起来,图片多起来带来的问题就是访问的人多的时候会导致页面加载速度越来越慢,这严重影响了网站的用户体验,所以网站图片异步加载势在必行。  图片异步加载就是图片只有在视野范围内才加载,没出现在范围内的图片就暂不加载,等用户滑动滚动条时再逐步

w397090770   8年前 (2016-07-08) 3325℃ 0评论7喜欢

Linux命令

Linux切割文件命令:split

Linux切割文件命令:split
  Linux提供了spilt命令来切割文件,我们可以按照行、文件大小对一个大的文件进行切割。先来看看这个命令的帮助:[code lang="shell"][iteblog@iteblog iteblog]$ split --helpUsage: split [OPTION]... [INPUT [PREFIX]]Output fixed-size pieces of INPUT to PREFIXaa, PREFIXab, ...; defaultsize is 1000 lines, and default PREFIX is `x'. With no INPUT, or when INPUTis -, read standard input.

w397090770   8年前 (2015-12-14) 3621℃ 0评论5喜欢

ElasticSearch

ElasticSearch系列文章:核心概念介绍

ElasticSearch系列文章:核心概念介绍
  在《ElasticSearch系列文章:基本介绍》中主要介绍了ElasticSearch一些使用场景,本文将对Elasticsearch的核心概念进行介绍,这对后期使用ElasticSearch有着重要的影响。  1、NearRealtime(NRT):准实时Elasticsearch是一个准实时的搜索平台,这意味着当你索引一个文档(document )时,在细微的延迟(通常1s)之后,该文件才能被搜索到。

w397090770   8年前 (2016-08-09) 2398℃ 2评论3喜欢

网站建设

DataTables四种数据源

DataTables四种数据源
  DataTables是一款非常简单的前端表格展示插件,它支持排序,翻页,搜索以及在客户端和服务端分页等多种功能。官方介绍:DataTables is a plug-in for the jQuery Javascript library. It is a highly flexible tool, based upon the foundations of progressive enhancement, and will add advanced interaction controls to any HTML table.它的数据源有很多种:主要有HTML (DOM)数据源

w397090770   9年前 (2015-01-28) 14598℃ 0评论16喜欢

Scala

[12-26]华东地区scala爱好者聚会

[12-26]华东地区scala爱好者聚会
活动内容2015年下半年华东地区scala爱好者聚会,这次活动有杭州九言科技(代表作是In App)提供场地。本次活动内容不局限scala也包含一些创业公司的技术架构地点:杭州西湖区万塘路8号黄龙时代广场A座1802时间:2015年12月26日 13:00 ~ 2015年12月26日 17:30限制: 限额35人费用:免费活动安排1) 《scala和storm下的流式计算

w397090770   8年前 (2015-12-16) 2385℃ 0评论6喜欢

Pulsar

Apache Pulsar:雅虎开发的企业级发布订阅消息系统

Apache Pulsar:雅虎开发的企业级发布订阅消息系统
Apache Pulsar(孵化器项目)是一个企业级的发布订阅(pub-sub)消息系统,最初由Yahoo开发,并于2016年底开源,现在是Apache软件基金会的一个孵化器项目。Pulsar在Yahoo的生产环境运行了三年多,助力Yahoo的主要应用,如Yahoo Mail、Yahoo Finance、Yahoo Sports、Flickr、Gemini广告平台和Yahoo分布式键值存储系统Sherpa。如果想及时了解Spark、Hadoop

w397090770   6年前 (2018-01-16) 1971℃ 0评论9喜欢

Hive

Apache Hive 联邦查询(Query Federation)

Apache Hive 联邦查询(Query Federation)
如今,很多公司可能会在内部使用多种数据存储和处理系统。这些不同的系统解决了对应的使用案例。除了传统的 RDBMS (比如 Oracle DB,Teradata或PostgreSQL) 之外,我们还会使用 Apache Kafka 来获取流和事件数据。使用 Apache Druid 处理实时系列数据(real-time series data),使用 Apache Phoenix 进行快速索引查找。 此外,我们还可能使用云存储

w397090770   5年前 (2019-03-16) 4977℃ 1评论7喜欢

常用工具

Font Awesome:图标字体,完全CSS控制

Font Awesome:图标字体,完全CSS控制
  相关图标矢量字库:《Font Awesome:图标字体》、《阿里巴巴矢量图标库:Iconfont》  Font Awesome是一种web font,它包含了几乎所有常用的图标,比如Twitter、facebook等等。用户可以自定义这些图标字体,包括大小、颜色、阴影效果以及其它可以通过CSS控制的属性。它有以下的优点: 1、像矢量图形一样,可以无限放大 2、只

w397090770   10年前 (2014-08-20) 43988℃ 1评论115喜欢

ClickHouse

QQ音乐PB级ClickHouse实时数据平台架构演进之路

QQ音乐PB级ClickHouse实时数据平台架构演进之路
OLAP(On-Line Analytical Processing),是数据仓库系统的主要应用形式,帮助分析人员多角度分析数据,挖掘数据价值。本文基于QQ音乐海量大数据实时分析场景,通过QQ音乐与腾讯云EMR产品深度合作的案例解读,还原一个不一样的大数据云端解决方案。一、背景介绍QQ音乐是腾讯音乐旗下一款领先的音乐流媒体产品,平台打造了“听

w397090770   3年前 (2020-10-21) 1107℃ 0评论0喜欢

Spark

使用Spark处理存储于Hive中的Twitter数据的一些技巧

使用Spark处理存储于Hive中的Twitter数据的一些技巧
本文将介绍使用Spark batch作业处理存储于Hive中Twitter数据的一些实用技巧。首先我们需要引入一些依赖包,参考如下:[code lang="scala"]name := "Sentiment"version := "1.0"scalaVersion := "2.10.6"assemblyJarName in assembly := "sentiment.jar"libraryDependencies += "org.apache.spark" % "spark-core_2.10" % "1.6.0&qu

zz~~   8年前 (2016-08-31) 3311℃ 0评论5喜欢

Hive

用Hive分析nginx日志

用Hive分析nginx日志
  这里用到的nginx日志是网站的访问日志,比如:[code lang="java"]180.173.250.74 - - [08/Jan/2015:12:38:08 +0800] "GET /avatar/xxx.png HTTP/1.1" 200 968 "/archives/994" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36"[/code]  这条日志里面有九列(为了展示的美观,我在里面加入了换行

w397090770   9年前 (2015-01-08) 14208℃ 2评论17喜欢

Hadoop

Hadoop安全模式详解及配置

Hadoop安全模式详解及配置
  在《Hadoop 1.x中fsimage和edits合并实现》文章中提到,Hadoop的NameNode在重启的时候,将会进入到安全模式。而在安全模式,HDFS只支持访问元数据的操作才会返回成功,其他的操作诸如创建、删除文件等操作都会导致失败。  NameNode在重启的时候,DataNode需要向NameNode发送块的信息,NameNode只有获取到整个文件系统中有99.9%(可以配

w397090770   10年前 (2014-03-13) 17203℃ 3评论16喜欢

Hadoop

Hadoop 2.7 不停服升级到 3.2 在滴滴的实践

Hadoop 2.7 不停服升级到 3.2 在滴滴的实践
为什么要升级在2017年底, Hadoop3.0 发布了,到目前为止, Hadoop 发布的最新版本为3.2.1。在 Hadoop3 中有很多有用的新特性出现,如支持 ErasureCoding、多 NameNode、Standby NameNode read、DataNode Disk Balance、HDFS RBF 等等。除此之外,还有很多性能优化以及 BUG 修复。其中最吸引我们的就是 ErasureCoding 特性,数据可靠性保持不变的情况下可以降

w397090770   4年前 (2020-01-05) 2532℃ 0评论11喜欢

Scala

Effective Scala中文版文档

Effective Scala中文版文档
  Marius Eriksen, Twitter Inc.  marius@twitter.com (@marius)  [translated by hongjiang(@hongjiang), tongqing(@tongqing)]序言  Scala是Twitter使用的主要应用编程语言之一。很多我们的基础架构都是用scala写的,我们也有一些大的库支持我们使用。虽然非常有效, Scala也是一门大的语言,经验教会我们在实践中要非常小心。 它有什么陷阱?哪些特

w397090770   9年前 (2015-04-11) 7386℃ 0评论3喜欢

Spark

[电子书]Pro Spark Streaming pdf电子书下载

[电子书]Pro Spark Streaming pdf电子书下载
  本书介绍了如何使用 Spark Streaming 开发应用程序已经一些最佳实践。适合数据科学家、大数据专家、BI分析以及数据架构师阅读。全书名称:Pro Spark Streaming The Zen of Real-Time Analytics Using Apache Spark,作者Nabi, Zubair,由Apress于2016-07-01出版,全书共231页。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog

zz~~   7年前 (2016-12-18) 4517℃ 0评论6喜欢

Spark

Spark函数讲解:collect

Spark函数讲解:collect
  将RDD转成Scala数组,并返回。函数原型[code lang="scala"]def collect(): Array[T]def collect[U: ClassTag](f: PartialFunction[T, U]): RDD[U][/code]  collect函数的定义有两种,我们最常用的是第一个。第二个函数需要我们提供一个标准的偏函数,然后保存符合的元素到MappedRDD中。实例[code lang="scala"]/** * User: 过往记忆 * Date: 15-03-11 * Ti

w397090770   9年前 (2015-03-11) 29741℃ 0评论22喜欢

Flink

Blink: 阿里巴巴是如何使用Apache Flink的

Blink: 阿里巴巴是如何使用Apache Flink的
  阿里巴巴是世界上最大的电子商务零售商。 我们在2015年的年销售额总计3940亿美元,超过eBay和亚马逊之和。阿里巴巴搜索(个性化搜索和推荐平台)是客户的关键入口,并承载了大部分在线收入,因此搜索基础架构团队需要不断探索新技术来改进产品。  在电子商务网站应用场景中,什么能造就一个强大的搜索引擎?答案

w397090770   7年前 (2017-02-16) 6862℃ 0评论6喜欢

Hadoop

HDFS 2.x 升级 3.x 在车好多的实践

HDFS 2.x 升级 3.x 在车好多的实践
本文来自车好多大数据离线存储团队相关同事的投稿,本文作者: 车好多大数据离线存储团队:冯武、王安迪。升级的背景HDFS 集群作为大数据最核心的组件,在公司承载了DW、AI、Growth 等重要业务数据的存储重任。随着业务的高速发展,数据的成倍增加,HDFS 集群出现了爆炸式的增长,使用率一直处于很高的水位。同时 HDFS文件

w397090770   3年前 (2020-11-24) 1237℃ 0评论2喜欢

Hadoop

Hive insert into语句用法

Hive insert into语句用法
在Hive0.8开始支持Insert into语句,它的作用是在一个表格里面追加数据。标准语法语法如下:[code lang="sql"]用法一:INSERT OVERWRITE TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...) [IF NOT EXISTS]] select_statement1 FROM from_statement;用法二:INSERT INTO TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...)] select_statement1 FROM from_statement;[/code

w397090770   11年前 (2013-10-30) 101824℃ 2评论66喜欢