欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

Beam

为什么Google用Apache Beam彻底替换掉MapReduce

为什么Google用Apache Beam彻底替换掉MapReduce
  1月10日,Apache软件基金会宣布,Apache Beam成功孵化,成为该基金会的一个新的顶级项目,基于Apache V2许可证开源。  2003年,谷歌发布了著名的大数据三篇论文,史称三驾马车:Google FS、MapReduce、BigTable。虽然谷歌没有公布这三个产品的源码,但是她这三个产品的详细设计论文开启了全球的大数据时代!从Doug Cutting大神根据

w397090770   7年前 (2017-02-10) 1776℃ 0评论4喜欢

Spark

Spark 背后的商业公司收购的 Redash 是个啥?

Spark 背后的商业公司收购的 Redash 是个啥?
在2020年6月24日的 Spark AI summit Keynote 上,数砖的首席执行官 Ali Ghodsi 宣布其收购了 Redash 开源产品的背后公司 Redash!如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop通过这次收购,Redash 加入了 Apache Spark、Delta Lake 和 MLflow,创建了一个更大、更繁荣的开源系统,为数据团队提供了同类中最好的

w397090770   4年前 (2020-06-26) 829℃ 0评论3喜欢

Hive

Hive中Reduce个数是如何计算的

Hive中Reduce个数是如何计算的
  我们在使用Hive查询数据的时候经常会看到如下的输出:[code lang="java"]Query ID = iteblog_20160704104520_988f81d4-0b82-4778-af98-43cc1950d357Total jobs = 1Launching Job 1 out of 1Number of reduce tasks determined at compile time: 1In order to change the average load for a reducer (in bytes): set hive.exec.reducers.bytes.per.reducer=<number>In order to limit the maximum number of reducers:

w397090770   8年前 (2016-06-28) 14889℃ 1评论39喜欢

Kafka

Kafka设计解析:Replication工具

Kafka设计解析:Replication工具
《Kafka剖析:Kafka背景及架构介绍》《Kafka设计解析:Kafka High Availability(上)》《Kafka设计解析:Kafka High Availability (下)》《Kafka设计解析:Replication工具》《Kafka设计解析:Kafka Consumer解析》Topic Tool  $KAFKA_HOME/bin/kafka-topics.sh,该工具可用于创建、删除、修改、查看某个Topic,也可用于列出所有Topic。另外,该工具还

w397090770   9年前 (2015-06-05) 13719℃ 4评论7喜欢

nginx

nginx:按天自动切日志并压缩

nginx:按天自动切日志并压缩
  默认情况下,nginx将每天网站访问的日志都写在一个文件里面,随着时间的推移,这个文件势必越来越大,最终成为问题。不过我们可以写个脚本来自动地按天(或者小时)切割日志,并压缩(节约磁盘空间)。  脚本的内容如下:[code lang="bash"]#!/bin/bash logspath="/alidata/log/Nginx/access/"yesterday=`date -d '-1 day' +%Y%m%d`mv ${lo

w397090770   9年前 (2015-01-02) 15709℃ 0评论10喜欢

其他

微信公众号开发者模式自动回复图片

微信公众号开发者模式自动回复图片
微信公众号开发者模式可以支持自动回复回复文本、图片、图文、语音、视频以及音乐(参见 被动回复用户消息),下面是回复图片消息的返回结果格式:[code lang="xml"]<xml> <ToUserName><![CDATA[toUser]]></ToUserName> <FromUserName><![CDATA[fromUser]]></FromUserName> <CreateTime>12345678</CreateTime> <MsgType>

w397090770   4年前 (2020-08-04) 631℃ 0评论1喜欢

nginx

续签Let's Encrypt的HTTPS证书

续签Let's Encrypt的HTTPS证书
  本博客的《如何申请免费好用的HTTPS证书Let's Encrypt》和《在Nginx中使用Let's Encrypt免费证书配置HTTPS》文章分别介绍了如何申请Let's Encrypt的HTTPS证书和如何在nginx里面配置Let's Encrypt的HTTPS证书。但是Let's Encrypt HTTPS证书的有效期只有90天:如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop到期之

w397090770   8年前 (2016-08-07) 1556℃ 0评论4喜欢

HBase

HBase Rowkey 设计指南

HBase Rowkey 设计指南
本文来自本人于2018年12月25日在 HBase生态+Spark社区钉钉大群直播,本群每周二下午18点-19点之间进行 HBase+Spark技术分享。加群地址:https://dwz.cn/Fvqv066s。本文 PPT 下载:关注 iteblog_hadoop 微信公众号,并回复 HBase_Rowkey 关键字获取。为什么Rowkey这么重要RowKey 到底是什么如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微

w397090770   5年前 (2018-12-25) 7345℃ 0评论29喜欢

行业资讯

Bing搜索结果中加入实时代码编辑器

Bing搜索结果中加入实时代码编辑器
  微软的搜索引擎Bing和HackerRank合作,在Bing的搜索结果里面加入了实时代码编辑器,它为数以百万计的程序员提供了一种简单的方法来搜索结果,主要是允许程序员在搜索结果中直接编辑和执行代码示例,实时查看运行结果。  通常情况下,工程师需要到Stackoverflow, Stackexchange或者其他的博客搜索他们需要的答案。现在我们有

w397090770   8年前 (2016-04-11) 1634℃ 0评论2喜欢

CarbonData

Spark 2.1.0与CarbonData 1.0.0集群模式部署及使用入门指南

Spark 2.1.0与CarbonData 1.0.0集群模式部署及使用入门指南
本文作者:李寅威,从事大数据、机器学习方面的工作,目前就职于CVTE联系方式:微信(coridc),邮箱(251469031@qq.com)原文链接: Spark2.1.0 + CarbonData1.0.0集群模式部署及使用入门1 引言  Apache CarbonData是一个面向大数据平台的基于索引的列式数据格式,由华为大数据团队贡献给Apache社区,目前最新版本是1.0.0版。介于

zz~~   7年前 (2017-03-13) 3406℃ 0评论11喜欢

Hadoop

从Hadoop1.x集群升级到Hadoop2.x失败回滚步骤

从Hadoop1.x集群升级到Hadoop2.x失败回滚步骤
  在《从Hadoop1.x集群升级到Hadoop2.x步骤》文章中简单地介绍了如何从Hadoop1.x集群升级到Hadoop2.x,那里面只讨论了成功升级,那么如果集群升级失败了,我们该如何从失败中回滚呢?这正是本文所有讨论的。本文将以hadoop-0.20.2-cdh3u4升级到Hadoop-2.2.0升级失败后,如何回滚。  1、如果你将Hadoop1.x升级到Hadoop2.x的过程中失败了,当你

w397090770   10年前 (2013-12-05) 5792℃ 1评论7喜欢

Hadoop

脱离JVM? Hadoop生态圈的挣扎与演化

脱离JVM? Hadoop生态圈的挣扎与演化
  新世纪以来,互联网及个人终端的普及,传统行业的信息化及物联网的发展等产业变化产生了大量的数据,远远超出了单台机器能够处理的范围,分布式存储与处理成为唯一的选项。从2005年开始,Hadoop从最初Nutch项目的一部分,逐步发展成为目前最流行的大数据处理平台。Hadoop生态圈的各个项目,围绕着大数据的存储,计算,

w397090770   9年前 (2015-11-06) 7954℃ 0评论9喜欢

Delta Lake

深入理解 Delta Lake:Schema Enforcement & Evolution

深入理解 Delta Lake:Schema Enforcement & Evolution
在实践经验中,我们知道数据总是在不断演变和增长,我们对于这个世界的心智模型必须要适应新的数据,甚至要应对我们从前未知的知识维度。表的 schema 其实和这种心智模型并没什么不同,需要定义如何对新的信息进行分类和处理。这就涉及到 schema 管理的问题,随着业务问题和需求的不断演进,数据结构也会不断发生变化。

w397090770   4年前 (2020-09-12) 534℃ 0评论0喜欢

ClickHouse

京东 ClickHouse 高可用实践

京东 ClickHouse 高可用实践
导读:京东OLAP采取ClickHouse为主Doris为辅的策略,有3000台服务器,每天亿次查询万亿条数据写入,广泛服务于各个应用场景,经过历次大促考验,提供了稳定的服务。本文介绍了ClickHouse在京东的高可用实践,包括选型过程、集群部署、高可用架构、问题和规划。01应用场景和选型京东数据分析的场景非常多,在交易、流量、大屏

zz~~   3年前 (2021-10-08) 1032℃ 0评论3喜欢

前端框架

Material-UI:实现Google的Material模式的CSS框架

Material-UI:实现Google的Material模式的CSS框架
  Material-UI是实现了Google Material模式的CSS框架,其中包括了一系列的React组建。Material Design是2014年Google I/O发布的 势必将会成为统一 Android Mobile、Android Table、Desktop Chrome 等全平台设计语言规范,对从业人员意义重大。  为了更好地使用这个框架,推荐大家先了解一下React Library,然后再使用Material-UI。如果想及时了解Spark、H

w397090770   9年前 (2015-05-02) 11286℃ 1评论14喜欢

Presto

Presto 在腾讯的应用

Presto 在腾讯的应用
本文资料来自2021年12月09日举办的 PrestoCon 2021,议题为《Presto at Tencent at Scale Usability Extension Stability Improvement》,分享者Junyi Huang 和 Pan Liu,均为腾讯软件工程师。Presto 已被腾讯采用为不同业务部门提供临时查询和交互式查询场景。在这次演讲中,作者将分享腾讯在生产中关于 Presto 的实践。关注 过往记忆大数据公众

w397090770   2年前 (2021-12-19) 602℃ 0评论0喜欢

网站建设

在CentOS上为PHP安装Imagick和ImageMagick

在CentOS上为PHP安装Imagick和ImageMagick
  Imagick是PHP的本地扩展,通过调用ImageMagick提供的API来创建和修改图片。  而ImageMagick是一套软件系列,主要用于图片的创建、编辑以及创建bitmap图片,它支持很多格式的图片读取、转换以及编辑,这些格式包括了DPX, EXR, GIF, JPEG, JPEG-2000, PDF, PhotoCD, PNG, Postscript, SVG, and TIF等等。ImageMagick的官网(http://www.imagemagick.org/script/index.ph

w397090770   9年前 (2015-08-19) 27451℃ 0评论4喜欢

Spark

Apache Spark 3.2 正式发布,新特性详解

Apache Spark 3.2 正式发布,新特性详解
经过七轮投票, Apache Spark™ 3.2 终于在昨天正式发布了。Apache Spark™ 3.2 已经是 Databricks Runtime 10.0 的一部分,感兴趣的同学可以去试用一下。按照惯例,这个版本应该不是稳定版,所以建议大家不要在生产环境中使用。Spark 的每月 Maven 下载数量迅速增长到 2000 万,与去年同期相比,Spark 的月下载量翻了一番。Spark 已成为在单节

w397090770   2年前 (2021-10-20) 1170℃ 0评论3喜欢

公众号转载文章

一文理解实时数据仓库的演进

一文理解实时数据仓库的演进
数据处理现状:当前基于Hive的离线数据仓库已经非常成熟,数据中台体系也基本上是围绕离线数仓进行建设。但是随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀,业界最近几年就一直聚焦并探索于两个相关的热点问题:实时数仓建设和大数据架构的批流一体建设。实时数仓建设:实时数仓1.0 传统

w397090770   2年前 (2022-02-18) 582℃ 0评论1喜欢

Spark meetup

上海Spark Meetup第九次聚会

上海Spark Meetup第九次聚会
  Shanghai Apache Spark Meetup第九次聚会将在6月18日下午13:00-17:00由Intel联手饿了么在上海市普陀区金沙江路1518弄2号近铁城市广场饿了么公司5楼会议室(榴莲酥+螺狮粉)举行。欢迎大家前来参加!会议主题开场/Opening Keynote: 毕洪宇,饿了么数据运营部副总监  毕洪宇个人介绍:饿了么数据运营部副总监。本科和研究生都是同济

w397090770   8年前 (2016-06-12) 1710℃ 0评论5喜欢

Akka

Akka学习笔记:测试Actors

Akka学习笔记:测试Actors
Akka学习笔记系列文章:《Akka学习笔记:ACTORS介绍》《Akka学习笔记:Actor消息传递(1)》《Akka学习笔记:Actor消息传递(2)》  《Akka学习笔记:日志》《Akka学习笔记:测试Actors》《Akka学习笔记:Actor消息处理-请求和响应(1) 》《Akka学习笔记:Actor消息处理-请求和响应(2) 》《Akka学习笔记:ActorSystem(配置)》《Akka学习笔记

w397090770   10年前 (2014-10-16) 8088℃ 2评论7喜欢

Presto

Presto 计算下推原理与实践

Presto 计算下推原理与实践
背景在介绍 Presto 计算下推之前,我们先来回顾一下 Presto 从对应的 Connector 上读取数据的流程,过程如下:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据从上图可以看出,client 提交 SQL 到 Coordinator 上,Coordinator 接收到 SQL 之后,会进行 SQL 语法语义解析,生成逻辑计划树,然后经过 pla

w397090770   3年前 (2021-08-12) 1359℃ 0评论3喜欢

Presto

Presto在字节跳动的内部实践与优化

Presto在字节跳动的内部实践与优化
引言 在字节跳动内部,Presto 主要支撑了 Ad-hoc 查询、BI 可视化分析、近实时查询分析等场景,日查询量接近 100 万条。 功能性方面 完全兼容 SparkSQL 语法,可以实现用户从 SparkSQL 到 Presto 的无感迁移; 性能方面 实现 Join Reorder,Runtime Filter 等优化,在 TPCDS1T 数据集上性能相对社区版本提升 80.5%; 稳定性方面 首先,实

w397090770   2年前 (2021-12-30) 594℃ 0评论0喜欢

Spark

Spark北京Meetup第五次活动(Streaming专题)

Spark北京Meetup第五次活动(Streaming专题)
活动时间  1月24日下午14:00活动地点  地址:海淀区中关村软件园二期,西北旺东路10号院东区,亚信大厦 一层会议室  地图:http://j.map.baidu.com/L_1hq  为了保证大家乘车方便,特提供活动大巴时间:13:20-13:40位置:http://j.map.baidu.com/SJOLy分享内容:  邵赛赛 Intel Spark Streaming driver high availability

w397090770   9年前 (2015-01-22) 15580℃ 0评论2喜欢

Hive

Hive 1.2.1源码编译

Hive 1.2.1源码编译
  Hive 1.2.1源码编译依赖的Hadoop版本必须最少是2.6.0,因为里面用到了Hadoop的org.apache.hadoop.crypto.key.KeyProvider和org.apache.hadoop.crypto.key.KeyProviderFactory两个类,而这两个类在Hadoop 2.6.0才出现,否者会出现以下编译错误:[ERROR] /home/q/spark/apache-hive-1.2.1-src/shims/0.23/src/main/java/org/apache/hadoop/hive/shims/Hadoop23Shims.java:[43,36] package org.apache.hadoop.cry

w397090770   9年前 (2015-11-11) 13421℃ 11评论6喜欢

网站建设

解决百度统计无法获取https来源的referrer

解决百度统计无法获取https来源的referrer
  我们都知道,当我们的页面请求一个js文件、一个cs文件或者点击到其他页面,浏览器一般都会给这些请求头加上表示来源的 Referrer 字段。Referrer 在分析用户的来源时非常有用,比如大家熟悉的百度统计里面就利用到 Referrer 信息了。但是遗憾的是,目前百度统计仅仅支持来源于http页面的referrer头信息;也就是说,如果你网站是ht

w397090770   7年前 (2017-01-10) 24282℃ 0评论19喜欢

Spark

Apache Spark 2.0.0正式发布及其功能介绍

Apache Spark 2.0.0正式发布及其功能介绍
  《Apache Spark 2.0重大功能介绍》:/archives/1721  《Apache Spark作为编译器:深入介绍新的Tungsten执行引擎》:/archives/1679  《Spark 2.0技术预览:更容易、更快速、更智能》:/archives/1668  Apache Spark 2.0.0于2016-07-27正式发布。它是2.x版本线上的第一个版本。主要的更新是API可用性,SQL 2003的支持,性能提升,structured streaming

w397090770   8年前 (2016-07-27) 7571℃ 4评论7喜欢

Spark

Learning Spark, 2nd Edition 可以免费下载了

Learning Spark, 2nd Edition 可以免费下载了
《Learning Spark, 2nd Edition》这本书是由 O'Reilly Media 出版社于2020年7月出版的,作者包括 Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop图书介绍第二版已更新包含了 Spark 3.0 的一些东西,本书向数据工程师和数据科学家展示了 Spark 中结构化和统一

w397090770   4年前 (2020-09-03) 2399℃ 0评论9喜欢

ElasticSearch

ElasticSearch系列文章:安装

ElasticSearch系列文章:安装
  Elasticsearch最少需要Java 7版本,在本文写作时,推荐使用Oracle JDK 1.8.0_73版本。Java的安装和平台有关,所以本文并不打算介绍如何在各个平台上安装Java。在你安装ElasticSearch之前,先运行以下的命令检查你Java的版本:[code lang="java"]java -versionecho $JAVA_HOME[/code]  一旦我们将 Java 安装完成, 我们就可以下载并安装 Elasticsearch

w397090770   8年前 (2016-08-29) 1417℃ 0评论1喜欢

Hadoop

Hadoop2.2.0中HDFS的高可用性实现原理

Hadoop2.2.0中HDFS的高可用性实现原理
  在Hadoop2.0.0之前,NameNode(NN)在HDFS集群中存在单点故障(single point of failure),每一个集群中存在一个NameNode,如果NN所在的机器出现了故障,那么将导致整个集群无法利用,直到NN重启或者在另一台主机上启动NN守护线程。  主要在两方面影响了HDFS的可用性:  (1)、在不可预测的情况下,如果NN所在的机器崩溃了,整个

w397090770   11年前 (2013-11-14) 10514℃ 3评论22喜欢