欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

Presto

Presto 在 Pinterest 的实践

Presto 在 Pinterest 的实践
作为一家数据驱动型公司,Pinterest 的许多关键商业决策都是基于数据分析做出的。分析平台是由大数据平台团队提供的,它使公司内部的其他人能够处理 PB 级的数据,以得到他们需要的结果。数据分析是 Pinterest 的一个关键功能,不仅可以回答商业问题,还可以解决工程问题,对功能进行优先排序,识别用户面临的最常见问题,

w397090770   3年前 (2021-06-20) 509℃ 0评论0喜欢

Apache Kyuubi

Apache Kyuubi在网易的深度实践

Apache Kyuubi在网易的深度实践
分享的内容主要包括三个内容:1)Kyuubi是什么?介绍Kyuubi的核心功能以及Kyuubi在各个使用场景中的解决方案;2)Kyuubi在网易内部的定位、角色和实际使用场景;3)通过案例分享Kyuubi在实际过程中如何起到作用。Kyuubi是什么开源Kyuubi是网易秉持开源理念的作品。Kyuubi是网易第一款贡献给Apache并进入孵化的开源项目。Kyuubi主要

zz~~   2年前 (2021-12-23) 1886℃ 0评论3喜欢

Akka

Akka学习笔记:Actor生命周期

Akka学习笔记:Actor生命周期
  Akka学习笔记系列文章:  《Akka学习笔记:ACTORS介绍》  《Akka学习笔记:Actor消息传递(1)》  《Akka学习笔记:Actor消息传递(2)》    《Akka学习笔记:日志》  《Akka学习笔记:测试Actors》  《Akka学习笔记:Actor消息处理-请求和响应(1) 》  《Akka学习笔记:Actor消息处理-请求和响应(2) 》  《Akka学

w397090770   9年前 (2014-12-12) 10037℃ 1评论5喜欢

Flink

Apache Flink 在 bilibili 的优化与实践

Apache Flink 在 bilibili 的优化与实践
导读:本文主要介绍Flink实时计算在bilibili的优化,将从以下四个方面展开: 1、Flink-connector稳定性优化 2、Flink sql优化 3、Flink-runtime优化 4、对未来的展望 如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据 概述首先介绍下Flink实时计算在b站的应用场景。在b站,Flink on yarn

w397090770   3年前 (2021-09-23) 770℃ 0评论2喜欢

Hadoop

Hadoop面试题系列(6/11)

Hadoop面试题系列(6/11)
一. 问答题1. 简单说说map端和reduce端溢写的细节2. hive的物理模型跟传统数据库有什么不同3. 描述一下hadoop机架感知4. 对于mahout,如何进行推荐、分类、聚类的代码二次开发分别实现那些接口5. 直接将时间戳作为行健,在写入单个region 时候会发生热点问题,为什么呢?二. 计算题1. 比方:如今有10个文件夹, 每个

w397090770   8年前 (2016-08-26) 3124℃ 0评论1喜欢

Scala

如何让Scala脚本快速运行

如何让Scala脚本快速运行
  本博客前两篇文章介绍了如何在脚本中使用Scala(《在脚本中运行Scala》、《在脚本中使用Scala的高级特性》),我们可以在脚本里面使用Scala强大的语法,但细心的同学可能会发现每次运行脚本的时候会花上一大部分时间,然后才会有结果。我们来测试下面简单的Scala脚本:[code lang="shell"]#!/bin/shexec scala "$0" "$@"

w397090770   8年前 (2015-12-17) 4716℃ 0评论8喜欢

Delta Lake

深入理解 Delta Lake:Schema Enforcement & Evolution

深入理解 Delta Lake:Schema Enforcement & Evolution
在实践经验中,我们知道数据总是在不断演变和增长,我们对于这个世界的心智模型必须要适应新的数据,甚至要应对我们从前未知的知识维度。表的 schema 其实和这种心智模型并没什么不同,需要定义如何对新的信息进行分类和处理。这就涉及到 schema 管理的问题,随着业务问题和需求的不断演进,数据结构也会不断发生变化。

w397090770   4年前 (2020-09-12) 534℃ 0评论0喜欢

Hadoop

字节跳动十万节点 HDFS 集群多机房架构演进之路

字节跳动十万节点 HDFS 集群多机房架构演进之路
背景 现状 HDFS 全称是 Hadoop Distributed File System,其本身是 Apache Hadoop 项目的一个模块,作为大数据存储的基石提供高吞吐的海量数据存储能力。自从 2006 年 4 月份发布以来,HDFS 目前依然有着非常广泛的应用,以字节跳动为例,随着公司业务的高速发展,目前 HDFS 服务的规模已经到达“双 10”的级别: 单集群节点 10 万台级别单

w397090770   3年前 (2021-07-29) 414℃ 0评论0喜欢

Spark

Spark三种属性配置方式详细说明

Spark三种属性配置方式详细说明
随着Spark项目的逐渐成熟, 越来越多的可配置参数被添加到Spark中来。在Spark中提供了三个地方用于配置:Spark properties:这个可以控制应用程序的绝大部分属性。并且可以通过 SparkConf 对象或者Java 系统属性进行设置;环境变量(Environment variables):这个可以分别对每台机器进行相应的设置,比如IP。这个可以在每台机器的 $SPARK_HOME/co

w397090770   10年前 (2014-09-24) 56981℃ 1评论22喜欢

nginx

nginx 根据手机电脑进行不同跳转

nginx 根据手机电脑进行不同跳转
有时候我们想对来自不同平台对同一页面的访问进行处理。比如访问 https://www.iteblog.com/test.html 页面,如果是电脑的浏览器访问,直接不处理;但是如果是手机的浏览器访问这个页面我们想跳转到其他页面去。这时候有几种方法可以实现:直接通过 JavaScript 进行处理;通过 Nginx 配置来处理如果想及时了解Spark、Hadoop或者Hbase

w397090770   6年前 (2017-12-16) 1733℃ 0评论13喜欢

Hadoop

Hadoop1.x程序升级到Hadoop2.x需要的依赖库

Hadoop1.x程序升级到Hadoop2.x需要的依赖库
  根据官方文档(Apache Hadoop MapReduce - Migrating from Apache Hadoop 1.x to Apache Hadoop 2.x:http://hadoop.apache.org/docs/r2.2.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduce_Compatibility_Hadoop1_Hadoop2.html)所述,Hadoop2.x是对Hadoop1.x程序兼容的,由于Hadoop2.x对Hadoop1.x做了重大的结构调整,很多程序依赖库被拆分了,所以以前(Hadoop1.x)的依赖库不再可

w397090770   10年前 (2013-11-26) 9541℃ 3评论2喜欢

网站建设

DataTables四种数据源

DataTables四种数据源
  DataTables是一款非常简单的前端表格展示插件,它支持排序,翻页,搜索以及在客户端和服务端分页等多种功能。官方介绍:DataTables is a plug-in for the jQuery Javascript library. It is a highly flexible tool, based upon the foundations of progressive enhancement, and will add advanced interaction controls to any HTML table.它的数据源有很多种:主要有HTML (DOM)数据源

w397090770   9年前 (2015-01-28) 14598℃ 0评论16喜欢

Flink

Flink快速上手之Scala API使用

Flink快速上手之Scala API使用
  本文将介绍如何通过简单地几步来开始编写你的 Flink Scala 程序。构建工具  Flink工程可以使用不同的工具进行构建,为了快速构建Flink工程, Flink为下面的构建工具分别提供了模板:  1、SBT  2、Maven这些模板可以帮助我们组织项目结构并初始化一些构建文件。SBT创建工程1、使用Giter8可以使用下

w397090770   8年前 (2016-04-07) 10087℃ 0评论8喜欢

Hadoop

HDFS 慢节点监控及处理

HDFS 慢节点监控及处理
HDFS集群随着使用时间的增长,难免会出现一些“性能退化”的节点,主要表现为磁盘读写变慢、网络传输变慢,我们统称这些节点为慢节点。当集群扩大到一定规模,比如上千个节点的集群,慢节点通常是不容易被发现的。大多数时候,慢节点都藏匿于众多健康节点中,只有在客户端频繁访问这些有问题的节点,发现读写变慢了,

w397090770   3年前 (2020-11-12) 1293℃ 0评论7喜欢

Presto

Presto 中支持的七种 Join 类型

Presto 中支持的七种 Join 类型
SQL Join 是最重要和最昂贵的 SQL 操作之一,需要数据库工程师深入理解才能编写高效的 SQL 查询。 从数据库工程师的角度来看,了解 JOIN 操作的工作原理有助于他们优化 JOIN 以实现高效执行。 本文介绍了开源分布式计算引擎 Presto SQL 支持的 join 操作。几乎所有众所周知的数据库都支持以下五种类型的 JOIN 操作:Cross Join, Inner Join, L

w397090770   2年前 (2021-11-01) 1209℃ 0评论1喜欢

ElasticSearch

ElasticSearch系列文章:集群操作

ElasticSearch系列文章:集群操作
rest 接口  现在我们已经有一个正常运行的节点(和集群),下一步就是要去理解怎样与其通信。幸运的是,Elasticsearch提供了非常全面和强大的REST API,利用这个REST API你可以同你的集群交互。下面是利用这个API,可以做的几件事情:  1、查你的集群、节点和索引的健康状态和各种统计信息  2、管理你的集群、节点、

zz~~   8年前 (2016-08-31) 1414℃ 0评论2喜欢

Spark

精选30个炫酷的数据可视化大屏(含源码),拿走就用!

精选30个炫酷的数据可视化大屏(含源码),拿走就用!
 今天给大家分享30款开源的可视化大屏(含源码)。下载到本地后,直接运行文件夹中的index.html,即可看到大屏。01 数据可视化页面设计有动画效果,显得高大上!主要图表:柱状图、水球图、折线图等。02 数据可视化演示系统不仅有动画效果,还有科技感光效。主要图表:柱状图、折线图、饼图、地图等

zz~~   2年前 (2021-12-23) 3397℃ 0评论3喜欢

Hadoop

Hadoop 气数已尽?

Hadoop 气数已尽?
Hadoop我先从一个悲观的观点说起:Hadoop 正在迅速失去市场,我们可以从 Google 趋势走向看出这个现象:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop下面的炒作生命周期表也上面的趋势很类似:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop看起来 Hadoo

w397090770   5年前 (2019-06-23) 3666℃ 0评论32喜欢

Presto

Presto 在滴滴的探索与实践

Presto 在滴滴的探索与实践
Presto在滴滴内部发展三年,已经成为滴滴内部Ad-Hoc和Hive SQL加速的首选引擎。目前服务6K+用户,每天读取2PB ~ 3PB HDFS数据,处理30万亿~35万亿条记录,为了承接业务及丰富使用场景,滴滴Presto需要解决稳定性、易用性、性能、成本等诸多问题。我们在3年多的时间里,做了大量优化和二次开发,积攒了非常丰富的经验。本文分享了滴滴

w397090770   3年前 (2020-10-21) 1229℃ 0评论4喜欢

Hadoop

传智播客Hadoop实战视频下载地址[共14集]

传智播客Hadoop实战视频下载地址[共14集]
  这是传智播客开办Hadoop培训以来的第一部视频教程,内容讲解精细,实战实例。是EasyHadoop创始人@童小军_HD 辛苦录制的Hadoop实战视频,视频一共包括14集,下载地址在下面。  本博客分享的其他视频下载地址:《传智播客Hadoop实战视频下载地址[共14集]》、《传智播客Hadoop课程视频资料[共七天]》、《Hadoop入门视频分享[共44

w397090770   10年前 (2014-02-16) 172668℃ 7评论297喜欢

Presto

Presto 在美图的实践

Presto 在美图的实践
导读:本文的主题是Presto高性能引擎在美图的实践,首先将介绍美图在处理ad-hoc场景下为何选择Presto,其次我们如何通过外部组件对Presto高可用与稳定性的增强。然后介绍在美图业务中如何做到合理与高效的利用集群资源,最后如何利用Presto应用于部分离线计算场景中。使大家了解Presto引擎的优缺点,适合的使用场景,以及在美图

w397090770   3年前 (2021-09-01) 653℃ 0评论1喜欢

PostgreSQL

Spark SQL整合PostgreSQL

Spark SQL整合PostgreSQL
  本博客的《Spark与Mysql(JdbcRDD)整合开发》和《Spark RDD写入RMDB(Mysql)方法二》文章中介绍了如何通过Spark读写Mysql中的数据。  在生产环境下,很多公司都会使用PostgreSQL数据库,这篇文章将介绍如何通过Spark获取PostgreSQL中的数据。我将使用Spark 1.3中的DataFrame(也就是之前的SchemaRDD),我们可以通过SQLContext加载数据库中的数据,

w397090770   9年前 (2015-05-23) 12956℃ 0评论11喜欢

ElasticSearch

ElasticSearch系列文章:核心概念介绍

ElasticSearch系列文章:核心概念介绍
  在《ElasticSearch系列文章:基本介绍》中主要介绍了ElasticSearch一些使用场景,本文将对Elasticsearch的核心概念进行介绍,这对后期使用ElasticSearch有着重要的影响。  1、NearRealtime(NRT):准实时Elasticsearch是一个准实时的搜索平台,这意味着当你索引一个文档(document )时,在细微的延迟(通常1s)之后,该文件才能被搜索到。

w397090770   8年前 (2016-08-09) 2398℃ 2评论3喜欢

常用工具

21 个你应该知道的 wget 命令

21 个你应该知道的 wget 命令
如何下载整个网站用来离线浏览?怎样将一个网站上的所有 MP3 文件保存到本地的一个目录中?怎么才能将需要登陆的网页后面的文件下载下来?怎样构建一个迷你版的Google?wget 是一个自由的工具,可在包括 Mac,Window 和 Linux 在内的多个平台上使用,它可帮助你实现所有上述任务,而且还有更多的功能。与大多数下载管理器不同

w397090770   8年前 (2016-02-19) 1594℃ 0评论1喜欢

HBase

HBase在新能源汽车监控系统中的应用

HBase在新能源汽车监控系统中的应用
重庆博尼施科技有限公司是一家商用车全周期方案服务商,利用车联网、云计算、移动互联网技术,在物流领域 为商用车的生产、销售、使用、售后、回收各个环节提供一站式解决方案,其中的新能源车辆监控系统就是由该公司提供的,本文是阿里云客户重庆博尼施科技有限公司介绍如何使用阿里云 HBase 来实现新能源车辆监控系统

w397090770   5年前 (2018-11-29) 4215℃ 2评论16喜欢

Hadoop

通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]

通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]
在第一次建立Hbase表的时候,我们可能需要往里面一次性导入大量的初始化数据。我们很自然地想到将数据一条条插入到Hbase中,或者通过MR方式等。但是这些方式不是慢就是在导入的过程的占用Region资源导致效率低下,所以很不适合一次性导入大量数据。本文将针对这个问题介绍如何通过Hbase的BulkLoad方法来快速将海量数据导入到Hbas

w397090770   7年前 (2016-11-28) 17596℃ 2评论52喜欢

Flink

如何选择Apache Spark和Apache Flink

如何选择Apache Spark和Apache Flink
  Spark Streaming和Flink都能提供恰好一次的保证,即每条记录都仅处理一次。与其他处理系统(比如Storm)相比,它们都能提供一个非常高的吞吐量。它们的容错开销也都非常低。之前,Spark提供了可配置的内存管理,而Flink提供了自动内存管理,但从1.6版本开始,Spark也提供了自动内存管理。这两个流处理引擎确实有许多相似之处,

w397090770   8年前 (2016-04-02) 4612℃ 0评论5喜欢

Hadoop

Apache Hadoop 3.0.0 GA版正式发布,可以部署到线上

Apache Hadoop 3.0.0 GA版正式发布,可以部署到线上
今天凌晨 Apache Hadoop 3.0.0 GA 版本正式发布,这意味着我们就可以正式在线上使用 Hadoop 3.0.0 了!这个版本是 Apache Hadoop 3.0.0 的第一个稳定版本,有很多重大的改进,比如支持 EC、支持多于2个的NameNodes、Intra-datanode均衡器等等。下面是关于 Apache Hadoop 3.0.0 GA 的正式介绍。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微

w397090770   6年前 (2017-12-15) 3383℃ 1评论38喜欢

Apache Impala

Impala在腾讯金融大数据场景中的应用

Impala在腾讯金融大数据场景中的应用
导读:在腾讯金融场景,我们每天都会产生大量的数据,为了提升分析的交互性,让决策更加敏捷,我们引入了Impala来解决我们的分析需求。所以,本文将和大家分享Impala在腾讯金融大数据场景中的应用架构,Impala的原理,落地过程的案例和优化以及总结思考。Impala的架构 首先介绍Impala的整体架构,帮助大家从宏观角度理

w397090770   2年前 (2021-10-28) 316℃ 0评论1喜欢