欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

Spark

使用Ganglia监控Spark

使用Ganglia监控Spark
在本博客的《Spark Metrics配置详解》文章中介绍了Spark Metrics的配置,其中我们就介绍了Spark监控支持Ganglia Sink。Ganglia是UC Berkeley发起的一个开源集群监视项目,主要是用来监控系统性能,如:cpu 、mem、硬盘利用率, I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性

w397090770   9年前 (2015-05-11) 13773℃ 1评论13喜欢

Spark

在Yarn上运行Apache Zeppelin & Spark

在Yarn上运行Apache Zeppelin & Spark
  默认情况下,Apache Zeppelin启动Spark是以本地模式起的,master的值是local[*],我们可以通过修改conf/zeppelin-env.sh文件里面的MASTER的值如下:[code lang="bash"]export MASTER= yarn-clientexport HADOOP_HOME=/home/q/hadoop/hadoop-2.2.0export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop/[/code]然后启动Zeppelin,但是我们有时会发现日志出现了以下的异常信息:ERRO

w397090770   8年前 (2016-01-22) 11995℃ 16评论12喜欢

HBase

HBase 工程中 protobuf 版本冲突解决

HBase 工程中 protobuf 版本冲突解决
Protobuf (全称 Protocol Buffers)是 Google 开发的一种数据描述语言,能够将结构化数据序列化,可用于数据存储、通信协议等方面。在 HBase 里面用使用了 Protobuf 的类库,目前 Protobuf 最新版本是 3.6.1(参见这里),但是在目前最新的 HBase 3.0.0-SNAPSHOT 对 Protobuf 的依赖仍然是 2.5.0(参见 protobuf.version),但是这些版本的 Protobuf 是互补兼

w397090770   5年前 (2018-11-26) 5280℃ 0评论10喜欢

Idea

IntelliJ IDEA 2020.1 稳定版发布

IntelliJ IDEA 2020.1 稳定版发布
IntelliJ IDEA 2020.1 稳定版来了!这是今年发布的首个重大更新版本,新版本增加了对 Java 14 的支持、为部分 Web 和测试框架添加新功能、为调试器添加数据流分析协助功能(dataflow analysis assistance)、新增 LightEdit 模式,以及支持从 IDE 下载和配置 JDK。下载地址 https://www.jetbrains.com/idea/download,也可以使用 Toolbox App 进行更新

w397090770   4年前 (2020-04-10) 189℃ 0评论2喜欢

ElasticSearch

Elasticsearch乐观锁并发控制(optimistic concurrency control)

Elasticsearch乐观锁并发控制(optimistic concurrency control)
  Elasticsearch是一个分布式系统。当documents被创建、更新或者删除,其新版本会被复制到集群的其它节点。Elasticsearch既是异步的(asynchronous )也是同步的(concurrent),其含义是复制请求都是并行发送的,但是到达目的地的顺序是无序的。Elasticsearch系统需要一种方法使得老版本的文档永远都无法覆盖新的版本。  每当文档被改变的

w397090770   8年前 (2016-08-11) 3646℃ 1评论2喜欢

Presto

Presto 两种 JOIN 算法实现

Presto 两种 JOIN 算法实现
我们在 《Presto 中支持的七种 Join 类型》 这篇文章中介绍了 Presto 可用的 JOIN 操作的基础知识,以及如何在 SQL 查询中使用它们。有了这些知识,我们现在可以了解 Presto 的内部结构以及它如何在内部执行 JOIN 操作。本文将介绍 Presto 如何执行 JOIN 操作以及用于 JOIN 的算法。JOIN 的实现几乎所有的数据库引擎一次只 JOIN 两个表。即

w397090770   2年前 (2021-11-17) 635℃ 0评论0喜欢

Mesos

Apache Mesos发布1.0.0版本及其功能介绍

Apache Mesos发布1.0.0版本及其功能介绍
  几天前(2016年7月27日),Apache社区发布了Apache Mesos 1.0.0, 这是 Apache Mesos 的一个里程碑事件。相较于前面的版本, 1.0.0首先是改进了与 docker 的集成方式,弃用了 docker daemon;其次,新版本大力推进解决了接口规范化问题,新的 HTTP API 使得开发者能够更容易的开发 Mesos 框架;最后, 为了更好的满足企业用户的多租户,安全,审

w397090770   8年前 (2016-07-31) 1998℃ 0评论2喜欢

Spark

使用Spark处理存储于Hive中的Twitter数据的一些技巧

使用Spark处理存储于Hive中的Twitter数据的一些技巧
本文将介绍使用Spark batch作业处理存储于Hive中Twitter数据的一些实用技巧。首先我们需要引入一些依赖包,参考如下:[code lang="scala"]name := "Sentiment"version := "1.0"scalaVersion := "2.10.6"assemblyJarName in assembly := "sentiment.jar"libraryDependencies += "org.apache.spark" % "spark-core_2.10" % "1.6.0&qu

zz~~   8年前 (2016-08-31) 3311℃ 0评论5喜欢

Spark

Spark 2.0技术预览版正式发布下载

Spark 2.0技术预览版正式发布下载
  在过去Spark社区创建了Spark 2.0的技术预览版,经过几天的投票,目前该技术预览版今天正式公布。《Spark 2.0技术预览:更容易、更快速、更智能》文章中详细介绍了Spark 2.0给我们带来的新功能,总体上Spark 2.0提升了下面三点:  1. 对标准的SQL支持,统一DataFrame和Dataset API。现在已经可以运行TPC-DS所有的99个查询,这99个查

w397090770   8年前 (2016-05-25) 2559℃ 0评论3喜欢

ClickHouse

京东 ClickHouse 高可用实践

京东 ClickHouse 高可用实践
导读:京东OLAP采取ClickHouse为主Doris为辅的策略,有3000台服务器,每天亿次查询万亿条数据写入,广泛服务于各个应用场景,经过历次大促考验,提供了稳定的服务。本文介绍了ClickHouse在京东的高可用实践,包括选型过程、集群部署、高可用架构、问题和规划。01应用场景和选型京东数据分析的场景非常多,在交易、流量、大屏

zz~~   3年前 (2021-10-08) 1032℃ 0评论3喜欢

Java

比较安全的两整数平均值算法实现

比较安全的两整数平均值算法实现
  求两个整数的平均值这个问题相信大家都想过,大家肯定会很快的写出以下的算法:[code lang="JAVA"]public static int mean(int a, int b){ return (a + b) / 2;}或者public static int mean(int a, int b){ return (a + b) >> 1;}或者public static int mean(int a, int b){ return (a + b) >>> 1;}[/code]  不错,上面的函数是能够求出a和b的平

w397090770   11年前 (2013-09-18) 5494℃ 5评论3喜欢

MongoDB

MongoDB 在查询中利用 $expr 来实现聚合表达

MongoDB 在查询中利用 $expr 来实现聚合表达
With MongoDB 3.6 the query language gains a new level of expressivity: you can now make use of aggregation expressions in a query using the $expr operator. This feature allows you to take full advantage of all expression operators within all queries, much of which previously had to be done within application logic or was restricted to the aggregation pipeline. $expr offers better performance than the $where operator, which while still a

w397090770   3年前 (2021-04-27) 2233℃ 0评论2喜欢

Flink

Flink可查询状态Queryable State:替换你的数据库

Flink可查询状态Queryable State:替换你的数据库
  好吧,有点标题党了!哈哈,这里介绍的Flink可查询状态提供的功能是有限的,不可能完全替换掉你的数据库(也可以说是持久化存储)。  我在《Apache Flink 1.2.0新功能概述》文章中简单介绍了即将发布的Apache Flink 1.2.0一些比较重要的新功能,其中就提到了Flink 1.2版本的两大重要特性:动态扩展(Dynamic Scaling)和可查询状

w397090770   7年前 (2017-01-15) 4789℃ 0评论4喜欢

wordpress开发

WordPress获取文章附件(多媒体)

WordPress获取文章附件(多媒体)
  在Wordpress后台里面有个选项是 多媒体->媒体库 里面显示的是所有文章的附件,包括了图片、视频、文件等。我们在开发Wordpress的时候,有时候需要列出文章中相应的附件,可以通过下面的方式来解决:[code lang="php"]$args = array(  'caller_get_posts' => 1,  'paged' => $paged);query_posts($args);if ( have_posts() ) : while ( have_posts

w397090770   10年前 (2014-11-10) 6509℃ 1评论6喜欢

Rheem

Rheem:可扩展且易于使用的跨平台大数据分析系统

Rheem:可扩展且易于使用的跨平台大数据分析系统
  RHEEM是一个可扩展且易于使用的跨平台大数据分析系统,它在现有的数据处理平台之上提供了一个抽象。它允许用户使用易于使用的编程接口轻松地编写数据分析任务,为开发者提供了不同的方式进行性能优化,编写好的程序可以在任意数据处理平台上运行,这其中包括:PostgreSQL, Spark, Hadoop MapReduce或者Flink等;Rheem将选择经典

w397090770   7年前 (2017-03-23) 997℃ 0评论3喜欢

Java 8 Stream 入门

Java 8 Stream API 入门者教程

Java 8 Stream API 入门者教程
Java 8 给我们带来了一个新功能,也就是本文要介绍的 Stream API,它可以让我们以一种声明的方式处理数据。Stream 使用一种类似用 SQL 的语法来提供一种对 Java 集合运算和表达的高阶抽象。极大提高 Java 程序员的生产力,让程序员写出高效率、干净、简洁的代码。本文是 Java 8 Stream API 入门序列文章第一篇,将带领大家快速入门 Java 8 St

w397090770   4年前 (2020-02-01) 490℃ 0评论2喜欢

Hadoop

Apache Hadoop 基础设施容器化在 Uber 的实践

Apache Hadoop 基础设施容器化在 Uber 的实践
如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据过往记忆大数据备注:以下的我们均代表 Uber 的 Hadoop 运维团队。介绍随着 Uber 业务的增长,Uber 公司在 5 年内将 Apache Hadoop(本文简称为“Hadoop”)部署扩展到 21000 台以上的节点,以支持各种分析和机器学习用例。我们组建了一支拥有各

w397090770   3年前 (2021-08-22) 694℃ 0评论2喜欢

Flume

Apache Flume 1.7.0正式发布

Apache Flume 1.7.0正式发布
  Apache Flume 1.7.0是自Flume成为Apache顶级项目的第十个版本。Apache Flume 1.7.0可以在生产环境下使用。Flume 1.7.0 User Guide下载Flume 1.7.0Flume 1.7.0 Developer GuideChanges[code lang="bash"]** New Feature[FLUME-2498] - Implement Taildir Source** Improvement[FLUME-1899] - Make SpoolDir work with Sub-Directories[FLUME-2526] - Build flume by jdk 7 in default[FLUME-2628] - Add an optiona

w397090770   8年前 (2016-10-19) 3602℃ 0评论9喜欢

Data + AI Summit

Data + AI Summit 欧洲2020全部超清 PPT 下载

Data + AI Summit 欧洲2020全部超清 PPT 下载
Data + AI Summit Europe 2020 原 Spark + AI Summit Europe 于2020年11月17日至19日举行。由于新冠疫情影响,本次会议和六月份举办的会议一样在线举办,一共为期三天,第一天是培训,第二天和第三天是正式会议。会议涵盖来自从业者的技术内容,他们将使用 Apache Spark™、Delta Lake、MLflow、Structured Streaming、BI和SQL分析、深度学习和机器学习框架来

w397090770   3年前 (2020-12-06) 1119℃ 0评论2喜欢

Spark

如何优雅地终止正在运行的Spark Streaming程序

如何优雅地终止正在运行的Spark Streaming程序
  一直运行的Spark Streaming程序如何关闭呢?是直接使用kill命令强制关闭吗?这种手段是可以达到关闭的目的,但是带来的后果就是可能会导致数据的丢失,因为这时候如果程序正在处理接收到的数据,但是由于接收到kill命令,那它只能停止整个程序,而那些正在处理或者还没有处理的数据可能就会被丢失。那我们咋办?这里有两

w397090770   7年前 (2017-03-01) 8819℃ 1评论11喜欢

Spark

Apache Spark 1.4.0新特性详解

Apache Spark 1.4.0新特性详解
  今天早上我在博文里面更新了Spark 1.4.0正式发布,由于时间比较匆忙(要上班啊),所以在那篇文章里面只是简单地介绍了一下Spark 1.4.0,本文详细将详细地介绍Spark 1.4.0特性。如果你想尽早了解Spark等相关大数据消息,请关注本博客,或者本博客微信公共帐号iteblog_hadoop。  Apache Spark 1.4.0版本于美国时间2015年06月11日正式发

w397090770   9年前 (2015-06-12) 5011℃ 1评论1喜欢

Spark

[电子书]Spark Cookbook PDF下载

[电子书]Spark Cookbook PDF下载
  本书重点介绍如何分析大量而且复杂的数据集。本书开头介绍了如何在各种集群管理上安装和配置Apache Spark,其中也会涵盖开发环境的设置。然后介绍了如何通过Spark SQL和实时流对各种数据源进行交互式查询,其中的实时流包括了Twitter Stream 和 Apache Kafka。然后,本书将专注于机器学习,包括监督学习,无监督学习和推荐引擎算

w397090770   7年前 (2017-02-12) 3091℃ 0评论3喜欢

HBase

通过例子剖析 OpenTSDB 的 Rowkey 及列名设计

通过例子剖析 OpenTSDB 的 Rowkey 及列名设计
通过《OpenTSDB 底层 HBase 的 Rowkey 是如何设计的》 文章我们已经了解 OpenTSDB 底层的 HBase Rowkey 是如何设计的了。我们现在来测试一下 OpenTSDB 导入的时序数据到底长什么样子。在 OpenTSDB 里面默认存时序数据的表为 tsdb。前面说了,每个指标名称、标签名称以及标签值都有唯一的编码,这些编码数据是存放在 tsdb-uid 表里面。为了更加

w397090770   5年前 (2018-11-16) 2955℃ 3评论6喜欢

Spark

Apache Spark 2.4 内置图像数据源介绍

Apache Spark 2.4 内置图像数据源介绍
随着图像分类(image classification)和对象检测(object detection)的深度学习框架的最新进展,开发者对 Apache Spark 中标准图像处理的需求变得越来越大。图像处理和预处理有其特定的挑战 - 比如,图像有不同的格式(例如,jpeg,png等),大小和颜色,并且没有简单的方法来测试正确性。图像数据源通过给我们提供可以编码的标准表

w397090770   5年前 (2018-12-13) 2368℃ 0评论4喜欢

Solr

在 Apache Solr 中使用复制字段(Copying Fields)

在 Apache Solr 中使用复制字段(Copying Fields)
在 《Apache Solr 安装部署及索引创建》 文章里面我创建了一个名为 iteblog 的 core,并在里面导入了一些测试数据,然后在 《使用 Apache Solr 检索数据》 里面介绍了 Solr 中一些简单的查询。可能有同学按照上面文章介绍,在使用下面的查询发现啥都查不到:[code lang="bash"][root@iteblog.com /opt/solr-7.4.0]$ curl http://iteblog.com:8983/solr/iteblog/select

w397090770   6年前 (2018-07-27) 1462℃ 0评论4喜欢

Hadoop

Hive:用Java代码通过JDBC连接Hiveserver

Hive:用Java代码通过JDBC连接Hiveserver
我们可以通过CLI、Client、Web UI等Hive提供的用户接口来和Hive通信,但这三种方式最常用的是CLI;Client 是Hive的客户端,用户连接至 Hive Server。在启动 Client 模式的时候,需要指出Hive Server所在节点,并且在该节点启动 Hive Server。 WUI 是通过浏览器访问 Hive。今天我们来谈谈怎么通过HiveServer来操作Hive。Hive提供了jdbc驱动,使得我们可以

w397090770   10年前 (2013-12-17) 65409℃ 6评论55喜欢

CarbonData

Apache CarbonData 中文文档

Apache CarbonData 中文文档
Apache CarbonData 是一种新的融合存储解决方案,利用先进的列式存储,索引,压缩和编码技术提高计算效率,从而加快查询速度,其查询速度比 PetaBytes 数据快一个数量级。 鉴于目前使用 Apache CarbonData 用户越来越多,其中就包含了大量的中国用户,这些中国用户可能有很多人英文不是特别好,或者没那么多时间去看英文文档。基于

w397090770   6年前 (2018-05-09) 10770℃ 0评论22喜欢

招聘

【阿里云】数据湖分析DLA 招聘-平台研发技术专家

【阿里云】数据湖分析DLA 招聘-平台研发技术专家
数据湖分析Data Lake Analytics是阿里云数据库自研的云原生数据湖分析系统,目前已有数千企业在使用,是阿里云 库、仓、湖战略高地之一 !!!现紧急招聘【 数据湖平台工程师】 产品链接:https://www.aliyun.com/product/datalakeanalytics !!!如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop团队内部拥有多

w397090770   4年前 (2020-05-22) 853℃ 0评论1喜欢

Presto

Starburst 性能白皮书三 - Presto Dynamic Filtering

Starburst 性能白皮书三 - Presto Dynamic Filtering
Dynamic filtering optimizations significantly improve the performance of queries with selective joins by avoiding reading of data that would be filtered by join condition. In this respect, dynamic filtering is similar to join pushdown discussed above, however it is the equivalent of inner join pushdown across data sources. As a consequence we derive the performance benefits associated with selective joins when performing federated queri

w397090770   2年前 (2022-04-15) 315℃ 0评论0喜欢