欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

Spark

Apache Spark 3.2 正式发布,新特性详解

Apache Spark 3.2 正式发布,新特性详解
经过七轮投票, Apache Spark™ 3.2 终于在昨天正式发布了。Apache Spark™ 3.2 已经是 Databricks Runtime 10.0 的一部分,感兴趣的同学可以去试用一下。按照惯例,这个版本应该不是稳定版,所以建议大家不要在生产环境中使用。Spark 的每月 Maven 下载数量迅速增长到 2000 万,与去年同期相比,Spark 的月下载量翻了一番。Spark 已成为在单节

w397090770   2年前 (2021-10-20) 1170℃ 0评论3喜欢

Python

Spark1.4中DataFrame功能加强,新增科学和数学函数

Spark1.4中DataFrame功能加强,新增科学和数学函数
  社区在Spark 1.3中开始引入了DataFrames,使得Apache Spark更加容易被使用。受R和Python中的data frames激发,Spark中的DataFrames提供了一些API,这些API在外部看起来像是操作单机的数据一样,而数据科学家对这些API非常地熟悉。统计是日常数据科学的一个重要组成部分。在即将发布的Spark 1.4中改进支持统计函数和数学函数(statistical and mathem

w397090770   9年前 (2015-06-03) 13859℃ 2评论3喜欢

资料分享

2021年最新美国苹果账号(Apple ID)注册方法

2021年最新美国苹果账号(Apple ID)注册方法
全新美国区 Apple ID 注册教程参见:2021年最新美区 Apple ID 注册教程使用苹果手机的有可能知道,国内使用的 App Store 只能下载国内的一些 APP 应用。有一些 APP 并没有在国内 App Store 上架,这时候就无法下载。我们需要使用一个国外的 Apple ID 账号,但是很多人手上一般都是只有国内的账号,这篇文章就来教大家如何把一个中国区的

w397090770   3年前 (2021-10-10) 1225℃ 0评论0喜欢

Presto

Presto on Spark:通过 Spark 来扩展 Presto

Presto on Spark:通过 Spark 来扩展 Presto
概述Presto 最初设计是对数据仓库中的数据运行交互式查询,但现在它已经发展成为一个位于开放数据湖分析之上的统一 SQL 引擎,用于交互式和批处理工作负载,数据湖上的流行工作负载包括:报告和仪表盘:这包括为内部和外部开发人员提供自定义报告以获取业务洞察力,以及许多使用 Presto 进行交互式 A/B 测试分析的组织

w397090770   2年前 (2021-11-14) 1222℃ 0评论1喜欢

HBase

Apache HBase 1.2.1正式发布

Apache HBase 1.2.1正式发布
  Apache HBase 1.2.1 于2016-04-12正式发布了,HBase 1.2.1是HBase 1.2.z版本线上的第一个维护版本,该版本的主题仍然是为Hadoop和NoSQL社区带来稳定和可靠的数据库。此版本在1.2.0版本上解决了27个issues。主要的Bug修改* [HBASE-15441] - Fix WAL splitting when region has moved multiple times* [HBASE-15219] - Canary tool does not return non-zero exit code when

w397090770   8年前 (2016-04-14) 3102℃ 0评论2喜欢

Apache Impala

Impala在腾讯金融大数据场景中的应用

Impala在腾讯金融大数据场景中的应用
导读:在腾讯金融场景,我们每天都会产生大量的数据,为了提升分析的交互性,让决策更加敏捷,我们引入了Impala来解决我们的分析需求。所以,本文将和大家分享Impala在腾讯金融大数据场景中的应用架构,Impala的原理,落地过程的案例和优化以及总结思考。Impala的架构 首先介绍Impala的整体架构,帮助大家从宏观角度理

w397090770   2年前 (2021-10-28) 316℃ 0评论1喜欢

Spark

使用jvisualvm监控Spark作业

使用jvisualvm监控Spark作业
  jvisualvm工具JDK自带的一个监控工具,该工具是用来监控java运行程序的cpu、内存、线程等的使用情况,并且使用图表的方式监控java程序、还具有远程监控能力,不失为一个用来监控Java程序的好工具。  同样,我们可以使用jvisualvm来监控Spark应用程序(Application),从而可以看到Spark应用程序堆,线程的使用情况,从而根据这

w397090770   9年前 (2015-05-13) 10642℃ 0评论9喜欢

算法

社会关系网之权威计算分析法

社会关系网之权威计算分析法
在社会关系网中,入度越多的实体权威性越大;反之则越小。从上面的定义可以看出,权威性的衡量必须在有向图中进行,无向图是没有权威性的概念,不过无向图中可以用中心度去衡量实体的重要性。目前,比较常见的用于计算结点权威性的模型主要有三种:度权威(Degree Prestige)、邻近权威(Proximity Prestige)以及等级权威(Rank

w397090770   11年前 (2013-05-30) 3940℃ 1评论4喜欢

Spark

上海Spark Meetup第四次聚会

上海Spark Meetup第四次聚会
  上海Spark Meetup第四次聚会将于2015年5月16日在小沃科技有限公司(原中国联通应用商店运营中心)举办。本次聚会特别添加了抽奖环节,凡是参加了问卷调查并在当天到场的同学们都有机会中奖。奖品由英特尔亚太研发有限公司赞助。大会主题  Opening Keynote 沈洲  小沃科技有限公司副总经理,上海交通大学计算机专

w397090770   9年前 (2015-05-05) 3447℃ 0评论2喜欢

Flink

Apache Flink 1.1.4 正式发布

Apache Flink 1.1.4 正式发布
  Apache Flink 1.1.4于2016年12月21日正式发布,本版本是Flink的最新稳定版本,主要以修复Bug为主;强烈推荐所有的用户升级到Flink 1.1.4版本,替换pom中的以为如下:[code lang="xml"]<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-java</artifactId> <version>1.1.4</version></dependency><dependency> &

w397090770   7年前 (2016-12-27) 2258℃ 0评论3喜欢

Hadoop

HDFS 慢节点监控及处理

HDFS 慢节点监控及处理
HDFS集群随着使用时间的增长,难免会出现一些“性能退化”的节点,主要表现为磁盘读写变慢、网络传输变慢,我们统称这些节点为慢节点。当集群扩大到一定规模,比如上千个节点的集群,慢节点通常是不容易被发现的。大多数时候,慢节点都藏匿于众多健康节点中,只有在客户端频繁访问这些有问题的节点,发现读写变慢了,

w397090770   3年前 (2020-11-12) 1292℃ 0评论7喜欢

Flink

Flink部署在Google计算引擎平台上

Flink部署在Google计算引擎平台上
  本文将介绍如何在Google Compute Engine(https://cloud.google.com/compute/)平台上基于 Hadoop 1 或者 Hadoop 2 自动部署 Flink 。借助 Google 的 bdutil(https://cloud.google.com/hadoop/bdutil) 工具可以启动一个集群并基于 Hadoop 部署 Flink 。根据下列步骤开始我们的Flink部署吧。要求(Prerequisites)安装(Google Cloud SDK)  请根据该指南了解如何安装 Google Cl

w397090770   8年前 (2016-04-21) 1733℃ 0评论3喜欢

Spark

Spark 1.0.1发布了

Spark 1.0.1发布了
  2014年7月11日,Spark 1.0.1已经发布了,原文如下:We are happy to announce the availability of Spark 1.0.1! This release includes contributions from 70 developers. Spark 1.0.0 includes fixes across several areas of Spark, including the core API, PySpark, and MLlib. It also includes new features in Spark’s (alpha) SQL library, including support for JSON data and performance and stability fixes.Visit the relea

w397090770   10年前 (2014-07-13) 6846℃ 0评论4喜欢

Delta Lake

还在玩数据仓库?现在已经是 LakeHouse 时代!

还在玩数据仓库?现在已经是 LakeHouse 时代!
引入在Databricks的过去几年中,我们看到了一种新的数据管理范式,该范式出现在许多客户和案例中:LakeHouse。在这篇文章中,我们将描述这种新范式及其相对于先前方案的优势。数据仓库技术自1980诞生以来一直在发展,其在决策支持和商业智能应用方面拥有悠久的历史,而MPP体系结构使得系统能够处理更大数据量。但是,虽

w397090770   4年前 (2020-02-03) 2973℃ 0评论6喜欢

Memsql

使用Spark和MemSQL Spark连接器运行实时应用

使用Spark和MemSQL Spark连接器运行实时应用
  Apache Spark是目前非常强大的分布式计算框架。其简单易懂的计算框架使得我们很容易理解。虽然Spark是在操作大数据集上很有优势,但是它仍然需要将数据持久化存储,HDFS是最通用的选择,和Spark结合使用,因为它基于磁盘的特点,导致在实时应用程序中会影响性能(比如在Spark Streaming计算中)。而且Spark内置就不支持事务提交(

w397090770   9年前 (2015-04-22) 10143℃ 0评论8喜欢

HBase

Hive和HBase整合用户指南

Hive和HBase整合用户指南
  本文讲解的Hive和HBase整合意思是使用Hive读取Hbase中的数据。我们可以使用HQL语句在HBase表上进行查询、插入操作;甚至是进行Join和Union等复杂查询。此功能是从Hive 0.6.0开始引入的,详情可以参见HIVE-705。Hive与HBase整合的实现是利用两者本身对外的API接口互相进行通信,相互通信主要是依靠hive-hbase-handler-1.2.0.jar工具里面的类实现

w397090770   8年前 (2016-07-31) 17334℃ 0评论42喜欢

Kafka

Apache Kafka 2.0.0 正式发布,多项重要功能更新

Apache Kafka 2.0.0 正式发布,多项重要功能更新
Apache Kafka 2.0.0 在昨天正式发布了,其包含了许多重要的特性,这里我列举了一些比较重要的:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop增加了前缀通配符访问控制(ACL)的支持,详见 KIP-290,这样我们可以更加细粒度的进行访问控制;更全面的数据安全支持,KIP-255 里面添加了一个框架,

w397090770   6年前 (2018-07-31) 3937℃ 0评论6喜欢

Hadoop

[电子书]Big Data Analytics pdf下载

[电子书]Big Data Analytics pdf下载
本书作者Venkat Ankam,由Packt Publishing出版社在2016年09月发行,全书供326页。本书基于Spark 2.0和Hadoop 2.7版本介绍,是适合数据分析师和数据科学家的参考手册,当然也适合那些想入门的人。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop本书的章节[code lang="bash"]Chapter 1: Big Data Analytics at a 10

zz~~   7年前 (2016-11-21) 4568℃ 0评论6喜欢

Presto

Presto 在腾讯资讯业务中的应用

Presto 在腾讯资讯业务中的应用
文章来源团队:腾讯医疗资讯与服务部-技术研发中心 前言:随着产品矩阵和团队规模的扩张,跨业务、APP的数据处理、分析总是不可避免。一个显而易见的问题就是异构数据源的连通。我们基于PrestoDB构建了业务线内适应腾讯生态的联邦查询引擎,连通了部门内部20+数据源实例,涵盖了90%的查询场景。同时,我们参与公司级的Pre

w397090770   3年前 (2021-09-08) 452℃ 0评论1喜欢

Kafka

KSQL介绍:面向Apache Kafka的开源Streaming SQL引擎

KSQL介绍:面向Apache Kafka的开源Streaming SQL引擎
我非常高兴地宣布KSQL,这是面向Apache Kafka的一种数据流SQL引擎。KSQL降低了数据流处理这个领域的准入门槛,为使用Kafka处理数据提供了一种简单的、完全交互的SQL界面。你不再需要用Java或Python之类的编程语言编写代码了!KSQL具有这些特点:开源(采用Apache 2.0许可证)、分布式、可扩展、可靠、实时。它支持众多功能强大的数据流

w397090770   7年前 (2017-08-30) 7815℃ 0评论22喜欢

Hive

Hive on Spark编程入门指南

Hive on Spark编程入门指南
  先说明一下,这里说的Hive on Spark是Hive跑在Spark上,用的是Spark执行引擎,而不是MapReduce,和Hive on Tez的道理一样。  从Hive 1.1版本开始,Hive on Spark已经成为Hive代码的一部分了,并且在spark分支上面,可以看这里https://github.com/apache/hive/tree/spark,并会定期的移到master分支上面去。关于Hive on Spark的讨论和进度,可以看这里https://

w397090770   9年前 (2015-08-31) 41647℃ 30评论43喜欢

Spark

Apache Spark 1.5重要的修改和Bug修复

Apache Spark 1.5重要的修改和Bug修复
  Apache Spark 1.5版本目前正在社区投票中,相信到9月初应该会发布。这里先剧透一下Apache Spark 1.5版本的一些重要的修改和Bug修复。Apache Spark 1.5有来自220多位贡献者的1000多个commits。这里仅仅是列出重要的修改和Bug修复,详细的还请参见Apache JIRA changelog.如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:itebl

w397090770   9年前 (2015-08-26) 2854℃ 0评论6喜欢

Spark

Spark SQL中Join常用的几种实现

Spark SQL中Join常用的几种实现
引言Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。SparkSQL作为大数据领域的SQL实现,自然也对Join操作做了不少优化,今天主要看一下在SparkSQL中对于Join,常见的3种实现。Spark SQL中Join常用的实现Broadc

zz~~   7年前 (2017-07-09) 8273℃ 0评论16喜欢

HBase

Apache HBase 快照(Snapshots) 介绍

Apache HBase 快照(Snapshots) 介绍
在《HDFS 快照编程指南》文章中,我简单介绍了 HDFS 的快照功能。本文将介绍 HBase 快照功能,因为 HBase 的底层存储是基于 HDFS 的,所以 HBase 的快照功能也是依赖 HDFS 快照的知识。HBase 快照功能是从 HBase 0.95.0 开始引入的,详见 HBASE-50。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoopHBase 快

w397090770   5年前 (2019-01-01) 2530℃ 0评论9喜欢

Hadoop

Uber 大数据平台的演进(2014~2019)

Uber 大数据平台的演进(2014~2019)
Uber 致力于在全球市场上提供更安全,更可靠的运输服务。为了实现这一目标,Uber 在很大程度上依赖于数据驱动的决策,从预测高流量事件期间骑手的需求到识别和解决我们的驾驶员-合作伙伴注册流程中的瓶颈。自2014年以来,Uber 一直致力于开发大数据解决方案,确保数据可靠性,可扩展性和易用性;现在 Uber 正专注于提高他们平

w397090770   5年前 (2019-06-06) 3210℃ 0评论8喜欢

网站建设

使用 yum 在 CentOS 上安装或升级 PHP 到 7 以上

使用 yum 在 CentOS 上安装或升级 PHP 到 7 以上
最近升级了 WordPress,但是出现了以下的异常:[code lang="bash"]Your server is running PHP version 5.4.16 but WordPress 5.4.4 requires at least 5.6.20.[/code]可见 WordPress 5.4.4 版本需要 PHP 5.6.20 及以上才可以正常运行,所以本文记录 PHP 的升级过程。检查当前安装的 PHP我们可以使用下面命令看下当前服务器上的 PHP 版本[code lang="bash"][root@iteblog.com

w397090770   4年前 (2020-10-06) 286℃ 0评论0喜欢

Spark

通过spark-redshift工具包读取Redshift上的表

通过spark-redshift工具包读取Redshift上的表
  Spark Data Source API是从Spark 1.2开始提供的,它提供了可插拔的机制来和各种结构化数据进行整合。Spark用户可以从多种数据源读取数据,比如Hive table、JSON文件、Parquet文件等等。我们也可以到http://spark-packages.org/(这个网站貌似现在不可以访问了)网站查看Spark支持的第三方数据源工具包。本文将介绍新的Spark数据源包,通过它我们

w397090770   9年前 (2015-10-21) 3756℃ 0评论4喜欢

Kafka

Apache Kafka 2.5.0 稳定版正式发布

Apache Kafka 2.5.0 稳定版正式发布
Apache Kafka 2.5.0 稳定版于美国当地时间2020年4月15日正式发布,这个版本包含了一系列的重要功能发布,比较重要的可以特性重要包括:支持 TLS 1.3 (目前默认是用 1.2)Kafka Streams DSL 中支持 Co-groups; Kafka Consumer 支持增量再平衡(Incremental rebalance)为更好地洞察算子运行,引入了新的指标;Apache Zookeeper 升级到 3.5.7不再支持 Scala

w397090770   4年前 (2020-04-19) 1478℃ 0评论3喜欢

大数据

万亿级大数据监控平台建设实践

万亿级大数据监控平台建设实践
导语:随着互联网业务的迅速发展,用户对系统的要求也越来越高,而做好监控为系统保驾护航,能有效提高系统的可靠性、可用性及用户体验。监控系统是整个运维环节乃至整个项目及产品生命周期中最重要的一环。百分点大数据技术团队基于大数据平台项目,完成了百亿流量、约3000+台服务器集群规模的大数据平台服务的监控,

zz~~   3年前 (2021-09-24) 507℃ 0评论4喜欢