欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

Flink

Apache Flink 背后公司 Ververica 的核心成员离职

Apache Flink 背后公司 Ververica 的核心成员离职
2021年2月15日,Apache Flink 创建者、Ververica 公司(前身 DataArtisans)的联合创始人 Fabian Hueske 在 Twitter 宣布其已经从 Ververica 离职, 不过离职原因不得而知。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop另外,Ververica 公司原 COO Holger Temme 将接替 Kostas Tzoumas 成为新的 CEO。Kostas Tzoumas (原 CEO)

w397090770   3年前 (2021-02-18) 984℃ 0评论3喜欢

Flink

Apache Flink 在米哈游的落地实践

Apache Flink 在米哈游的落地实践
摘要:本文是来自米哈游大数据部对于Flink在米哈游应用及实践的分享。 本篇内容主要分为四个部分: 1.背景介绍 2.实时平台建设 3.实时数仓和数据湖探索 4.未来发展与展望 作者:实时计算负责人 张剑 背景介绍 米哈游成立于2011年,致力于为用户提供美好的、超出预期的产品与内容。公司陆续推出了

w397090770   2年前 (2022-03-21) 1350℃ 1评论4喜欢

Kafka

Kafka集群调优

Kafka集群调优
  Kafka Cluster模式最大的优点:可扩展性和容错性,下图是关于Kafka集群的结构图:Kafka Broker个数决定因素  磁盘容量:首先考虑的是所需保存的消息所占用的总磁盘容量和每个broker所能提供的磁盘空间。如果Kafka集群需要保留 10 TB数据,单个broker能存储 2 TB,那么我们需要的最小Kafka集群大小 5 个broker。此外,如果启用副

w397090770   7年前 (2016-11-18) 13529℃ 0评论28喜欢

Spark

Apache Spark 3.0 将内置支持 GPU 调度

Apache Spark 3.0 将内置支持 GPU 调度
如今大数据和机器学习已经有了很大的结合,在机器学习里面,因为计算迭代的时间可能会很长,开发人员一般会选择使用 GPU、FPGA 或 TPU 来加速计算。在 Apache Hadoop 3.1 版本里面已经开始内置原生支持 GPU 和 FPGA 了。作为通用计算引擎的 Spark 肯定也不甘落后,来自 Databricks、NVIDIA、Google 以及阿里巴巴的工程师们正在为 Apache Spark 添加

w397090770   5年前 (2019-03-10) 6413℃ 0评论9喜欢

Spark

Learning Spark pdf下载

Learning Spark pdf下载
  经过这段时间的整理以及格式调整,以及纠正其中的一些错误修改,整理出PDF下载。下载地址:[dl href="http://download.csdn.net/detail/w397090770/8337439"]CSDN免积分下载[/dl]  完整版可以到这里下载Learning Spark完整版下载附录:Learning Spark目录Chapter 1 Introduction to Data Analysis with Spark  What Is Apache Spark?  A Unified Stack  Who Us

w397090770   9年前 (2015-01-07) 32500℃ 6评论83喜欢

Solr

使用 Apache Solr 检索数据

使用 Apache Solr 检索数据
在《Apache Solr 介绍及安装部署》 文章里面我简单地介绍了如何在 Linux 平台搭建单机版的 Solr 服务,而且我们已经创建了一个名为 iteblog 的 core,已经导入了相关的索引数据,接下来让我们来使用 Solr 检索这些数据。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop查询所有的数据可以使用 *:*

w397090770   6年前 (2018-07-24) 1471℃ 0评论4喜欢

Delta Lake

深入理解 Apache Spark Delta Lake 的事务日志

深入理解 Apache Spark Delta Lake 的事务日志
事务日志是理解 Delta Lake 的关键,因为它是贯穿许多最重要功能的通用模块,包括 ACID 事务、可扩展的元数据处理、时间旅行(time travel)等。本文我们将探讨事务日志(Transaction Log)是什么,它在文件级别是如何工作的,以及它如何为多个并发读取和写入问题提供优雅的解决方案。事务日志(Transaction Log)是什么Delta Lake 事务日

w397090770   5年前 (2019-08-22) 1731℃ 0评论6喜欢

资料分享

MathJax:在浏览器上显示LaTeX等数学公式的JS引擎

MathJax:在浏览器上显示LaTeX等数学公式的JS引擎
什么是MathJax  MathJax是一个显示网络上数学公式的开源JavaScript引擎库,它可以在所有浏览器上面工作,其中就支持LaTeX,MathML和AsciiMath 符号,里面的数字会被MathJax使用JavaScript引擎解析成HTML,SVG或者是MathML 方程式,然后在现代的浏览器里面显示。 它的设计目标是利用最新的web技术,构建一个支持math的web平台。支持主要的浏览

w397090770   9年前 (2015-04-15) 34422℃ 3评论42喜欢

Flink

[电子书]Learning Apache Flink PDF下载

[电子书]Learning Apache Flink PDF下载
  Learning Apache Flink又名Mastering Apache Flink,是由Tanmay Deshpande所著,2017年02月在Packt出版,全书共280页。这本书是学习Apache Flink进行批处理和流数据处理的入门指南。本书首先介绍Apache Flink生态系统,然后介绍如何设置Apache Flink,并使用DataSet和DataStream API分别处理静态数据和流数据。本书将探讨如何在数据集上使用Table API。在本书的

zz~~   7年前 (2017-02-24) 16127℃ 0评论19喜欢

Flink

Flink 1.11 与 Hive 批流一体数仓实践

Flink 1.11 与 Hive 批流一体数仓实践
导读:Flink 从 1.9.0 开始提供与 Hive 集成的功能,随着几个版本的迭代,在最新的 Flink 1.11 中,与 Hive 集成的功能进一步深化,并且开始尝试将流计算场景与Hive 进行整合。本文主要分享在 Flink 1.11 中对接 Hive 的新特性,以及如何利用 Flink 对 Hive 数仓进行实时化改造,从而实现批流一体的目标。主要内容包括: Flink 与 Hive 集成的

w397090770   3年前 (2020-11-26) 2298℃ 0评论9喜欢

ElasticSearch

Open Distro for Elasticsearch:AWS 自家版本的开源 ElasticSearch

Open Distro for Elasticsearch:AWS 自家版本的开源 ElasticSearch
AWS 于近期发布了自家版本的开源 ElasticSearch :Open Distro for Elasticsearch。我们都知道,Elasticsearch 是一个分布式面向文档的搜索和分析引擎。 它支持结构化和非结构化查询,并且不需要提前定义模式。 Elasticsearch 可用作搜索引擎,通常用于 Web 级日志分析,实时应用程序监控和点击流分析,在国内外有很多用户使用。AWS 通过 AWS Elasticse

w397090770   5年前 (2019-03-13) 3955℃ 0评论8喜欢

Spark

Spark函数讲解:aggregateByKey

Spark函数讲解:aggregateByKey
  该函数和aggregate类似,但操作的RDD是Pair类型的。Spark 1.1.0版本才正式引入该函数。官方文档定义:Aggregate the values of each key, using given combine functions and a neutral "zero value". This function can return a different result type, U, than the type of the values in this RDD, V. Thus, we need one operation for merging a V into a U and one operation for merging two U's, as in scala.Traversabl

w397090770   9年前 (2015-03-02) 39541℃ 2评论35喜欢

wordpress开发

WordPress的使用小技巧

WordPress的使用小技巧
1、自动向 WordPress 编辑器插入文本 编辑当前主题目录的 functions.php 文件,并粘贴以下代码: [code lang="php"]< ?php add_filter( 'default_content', 'my_editor_content' ); function my_editor_content( $content ) { $content = "过往记忆,专注于Hadoop、Spark等"; return $content; } ?> [/code]2、获取 WordPress 注册用户数量 通过简单的 SQL 语句,

w397090770   10年前 (2014-10-12) 2628℃ 0评论2喜欢

ElasticSearch

ElasticSearch 6.0新特性介绍

ElasticSearch 6.0新特性介绍
2017年08月31日发布了ElasticSearch 6.0.0-beta2,其中有很多特性值得期待:稀疏性 Doc Values 的支持:大家知道 es 的 doc values 是列式存储,文档的原始值都是存放在 doc values 里面的,而稀疏性是指,一个索引里面,文档的结构其实是多样性的,但是郁闷的是只要一个文档有这个字段,其他所有的文档尽管没有这个字段,可也都要承担这个

w397090770   7年前 (2017-09-04) 9057℃ 0评论20喜欢

Spark

Spark Release 1.0.2发布

Spark Release 1.0.2发布
  Spark Release 1.0.2于2014年8月5日发布,Spark 1.0.2 is a maintenance release with bug fixes. This release is based on the branch-1.0 maintenance branch of Spark. We recommend all 1.0.x users to upgrade to this stable release. Contributions to this release came from 30 developers.如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoopYou can download Spark 1.0.2 as

w397090770   10年前 (2014-08-06) 5789℃ 2评论4喜欢

Spark

Spark Summit East 2017高清视频和PPT下载

Spark Summit East 2017高清视频和PPT下载
  Spark Summit East 2017会议于2017年2月07日到09日在波士顿进行,本次会议有来自工业界的上百位Speaker;官方日程:https://spark-summit.org/east-2017/schedule/。  目前本站昨晚已经把里面的85(今天早上发现又上传了25个视频,晚上我补全)个视频全部从Youtube下载下来,已经上传到百度网盘(访问https://github.com/397090770/spark-summit-east-2017获

w397090770   7年前 (2017-02-15) 2767℃ 0评论15喜欢

Flink Forward

腾讯看点基于 Flink 构建万亿数据量下的实时数仓及实时查询系统

腾讯看点基于 Flink 构建万亿数据量下的实时数仓及实时查询系统
一、背景介绍1. 需要解决的业务痛点推荐系统对于推荐同学来说,想知道一个推荐策略在不同人群中的推荐效果是怎么样的。运营对于运营的同学来说,想知道在广东省的用户中,最火的广东地域内容是哪些?方便做地域 push。审核对于审核的同学,想知道过去 5 分钟游戏类被举报最多的内容和账号是哪些,

zz~~   3年前 (2021-10-08) 396℃ 0评论0喜欢

CarbonData

Carbondata使用过程中遇到的几个问题及解决办法

Carbondata使用过程中遇到的几个问题及解决办法
本文总结了几个本人在使用 Carbondata 的时候遇到的几个问题及其解决办法。这里使用的环境是:Spark 2.1.0、Carbondata 1.2.0。必须指定 HDFS nameservices在初始化 CarbonSession 的时候,如果不指定 HDFS nameservices,在数据导入是没啥问题的;但是数据查询会出现相关数据找不到问题:[code lang="scala"]scala> val carbon = SparkSession.builder().temp

w397090770   6年前 (2017-11-09) 6528℃ 5评论14喜欢

Mysql

将 MySQL 的全量数据以分页的形式导入到 Apache Solr 中

将 MySQL 的全量数据以分页的形式导入到 Apache Solr 中
在 《将 MySQL 的全量数据导入到 Apache Solr 中》 文章中介绍了如何将 MySQL 中的全量数据导入到 Solr 中。里面提到一个问题,那就是如果数据量很大的时候,一次性导入数据可能会影响 MySQL ,这种情况下能不能分页导入呢?答案是肯定的,本文将介绍如何通过分页的方式将 MySQL 里面的数据导入到 Solr。分页导数的方法和全量导大部

w397090770   6年前 (2018-08-07) 1353℃ 0评论1喜欢

ScalikeJDBC

ScalikeJDBC:基于SQL的简洁DB访问类库

ScalikeJDBC:基于SQL的简洁DB访问类库
  ScalikeJDBC是一款给Scala开发者使用的简洁DB访问类库,它是基于SQL的,使用者只需要关注SQL逻辑的编写,所有的数据库操作都交给ScalikeJDBC。这个类库内置包含了JDBC API,并且给用户提供了简单易用并且非常灵活的API。并且,QueryDSL使你的代码类型安全的并且可重复使用。我们可以在生产环境大胆地使用这款DB访问类库。工作

w397090770   8年前 (2016-03-10) 4250℃ 0评论4喜欢

Spark

Spark 0.9.1 Standalone模式简单例子测试

Spark 0.9.1 Standalone模式简单例子测试
  在本博客的《Spark 0.9.1 Standalone模式分布式部署》详细的介绍了如何部署Spark Standalone的分布式,在那篇文章中并没有介绍如何来如何来测试,今天我就来介绍如何用Java来编写简单的程序,并在Standalone模式下运行。  程序的名称为SimpleApp.java,通过调用Spark提供的API进行的,在程序编写前现在pom引入相应的jar依赖:[code lang="JA

w397090770   10年前 (2014-04-24) 7591℃ 0评论2喜欢

Cassandra

Apache Cassandra 简介

Apache Cassandra 简介
Apache Cassandra 是一个开源的、分布式、无中心、弹性可扩展、高可用、容错、一致性可调、面向行的数据库,它基于 Amazon Dynamo 的分布式设计和 Google Bigtable 的数据模型,由 Facebook 创建,在一些最流行的网站中得到应用。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop为什么会诞生 Apache Cassand

w397090770   5年前 (2019-03-31) 3102℃ 4评论6喜欢

Flink

Flink Streaming中实现多路文件输出(MultipleTextOutputFormat)

Flink Streaming中实现多路文件输出(MultipleTextOutputFormat)
  有时候我们需要根据记录的类别分别写到不同的文件中去,正如本博客的 《Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)》《Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(二)》以及《Spark多文件输出(MultipleOutputFormat)》等文章提到的类似。那么如何在Flink Streaming实现类似于《Spark多文件输出(MultipleOutputFormat)》文

w397090770   8年前 (2016-05-10) 8100℃ 4评论7喜欢

Flume

Flume-0.9.4源码编译及一些编译出错解决方法

Flume-0.9.4源码编译及一些编译出错解决方法
  由于需要在Flume里面加入一些我需要的代码,这时候就需要重新编译Flume代码,因为在编译Flume源码的时候出现了很多问题,所以写出这篇博客,以此分享给那些也需要编译代码的人一些参考,这里以如何编译Flume-0.9.4源码为例进行说明。  首先下载Flume0.9.4源码(可以到https://repository.cloudera.com/content/repositories/releases/com/cloudera/fl

w397090770   10年前 (2014-01-22) 12148℃ 1评论4喜欢

Flink

Apache Flink状态管理和容错机制介绍

Apache Flink状态管理和容错机制介绍
本文整理自8月11日在北京举行的 Flink Meetup 会议,分享嘉宾施晓罡,目前在阿里大数据团队部从事Blink方面的研发,现在主要负责Blink状态管理和容错相关技术的研发。本文由韩非(Flink China社区志愿者)整理一、有状态的流数据处理1、什么是有状态的计算计算任务的结果不仅仅依赖于输入,还依赖于它的当前状态,其实大

w397090770   6年前 (2018-08-24) 9046℃ 0评论21喜欢

Hadoop

Hive连接HDFS端口错误解决方法

Hive连接HDFS端口错误解决方法
在我电脑里面:[code lang="JAVA"]Hadoop1.2.1中fs.default.name=hdfs://localhost:9000Hadoop2.2.0中fs.default.name=hdfs://localhost:8020[/code]所以Hive在Hadoop1.2.1中存放数据的绝对路径为:[code lang="JAVA"]hdfs://localhost:9000/home/wyp/cloud/hive/warehouse/cite[/code]其中、home/wyp/cloud/hive/warehouse/是配置文件设置的,如下:[code lang="JAVA"]<property> <name>hive

w397090770   11年前 (2013-10-31) 19797℃ 1评论8喜欢

Hadoop

Hadoop面试题系列(6/11)

Hadoop面试题系列(6/11)
一. 问答题1. 简单说说map端和reduce端溢写的细节2. hive的物理模型跟传统数据库有什么不同3. 描述一下hadoop机架感知4. 对于mahout,如何进行推荐、分类、聚类的代码二次开发分别实现那些接口5. 直接将时间戳作为行健,在写入单个region 时候会发生热点问题,为什么呢?二. 计算题1. 比方:如今有10个文件夹, 每个

w397090770   8年前 (2016-08-26) 3124℃ 0评论1喜欢

hudi

Apache Hudi 0.8.0 版本发布,Flink 集成有重大提升以及支持并行写

Apache Hudi 0.8.0 版本发布,Flink 集成有重大提升以及支持并行写
迁移指南如果从 0.5.3 以下版本迁移,请检查这个版本后面的其他版本的升级说明。如果需要升级到 0.8 版本,请参阅 0.6.0 版本的升级指南,因为本版本没有引入新的表版本(table versions)HoodieRecordPayload接口不建议使用现有方法,而推荐使用新方法,该方法还允许我们在运行时传递属性。 鼓励用户从不建议使用的方法中迁移

w397090770   3年前 (2021-04-14) 842℃ 0评论2喜欢

Spark

Apache Spark 背后公司 Databricks 完成F轮融资,高达62亿美元估值

Apache Spark 背后公司 Databricks 完成F轮融资,高达62亿美元估值
2019年10月22日上午 Databricks 宣布,已经完成了由安德森-霍洛维茨基金(Andreessen Horowitz)牵头的4亿美元F轮融资,参与融资的有微软(Microsoft)、Alkeon Capital Management、贝莱德(BlackRock)、Coatue Management、Dragoneer Investment Group、Geodesic、Green Bay Ventures、New Enterprise Associates、T. Rowe Price和Tiger Global Management。经过这次融资,Databricks 的估值高达62亿美

w397090770   5年前 (2019-10-22) 1084℃ 0评论0喜欢

Presto

PrestoCon 2021 超清视频和 PPT 下载

PrestoCon 2021 超清视频和 PPT 下载
PrestoCon 2021 于2021年12月09日通过在线的形式举办完了。在 PrestoCon,来自行业领先公司的用户分享了一些用例和最佳实践,Presto 开发人员讨论项目的特性;用户和开发人员将合作推进 Presto 的使用,将其作为一种高质量、高性能和可靠的软件,用于支持全球组织的分析平台,无论是在本地还是在云端。本次会议大概有20多个议题,干货

w397090770   2年前 (2021-12-19) 260℃ 0评论0喜欢