哎哟~404了~休息一下,下面的文章你可能很感兴趣:
Flink内置提供了将DataStream中的数据写入到ElasticSearch中的Connector(flink-connector-elasticsearch2_2.10),但是并没有提供将DateSet的数据写入到ElasticSearch。本文介绍如何通过自定义OutputFormat将Flink DateSet里面的数据写入到ElasticSearch。 如果需要将DateSet中的数据写入到外部存储系统(比如HDFS),我们可以通过writeAsText、writeAsCsv、write等内 w397090770 8年前 (2016-10-11) 5664℃ 0评论8喜欢
安装:下载并启动 Flink可以在Linux、Mac OS X以及Windows上运行。为了能够运行Flink,唯一的要求是必须安装Java 7.x或者更高版本。对于Windows用户来说,请参考 Flink on Windows 文档,里面介绍了如何在Window本地运行Flink。下载 从下载页面(http://flink.apache.org/downloads.html)下载所需的二进制包。你可以选择任何与 Hadoop/Scala 结 w397090770 8年前 (2016-04-05) 17597℃ 0评论23喜欢
如果你使用Nginx web server,你可能在访问你网站的时候出现了504 Gateway Time-out错误,这个错误代码很常见,这可能是因为超过了PHP的最大执行时间的限制或者是FastCGI读超时。这篇文章将向大家展示如何解决Nginx的504 gateway timeout的问题。一、修改php.ini文件 下面都是以CentOS服务器为例进行介绍,如果你是CentOS,那么可以直 w397090770 9年前 (2015-08-18) 19688℃ 2评论16喜欢
这篇文章中将介绍C# 6.0的一个新特性,这将加深我们对Scala monad的理解。Null-conditional操作符 假如我们有一个嵌套的数据类型,然后我们需要访问这个嵌套类型里面的某个属性。比如Article可以没有作者(Author)信息;Author可以没有Address信息;Address可以没有City信息,如下:[code lang="csharp"]//////////////////////////////////// w397090770 8年前 (2016-02-24) 2119℃ 0评论6喜欢
近日,Intel开源了基于Apache Spark的分布式深度学习框架BigDL。有了BigDL之后,用户可以像编写标准的Spark程序一样来编写深度学习(deep learning)应用程序,编写完的程序还可以直接运行在现有的Spark或者Hadoop集群之上。BigDL主要有以下三大特点:[gt href="https://github.com/intel-analytics/BigDL "]BigDL GitHub地址[/gt]丰富的深度学习算法支 w397090770 7年前 (2017-01-19) 4323℃ 0评论14喜欢
本 hosts 文件更新时间为 2018年07月22日。原作者为 Google Hosts 组织本页面长期更新最新 Google、谷歌学术、维基百科、ccFox.info、ProjectH、3DM、Battle.NET 、WordPress、Microsoft Live、GitHub、Box.com、SoundCloud、inoreader、Feedly、FlipBoard、Twitter、Facebook、Flickr、imgur、DuckDuckGo、Ixquick、Google Services、Google apis、Android、Youtube、Google Drive、UpLoad、Appspot、 w397090770 6年前 (2018-01-09) 15973℃ 1评论43喜欢
CarbonData是由华为开发、开源并支持Apache Hadoop的列式存储文件格式,支持索引、压缩以及解编码等,其目的是为了实现同一份数据达到多种需求,而且能够实现更快的交互查询。目前该项目正处于Apache孵化过程中。 当前,CarbonData暂不支持修改表中已经存在的数据。但是在现实情况下,我们可能很希望这个功能,比如修改 w397090770 7年前 (2016-11-30) 2771℃ 0评论10喜欢
有虚函数的类内部有一个称为“虚表”的指针,这个就是用来指向这个类虚函数。也就是用它来确定调用该那个函数。例如:[code lang="CPP"]#include <iostream>using namespace std;class A{public: virtual void fun1(){ cout << "In class A::fun1()!" << endl; } virtual void fun2(){ cout << "In class A::fun2()!" << endl; w397090770 11年前 (2013-04-03) 2400℃ 0评论1喜欢
HDFS 架构介绍 HDFS离线存储平台是Hadoop大数据计算的底层架构,在B站应用已经超过5年的时间。经过多年的发展,HDFS存储平台目前已经发展成为总存储数据量近EB级,元数据总量近百亿级,NameSpace 数量近20组,节点数量近万台,日均吞吐几十PB数据量的大型分布式文件存储系统。 首先我们来介绍一下B站的HDFS离线存储平台的总体架 w397090770 2年前 (2022-04-01) 932℃ 0评论3喜欢
这几天由于项目的需要,需要将Flume收集到的日志插入到Hbase中,有人说,这不很简单么?Flume里面自带了Hbase sink,可以直接调用啊,还用说么?是的,我在本博客的《Flume-1.4.0和Hbase-0.96.0整合》文章中就提到如何用Flume和Hbase整合,从文章中就看出整个过程不太复杂,直接做相应的配置就行了。那么为什么今天还要特意提一下Flum w397090770 10年前 (2014-01-28) 7263℃ 2评论2喜欢
本书将向您展示如何利用Python的强大功能并将其用于Spark生态系统中。您将首先了解Spark 2.0的架构以及如何为Spark设置Python环境。通过本书,你将会使用Python操作RDD、DataFrames、MLlib以及GraphFrames等;在本书结束时,您将对Spark Python API有了全局的了解,并且学习到如何使用它来构建数据密集型应用程序。通过本书你将学习到以下的知识 zz~~ 7年前 (2017-03-09) 10723℃ 0评论12喜欢
由于需要在Flume里面加入一些我需要的代码,这时候就需要重新编译Flume代码,因为在编译Flume源码的时候出现了很多问题,所以写出这篇博客,以此分享给那些也需要编译代码的人一些参考,这里以如何编译Flume-0.9.4源码为例进行说明。 首先下载Flume0.9.4源码(可以到https://repository.cloudera.com/content/repositories/releases/com/cloudera/fl w397090770 10年前 (2014-01-22) 12148℃ 1评论4喜欢
HDFS 简介因为 HDFS 这样一个系统已经存在了非常长的时间,应用的场景已经非常成熟了,所以这部分我们会比较简单地介绍。HDFS 全名 Hadoop Distributed File System,是业界使用最广泛的开源分布式文件系统。原理和架构与 Google 的 GFS 基本一致。它的特点主要有以下几项:和本地文件系统一样的目录树视图Append Only 的写入(不支持 w397090770 4年前 (2020-01-10) 2299℃ 0评论4喜欢
在Scala中存在case class,它其实就是一个普通的class。但是它又和普通的class略有区别,如下:1、初始化的时候可以不用new,当然你也可以加上,普通类一定需要加new;[code lang="scala"]scala> case class Iteblog(name:String)defined class Iteblogscala> val iteblog = Iteblog("iteblog_hadoop")iteblog: Iteblog = Iteblog(iteblog_hadoop)scala> val iteblog w397090770 9年前 (2015-09-18) 38355℃ 1评论71喜欢
本文出自本公众号ChinaScala,由陈超所述。一、Spark能否取代Hadoop? 答: Hadoop包含了Common,HDFS,YARN及MapReduce,Spark从来没说要取代Hadoop,最多也就是取代掉MapReduce。事实上现在Hadoop已经发展成为一个生态系统,并且Hadoop生态系统也接受更多优秀的框架进来,如Spark (Spark可以和HDFS无缝结合,并且可以很好的跑在YARN上).。 w397090770 9年前 (2015-08-26) 7167℃ 1评论40喜欢
摘要:本文整理自快手实时计算团队技术专家张静、张芒在 Flink Forward Asia 2021 的分享。主要内容包括: Flink SQL 在快手功能扩展性能优化稳定性提升未来展望 一、Flink SQL 在快手 经过一年多的推广,快手内部用户对 Flink SQL 的认可度逐渐提高,今年新增的 Flink 作业中,SQL 作业达到了 60%,与去年相比有了一倍的提升,峰值吞吐 w397090770 2年前 (2022-02-18) 860℃ 0评论1喜欢
Delta Lake 的 Delete 功能是由 0.3.0 版本引入的,参见这里,对应的 Patch 参见这里。在介绍 Apache Spark Delta Lake 实现逻辑之前,我们先来看看如何使用 delete 这个功能。Delta Lake 删除使用Delta Lake 的官方文档为我们提供如何使用 Delete 的几个例子,参见这里,如下:[code lang="scala"]import io.delta.tables._val iteblogDeltaTable = DeltaTable.forPath(spa w397090770 5年前 (2019-09-27) 1435℃ 0评论2喜欢
Spark 1.1.0马上就要发布了(估计就是明天),其中更新了很多功能。其中对Spark SQL进行了增强: 1、Spark 1.0是第一个预览版本( 1.0 was the first “preview” release); 2、Spark 1.1 将支持Shark更新(1.1 provides upgrade path for Shark), (1)、Replaced Shark in our benchmarks with 2-3X perfgains; (2)、Can perform optimizations with 10- w397090770 10年前 (2014-09-11) 7746℃ 2评论5喜欢
一、背景介绍1. 需要解决的业务痛点推荐系统对于推荐同学来说,想知道一个推荐策略在不同人群中的推荐效果是怎么样的。运营对于运营的同学来说,想知道在广东省的用户中,最火的广东地域内容是哪些?方便做地域 push。审核对于审核的同学,想知道过去 5 分钟游戏类被举报最多的内容和账号是哪些, zz~~ 3年前 (2021-10-08) 396℃ 0评论0喜欢
临时文件是一个暂时用来存储数据的文件。如果使用建立普通文件的方法来创建文件,则可能遇到文件是否存在,是否有文件读写权限的问题。Linux系统下提供的建立唯一的临时文件的方法如下:[code lang="CPP"]#include<stdio.h>char *tmpnam(char *s);FILE *tmpfile();[/code]函数tmpnam()产生一个唯一i的文件名。如果参量为NULL,则在一个内 w397090770 11年前 (2013-04-03) 5275℃ 0评论0喜欢
本书于2017-08由 Packt 出版,作者 Manish Kumar, Chanchal Singh,全书269页。关注大数据猿(bigdata_ai)公众号及时获取最新大数据相关电子书、资讯等通过本书你将学到以下知识Learn the basics of Apache Kafka from scratchUse the basic building blocks of a streaming applicationDesign effective streaming applications with Kafka using Spark, Storm &, and HeronUnderstand the i zz~~ 6年前 (2017-11-08) 6566℃ 0评论30喜欢
最近升级了迅雷9,新版本精简了任务列表的面积,然而增加了一个硕大的内置浏览器面板,大概占据了四分之三的窗口面积,并且不能关闭!界面如下:如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop就个人观点而言,实在不能理解为什么需要让一个下载工具的附加功能占据主要使用区 w397090770 7年前 (2017-02-18) 6277℃ 0评论20喜欢
今天谈谈Guava类库中的Multisets数据结构,虽然它不怎么经常用,但是还是有必要对它进行探讨。我们知道Java类库中的Set不能存放相同的元素,且里面的元素是无顺序的;而List是能存放相同的元素,而且是有顺序的。而今天要谈的Multisets是能存放相同的元素,但是元素之间的顺序是无序的。从这里也可以看出,Multisets肯定不是实 w397090770 11年前 (2013-07-11) 4634℃ 0评论1喜欢
这个月的4月7号,Apache Hadoop 2.4.0已经发布了,Hadoop 2.4.0是2014年第二个Hadoop发布版本(在2月20日发布了Apache Hadoop 2.3.0),他在HDFS上做了一些加强,比如对异构存储层次的支持和通过数据节点为存储在HDFS中的数据提供了内存缓存功能。在Hadoop2.4.0主要做了以下工作: (1)、HDFS支持访问控制列表(ACLs,Access Control Lists); w397090770 10年前 (2014-04-12) 8033℃ 0评论3喜欢
今天给大家分享30款开源的可视化大屏(含源码)。下载到本地后,直接运行文件夹中的index.html,即可看到大屏。01 数据可视化页面设计有动画效果,显得高大上!主要图表:柱状图、水球图、折线图等。02 数据可视化演示系统不仅有动画效果,还有科技感光效。主要图表:柱状图、折线图、饼图、地图等 zz~~ 2年前 (2021-12-23) 3399℃ 0评论3喜欢
这几天由于项目的需要,需要将Flume收集到的日志插入到Hbase中,有人说,这不很简单么?Flume里面自带了Hbase sink,可以直接调用啊,还用说么?是的,我在本博客的《Flume-1.4.0和Hbase-0.96.0整合》文章中就提到如何用Flume和Hbase整合,从文章中就看出整个过程不太复杂,直接做相应的配置就行了。那么为什么今天还要特意提一下Flum w397090770 10年前 (2014-01-27) 5122℃ 1评论1喜欢
Spark和Flume-ng整合,可以参见本博客:《Spark和Flume-ng整合》《使用Spark读取HBase中的数据》如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop 大家可能都知道很熟悉Spark的两种常见的数据读取方式(存放到RDD中):(1)、调用parallelize函数直接从集合中获取数据,并存入RDD中;Java版本如 w397090770 10年前 (2014-06-29) 74809℃ 47评论58喜欢
在TCP/IP状态图中,有很多种的状态,它们之间有的是可以互相转换的,也就是说,从一种状态转到另一种状态,但是这种转换不是随便发送的,是要满足一定的条件。TCP/IP状态图看起来更像是自动机。下图即为TCP/IP状态。由上图可以看出,一共有11种不同的状态。这11种状态描述如下: CLOSED:关闭状态,没有连接活动或正在进 w397090770 11年前 (2013-04-03) 11027℃ 0评论15喜欢
经过这段时间的整理以及格式调整,以及纠正其中的一些错误修改,整理出PDF下载。下载地址:[dl href="http://download.csdn.net/detail/w397090770/8337439"]CSDN免积分下载[/dl] 完整版可以到这里下载Learning Spark完整版下载附录:Learning Spark目录Chapter 1 Introduction to Data Analysis with Spark What Is Apache Spark? A Unified Stack Who Us w397090770 9年前 (2015-01-07) 32500℃ 6评论83喜欢
OpenTSDB 是基于 HBase 的可扩展、开源时间序列数据库(Time Series Database),可以用于存储监控数据、物联网传感器、金融K线等带有时间的数据。它的特点是能够提供最高毫秒级精度的时间序列数据存储,能够长久保存原始数据并且不失精度。它拥有很强的数据写入能力,支持大并发的数据写入,并且拥有可无限水平扩展的存储容量。目 w397090770 5年前 (2018-11-15) 5080℃ 1评论10喜欢