哎哟~404了~休息一下,下面的文章你可能很感兴趣:
rest 接口 现在我们已经有一个正常运行的节点(和集群),下一步就是要去理解怎样与其通信。幸运的是,Elasticsearch提供了非常全面和强大的REST API,利用这个REST API你可以同你的集群交互。下面是利用这个API,可以做的几件事情: 1、查你的集群、节点和索引的健康状态和各种统计信息 2、管理你的集群、节点、 zz~~ 8年前 (2016-08-31) 1414℃ 0评论2喜欢
2016中国架构师大会大数据专场于10月27日在京进行,大数据专场有来自搜狐、优酷介绍其视频个性化推荐架构设计;也有来自饿了么的实时架构演变;有来自Qunar、宜信以及广发证券再金融中应用大数据的架构设计;也有华为CarbonData的介绍,干货十足!值得一看。主要涉及如下主题: 10月27 w397090770 8年前 (2016-11-03) 4623℃ 0评论9喜欢
公安行业存在数以万计的前后端设备,前端设备包括相机、检测器及感应器,后端设备包括各级中心机房中的服务器、应用服务器、网络设备及机房动力系统,数量巨大、种类繁多的设备给公安内部运维管理带来了巨大挑战。传统通过ICMP/SNMP、Trap/Syslog等工具对设备进行诊断分析的方式已不能满足实际要求,由于公安内部运维管 w397090770 7年前 (2017-01-01) 11145℃ 1评论37喜欢
活动内容2015年下半年华东地区scala爱好者聚会,这次活动有杭州九言科技(代表作是In App)提供场地。本次活动内容不局限scala也包含一些创业公司的技术架构地点:杭州西湖区万塘路8号黄龙时代广场A座1802时间:2015年12月26日 13:00 ~ 2015年12月26日 17:30限制: 限额35人费用:免费活动安排1) 《scala和storm下的流式计算 w397090770 8年前 (2015-12-16) 2385℃ 0评论6喜欢
本书于2017-03由Packt Publishing出版,作者Muhammad Asif Abbasi,全书356页。通过本书你将学到以下知识:Get an overview of big data analytics and its importance for organizations and data professionalsDelve into Spark to see how it is different from existing processing platformsUnderstand the intricacies of various file formats, and how to process them with Apache Spark.Realize how to deploy Spark with YAR zz~~ 7年前 (2017-07-26) 14715℃ 0评论29喜欢
我们在前面的 《Docker 入门教程:快速开始 》文章了解到镜像和容器的概念。本文将了解一下 Docker 的镜像分层(Layer)的概念,在 Docker 的官方文档对 Layer 的定义如下(参见这里):In an image, a layer is modification to the image, represented by an instruction in the Dockerfile. Layers are applied in sequence to the base image to create the final image. When an image is up w397090770 4年前 (2020-02-05) 1757℃ 0评论6喜欢
Apache Spark Delta Lake 的更新(update)和删除都是在 0.3.0 版本发布的,参见这里,对应的 Patch 参见这里。和前面几篇源码分析文章一样,我们也是先来看看在 Delta Lake 里面如何使用更新这个功能。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoopDelta Lake 更新使用Delta Lake 的官方文档为我们提供如何 w397090770 5年前 (2019-10-19) 2001℃ 0评论3喜欢
在 《Apache Spark 自定义优化规则:Custom Strategy》 文章中我们介绍了如何自定义策略,策略是用在逻辑计划转换到物理计划阶段。而本文将介绍如何自定义逻辑计划优化规则,主要用于优化逻辑计划,和前文不一样的地方是,逻辑优化规则只是等价变换逻辑计划,也就是 Logic Plan -> Login Plan,这个是在应用策略前进行的。如果想及时 w397090770 4年前 (2020-08-07) 1118℃ 0评论2喜欢
本视频是炼数成金的Spark大数据平台视频,本课程在总结上两期课程的经验,对课程重新设计并将更新过半的内容,将最新版的spark1.1.0展现给有兴趣的学员。 更新:由于版权问题,本视频不提供下载地址,敬请理解。本站所有下载资源收集于网络,只做学习和交流使用,版权归原作者所有,若为付费视频,请在下载后24小时 w397090770 9年前 (2015-03-24) 56742℃ 18评论99喜欢
Ubuntu上的输入法主要有Fcitx,Ibus,Scim等开源的输入法框架,支持各种各样的引擎,其中Scim和Ibus是输入法框架。Rime(中州韵输入法引擎)是一种流行的开源跨平台输入法,支持IBus和Fcitx框架。下面介绍一下Ubuntu下怎么安装Fcitx和Ibus输入法。 一、安装Fcitx输入法 Fcitx[ˈfaɪtɪks]是 Free Chinese Input Toy for X 的英文缩写,中文名为 w397090770 11年前 (2013-07-28) 3625℃ 0评论2喜欢
Kafka 从首次发布之日起,已经走过了七个年头。从最开始的大规模消息系统,发展成为功能完善的分布式流式处理平台,用于发布和订阅、存储及实时地处理大规模流数据。来自世界各地的数千家公司在使用 Kafka,包括三分之一的 500 强公司。Kafka 以稳健的步伐向前迈进,首先加入了复制功能和无边界的键值数据存储,接着推出了用 w397090770 6年前 (2017-11-05) 24933℃ 0评论17喜欢
美国当地时间2019年8月5日,惠普企业(Hewlett Packard Enterprises,纽约证券交易所股票代码:HPE)宣布收购 MapR Technologies Inc. 的业务资产!如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop此交易包括 MapR 的技术,知识产权以及人工智能和机器学习(AI/ML)和分析数据管理领域的专业知识。MapR 是 w397090770 5年前 (2019-08-12) 1174℃ 0评论1喜欢
2019 年 7 月 17 日,Cloudera 官方博客发文开源了一个内部研发使用很久的大数据存储和通用计算平台交叉的新项目 YuniKorn。Yunikorn 是一个新的独立通用资源调度程序,负责为大数据工作负载分配/管理资源,包括批处理作业和长时间运行的服务。介绍YuniKorn 是一种轻量级的通用资源调度程序,适用于容器编排系统(container orchestrator s w397090770 5年前 (2019-07-17) 3492℃ 0评论0喜欢
以较低的硬件成本扩展我们的数据基础设施,同时保持高性能和服务可靠性并非易事。 为了适应 Uber 数据存储和分析计算的指数级增长,数据基础设施团队通过结合硬件重新设计软件层,以扩展 Apache Hadoop® HDFS :HDFS Federation、Warm Storage、YARN 在 HDFS 数据节点上共存,以及 YARN 利用率的提高提高了系统的 CPU 和内存使用效率将多 w397090770 2年前 (2021-10-21) 373℃ 0评论1喜欢
点击试试使用Github登录我博客。 随着使用Github的人越来越多,为自己的网站添加Github登录功能也越来越有必要了。Github开放了登录API,第三方网站可以通过调用Github的OAuth相关API读取到登录用户的基本信息,从而使得用户可以通过Github登录到我们的网站。今天来介绍一下如何使用Github的OAuth相关API登录到Wordpress。 w397090770 9年前 (2015-04-12) 11792℃ 9评论12喜欢
本文作者:李寅威,从事大数据、机器学习方面的工作,目前就职于CVTE联系方式:微信(coridc),邮箱(251469031@qq.com)原文链接: Spark2.1.0 + CarbonData1.0.0集群模式部署及使用入门1 引言 Apache CarbonData是一个面向大数据平台的基于索引的列式数据格式,由华为大数据团队贡献给Apache社区,目前最新版本是1.0.0版。介于 zz~~ 7年前 (2017-03-13) 3406℃ 0评论11喜欢
数据湖分析Data Lake Analytics是阿里云数据库自研的云原生数据湖分析系统,目前已有数千企业在使用,是阿里云 库、仓、湖战略高地之一 !!!现紧急招聘【 数据湖平台工程师】 产品链接:https://www.aliyun.com/product/datalakeanalytics !!!如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop团队内部拥有多 w397090770 4年前 (2020-05-22) 853℃ 0评论1喜欢
随着大数据技术的发展,HDFS作为Hadoop的核心模块之一得到了广泛的应用。为了系统的可靠性,HDFS通过复制来实现这种机制。但在HDFS中每一份数据都有两个副本,这也使得存储利用率仅为1/3,每TB数据都需要占用3TB的存储空间。随着数据量的增长,复制的代价也变得越来越明显:传统的3份复制相当于增加了200%的存储开销,给存 w397090770 8年前 (2016-05-30) 8886℃ 0评论36喜欢
我们知道,Zookeeper 会将所有事务操作的数据记录到日志文件中,这个文件的存储路径可以通过 dataLogDir 参数配置。在写数据之前,Zookeeper 会采用磁盘空间预分配策略;磁盘空间预分配策略主要有以下几点好处:可以让文件尽可能的占用连续的磁盘扇区,减少后续写入和读取文件时的磁盘寻道开销;迅速占用磁盘空间,防止使用 w397090770 6年前 (2018-03-23) 2009℃ 0评论5喜欢
到目前为止,Scala 环境下至少存在6种 Json 解析的类库,这里面不包括 Java 语言实现的 Json 类库。所有这些库都有一个非常相似的抽象语法树(AST)。而 json4s 项目旨在提供一个单一的 AST 树供其他 Scala 类库来使用。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoopjson4s 的使用非常的简单,它可以将 w397090770 5年前 (2018-11-15) 1078℃ 0评论4喜欢
我们每天都可能会操作 HDFS 上的文件,这就很难避免误操作,比如比较严重的误操作就是删除文件。本文针对这个问题提供了三种恢复误删除文件的方法,希望对大家的日常运维有所帮助。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop通过垃圾箱恢复HDFS 为我们提供了垃圾箱的功能, w397090770 6年前 (2018-01-14) 9823℃ 2评论23喜欢
五一期间,Redis 6.0.0 稳定版(GA)终于发布,Redis 6.0 最终的发布一共经历了四个 RC(Release Candidate)版,从第一个候选版本的发布到一个稳定版本前后经历了大概四个半月(Redis 6.0 RC1 于 2019-12-19 发布)。Redis 6 是 Redis 有史以来最大的版本,虽然现在发布了 GA 版,但是在将它投入生产之前仍然需要谨慎。本文将介绍 Redis 6.0 RC1 到 GA w397090770 4年前 (2020-05-01) 1204℃ 0评论4喜欢
一、快手实时计算场景快手业务中的实时计算场景主要分为四块: 公司级别的核心数据:包括公司经营大盘,实时核心日报,以及移动版数据。相当于团队会有公司的大盘指标,以及各个业务线,比如视频相关、直播相关,都会有一个核心的实时看板; 大型活动实时指标:其中最核心的内容是实时大屏。例如快手的春晚 zz~~ 3年前 (2021-09-24) 701℃ 0评论3喜欢
如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop假设我们有以下表:[code lang="scala"]scala> spark.sql("""CREATE TABLE iteblog_test (name STRING, id int) using orc PARTITIONED BY (id)""").show(100)[/code]我们往里面插入一些数据:[code lang="sql"]scala> spark.sql("insert into table iteblog_test select w397090770 4年前 (2020-08-03) 3042℃ 0评论4喜欢
本书于2015年04月出版,共168页,这里提供的是本书的完整版. w397090770 9年前 (2015-08-24) 3160℃ 0评论5喜欢
几天前(2016年7月27日),Apache社区发布了Apache Mesos 1.0.0, 这是 Apache Mesos 的一个里程碑事件。相较于前面的版本, 1.0.0首先是改进了与 docker 的集成方式,弃用了 docker daemon;其次,新版本大力推进解决了接口规范化问题,新的 HTTP API 使得开发者能够更容易的开发 Mesos 框架;最后, 为了更好的满足企业用户的多租户,安全,审 w397090770 8年前 (2016-07-31) 1998℃ 0评论2喜欢
今天早上我在博文里面更新了Spark 1.4.0正式发布,由于时间比较匆忙(要上班啊),所以在那篇文章里面只是简单地介绍了一下Spark 1.4.0,本文详细将详细地介绍Spark 1.4.0特性。如果你想尽早了解Spark等相关大数据消息,请关注本博客,或者本博客微信公共帐号iteblog_hadoop。 Apache Spark 1.4.0版本于美国时间2015年06月11日正式发 w397090770 9年前 (2015-06-12) 5010℃ 1评论1喜欢
经过近一个月时间,终于差不多将之前在Flume 0.9.4上面编写的source、sink等插件迁移到Flume-ng 1.5.0,包括了将Flume 0.9.4上面的TailSource、TailDirSource等插件的迁移(当然,我们加入了许多新的功能,比如故障恢复、日志的断点续传、按块发送日志以及每个一定的时间轮询发送日志而不是等一个日志发送完才发送另外一个日志)。现在 w397090770 10年前 (2014-06-18) 17411℃ 13评论15喜欢
在编写程序的时候,很多时候都需要检查输入的参数是否符合我们的需要,比如人的年龄需要大于0,名字不能为空;如果不符合这两个要求,我们将认为这个对象是不合法的,这时候我们需要编写判断这些参数是否合法的函数,我们可能这样写:[code lang="JAVA"]package com.wyp;import java.util.ArrayList;import java.util.List;/** * Crea w397090770 11年前 (2013-07-24) 6000℃ 4评论2喜欢
Hadoop YARN自带了一系列的web service REST API,我们可以通过这些web service访问集群(cluster)、节点(nodes)、应用(application)以及应用的历史信息。根据API返回的类型,这些URL源归会类到不同的组。一些API返回collector类型的,有些返回singleton类型。这些web service REST API的语法如下:[code lang="JAVA"]http://{http address of service}/ws/{version}/{resourcepa w397090770 10年前 (2014-02-27) 25931℃ 2评论18喜欢