哎哟~404了~休息一下,下面的文章你可能很感兴趣:
几天前(2016年7月27日),Apache社区发布了Apache Mesos 1.0.0, 这是 Apache Mesos 的一个里程碑事件。相较于前面的版本, 1.0.0首先是改进了与 docker 的集成方式,弃用了 docker daemon;其次,新版本大力推进解决了接口规范化问题,新的 HTTP API 使得开发者能够更容易的开发 Mesos 框架;最后, 为了更好的满足企业用户的多租户,安全,审 w397090770 8年前 (2016-07-31) 1998℃ 0评论2喜欢
写在前面的话,学Hive这么久了,发现目前国内还没有一本完整的介绍Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关Hive的资料,如果对Hive的东西感兴趣,请关注本博客。https://www.iteblog.com/archives/tag/hive-technology/ 这些天看到很多人在使用H w397090770 10年前 (2013-12-25) 25078℃ 0评论23喜欢
有时候我们会自己编写一些 Python 内置中没有的 module ,比如下面我自定义了一个名为 matrix 的 module ,然后直接在命令行中引入则会出现下面的错误:[code lang="python"][iteblog@www.iteblog.com ~]$ pythonPython 2.7.3 (default, Aug 4 2016, 21:49:57) [GCC 4.4.7 20120313 (Red Hat 4.4.7-16)] on linux2Type "help", "copyright", "credits" or "license& w397090770 7年前 (2017-06-25) 56568℃ 0评论14喜欢
第一题,基础题: 1. 数据库及线程产生死锁的原理和必要条件,如何避免死锁。 2. 列举面向对象程序设计的三个要素和五项基本原则。 3.Windows内存管理的方式有哪些?各自的优缺点。第二题,算法与程序设计: 1.公司举行羽毛球比赛,采用淘汰赛,有1001个人参加,要决出“羽毛球最高选手”,应如何组织这 w397090770 11年前 (2013-04-20) 9093℃ 0评论9喜欢
本文来自 2019年9月23日至26日在纽约举办的 Strata Data Conference,分享者是来自 Cloudera 的 Wangda Tan 和 Wei-Chiu Chuang,会议页面 https://conferences.oreilly.com/strata/strata-ny-2019/public/schedule/detail/77506。请关注 过往记忆大数据 微信公众号,并在后台回复 hadoop_3 关键字获取本文的 PPT 下载地址。如果想及时了解Spark、Hadoop或者HBase相关的文章, w397090770 4年前 (2020-02-04) 2157℃ 2评论5喜欢
世界上大多数事物的发展规律是相似的,在最开始往往都会出现相对通用的方案解决绝大多数的问题,随后会出现为某一场景专门设计的解决方案,这些解决方案不能解决通用的问题,但是在某些具体的领域会有极其出色的表现。而在计算领域中,CPU(Central Processing Unit)和 GPU(Graphics Processing Unit)分别是通用的和特定的方案,前 zz~~ 3年前 (2021-09-24) 145℃ 0评论3喜欢
求解问题如下:在本地磁盘里面有file1和file2两个文件,每一个文件包含500万条随机整数(可以重复),最大不超过2147483648也就是一个int表示范围。要求写程序将两个文件中都含有的整数输出到一个新文件中。要求: 程序的运行时间不超过5秒钟。 没有内存泄漏。 代码规范,能要考虑到出错情况。 代码具有高度可重用性 w397090770 11年前 (2013-04-03) 6873℃ 3评论5喜欢
Spark SQL也是可以直接部署在当前的Hive wareHouse。 Spark SQL 1.1.0的 Thrift JDBC server 被设计成兼容当前的Hive数据仓库。你不需要修改你的Hive元数据,或者是改变表的数据存放目录以及分区。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop 以下列出来的是当前Spark SQL(1.1.0)对Hive特性的 w397090770 10年前 (2014-09-11) 9371℃ 1评论8喜欢
背景随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。现有方法及问题对于数据同步,我们目前 w397090770 4年前 (2020-01-04) 1124℃ 0评论4喜欢
摘要 本文主要介绍了如何利用Kafka自带的性能测试脚本及Kafka Manager测试Kafka的性能,以及如何使用Kafka Manager监控Kafka的工作状态,最后给出了Kafka的性能测试报告。性能测试及集群监控工具 Kafka提供了非常多有用的工具,如Kafka设计解析(三)- Kafka High Availability (下)中提到的运维类工具——Partition Reassign Tool,Prefe w397090770 8年前 (2015-12-31) 4422℃ 1评论6喜欢
在 HDFS 中,DataNode 将数据块存储到本地文件系统目录中,具体的目录可以通过配置 hdfs-site.xml 里面的 dfs.datanode.data.dir 参数。在典型的安装配置中,一般都会配置多个目录,并且把这些目录分别配置到不同的设备上,比如分别配置到不同的HDD(HDD的全称是Hard Disk Drive)和SSD(全称Solid State Drives,就是我们熟悉的固态硬盘)上。当 w397090770 6年前 (2018-03-28) 5122℃ 3评论24喜欢
Uber 致力于在全球市场上提供更安全,更可靠的运输服务。为了实现这一目标,Uber 在很大程度上依赖于数据驱动的决策,从预测高流量事件期间骑手的需求到识别和解决我们的驾驶员-合作伙伴注册流程中的瓶颈。自2014年以来,Uber 一直致力于开发大数据解决方案,确保数据可靠性,可扩展性和易用性;现在 Uber 正专注于提高他们平 w397090770 5年前 (2019-06-06) 3210℃ 0评论8喜欢
本 hosts 文件更新时间为 2018年07月22日。原作者为 Google Hosts 组织本页面长期更新最新 Google、谷歌学术、维基百科、ccFox.info、ProjectH、3DM、Battle.NET 、WordPress、Microsoft Live、GitHub、Box.com、SoundCloud、inoreader、Feedly、FlipBoard、Twitter、Facebook、Flickr、imgur、DuckDuckGo、Ixquick、Google Services、Google apis、Android、Youtube、Google Drive、UpLoad、Appspot、 w397090770 6年前 (2018-01-09) 15971℃ 1评论43喜欢
在昨天我谈到了WSDL的一些概念,今天打算谈谈为什么理解WSDL非常重要。 许多用户可能会提到的一个问题是,既然WSDL文件可以在各种主要的平台上使用工具创建,为什么还要花时间学习WSDL呢?这是因为WSDL文档非常新,学习其内容和工作原理是明智的。由于Web服务正在变得无所不在,所以,理解和掌握WSDL文档的必要性越来 w397090770 11年前 (2013-04-25) 3075℃ 1评论1喜欢
ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。 本文并不打算介绍ElasticSearch的概 w397090770 8年前 (2016-08-10) 36679℃ 2评论73喜欢
Linux安装软件依赖问题解决办法[code lang="java"][wyp@localhost Downloads]$ rpm -i --aid AdobeReader_chs-8.1.7-1.i486.rpm error: Failed dependencies: libatk-1.0.so.0 is needed by AdobeReader_chs-8.1.7-1.i486 libc.so.6 is needed by AdobeReader_chs-8.1.7-1.i486 libc.so.6(GLIBC_2.0) is needed by AdobeReader_chs-8.1.7-1.i486 libc.so.6(GLIBC_2.1) is needed by AdobeReader_chs-8.1.7-1.i486 libc.so.6(GLIBC_2.1.3) is n w397090770 10年前 (2014-10-09) 7765℃ 0评论4喜欢
导读:本文的主题是Presto高性能引擎在美图的实践,首先将介绍美图在处理ad-hoc场景下为何选择Presto,其次我们如何通过外部组件对Presto高可用与稳定性的增强。然后介绍在美图业务中如何做到合理与高效的利用集群资源,最后如何利用Presto应用于部分离线计算场景中。使大家了解Presto引擎的优缺点,适合的使用场景,以及在美图 w397090770 3年前 (2021-09-01) 651℃ 0评论1喜欢
Apache Gobblin 是一个用于流数据和批处理数据生态系统的分布式大数据集成框架。可以简化大数据集成里面的常见问题,比如数据摄取、复制、组织以及生命周期管理等。该项目2014年起源于 LinkedIn,2015年开源,2017年2月进入 Apache 孵化器,2021年02月16日正式毕业成为 Apache 顶级项目。如果想及时了解Spark、Hadoop或者HBase相关的文章, w397090770 2年前 (2022-01-01) 1051℃ 0评论3喜欢
下面IP由于地区不同可能无法访问,请多试几个。国内高匿代理 IP PORT 匿名度 类型 位置 响应速度 最后验证时间 125.117.130.174 9000 高匿名 HTTP w397090770 9年前 (2015-05-13) 46322℃ 0评论0喜欢
谁说网站首次备案一定要关站?特别是网站运行了一段时间,搜索引擎等已经收录了网站内容,这时候如果关站一段时间(备案期间最长需要20个工作日,也就是一个月时间)会对网站产生很大的影响,比如网站被搜索引擎加黑,权重变低。这样的影响我们肯定不想要。 今天我想告诉大家的是其实在备案期间我们网站是可 w397090770 9年前 (2014-12-24) 4230℃ 3评论5喜欢
七牛云存储直达地址:(点击这里) 随着网站建设的使用时间越来越长,我们的网站可能使用了越来越多的图片、CSS以及js文件,虽然这些的大小都不大,但如果请求的次数多了,这些文件的大小加起来就是一个可观的大小了!而且,如果你们页面图片或者js等文件多了,并且你的网站访问速度不太快的话,这会严重影响到 w397090770 9年前 (2015-01-12) 8759℃ 0评论11喜欢
我们使用数据库可以快速访问业务数据,但是随着时间的推移,数据库会不断增长,提取信息所需的时间也会更长,数据操作成为瓶颈。这时候我们就需要对数据进行分区(partition)了。分区是将数据库或其组成元素划分为不同的独立部分。数据库分区通常是出于可管理性、性能或可用性或负载平衡的原因而进行的。在分布式数据 w397090770 4年前 (2020-05-14) 1036℃ 0评论2喜欢
本书于2017-07由Packt Publishing出版,作者Md. Rezaul Karim, Sridhar Alla,全书1587页。关注大数据猿(bigdata_ai)公众号及时获取最新大数据相关电子书、资讯等通过本书你将学到以下知识Understand object-oriented & functional programming concepts of ScalaIn-depth understanding of Scala collection APIsWork with RDD and DataFrame to learn Spark’s core abstractionsAnalysin zz~~ 7年前 (2017-08-21) 7766℃ 0评论31喜欢
由CSDN主办OpenCloud 2015大会于4月16日-18日在国家会议中心成功举办。“2015 OpenStack技术大会”、“2015 Spark技术峰会”、“2015 Container技术峰会”三大峰会及三场深度行业实战培训赢得了讲师和听众们高度认可,40余位一线专家的深度主题演讲赢得阵阵掌声。 2015 spark技术峰会.pushed{color:#f60;}时间议题演讲者09: w397090770 9年前 (2015-04-28) 7517℃ 0评论2喜欢
我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略(这两种分区的代码解析可以参见:《Spark分区器HashPartitioner和RangePartitioner代码详解》),这两种分区策略在很多情况下都适合我们的场景。但是有些情况下,Spark内部不能符合咱们的需求,这时候我们就可以自定义分区策略。为此,Spark提供了相应的接口,我们只 w397090770 9年前 (2015-05-21) 18186℃ 0评论20喜欢
在Linux C网络编程中,一共有两种方法来关闭一个已经连接好的网络通信,它们就是close函数和shutdown函数,它们的函数原型分别为:[code lang="CPP"]#include<unistd.h>int close(int sockfd)//返回:0——成功, 1——失败#include<sys/socket.h>int shutdown(int sockfd, int howto)//返回:0——成功, 1——失败[/code]close函数和shutdown函数 w397090770 11年前 (2013-04-04) 5450℃ 0评论2喜欢
这次整理的PPT来自于2017年04月10日至11日在San Francisco进行的flink forward会议,这种性质的会议和大家熟知的Spark summit类似。本次会议的官方日程参见:http://sf.flink-forward.org/kb_day/day1/。因为原始的PPT是在http://www.slideshare.net/网站,这个网站需要翻墙;为了学习交流的方便,这里收集了本次会议所有课下载的PPT(共27个),希望对大家有所 w397090770 7年前 (2017-04-20) 2707℃ 0评论8喜欢
首先,很感谢大家对本博客的支持。 在此我想给各位网友阐述两件事(1)、QQ群问题;(2)、网站无法注册问题。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop一、QQ群问题(定期清人) 我在今年五月份创建了一个QQ群(群号:138615359),用来讨论Hadoop、Spark等相关方面 w397090770 10年前 (2014-09-17) 3860℃ 4评论8喜欢
程序的问题:已知数组a[n],求数组b[n].要求:b[i]=a[0]*a[1]*……*a[n-1]/a[i],不能用除法。a.时间复杂度O(n),空间复杂度O(1)。 b.除了迭代器i,不允许使用任何其它变量(包括栈临时变量等)大家有什么解法?先不要看我下面的解法。希望大家讨论讨论一下,留个言,一起交流一下。下面给出我的解法一:[code lang="CPP"]#include <stdio. w397090770 11年前 (2013-04-03) 4156℃ 0评论3喜欢
Apache Griffin 是开源的大数据数据质量解决方案,支持批处理和流模式,其是基于 Apache Hadoop 和 Apache Spark 构建,由 eBay 开发,并于 2016年12月07日进入 Apache 孵化。Griffin 提供了一个可以处理不同的任务,如定义数据质量模型,执行数据质量测量,自动化数据分析和验证,以及跨多个数据系统的统一数据质量可视化的全面的框架,旨在 w397090770 5年前 (2019-01-03) 9140℃ 3评论9喜欢