欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

Linux

Linux内核中是怎么实现min和max函数

Linux内核中是怎么实现min和max函数
Linux内核代码有很多很经典的代码,仔细去看看,可以学到很多知识。今天说说Linux是怎么实现min和max的。max和min函数都是比较常用的,可以用函数,或者利用宏去实现,一般我们会这样去写:[code lang="CPP"]#define min(x,y) ((x)>(y)?(y):(x))#define max(x,y) ((x)>(y)?(x):(y))[/code]但是上面的写法是有副作用的。比如输入[code lang="CPP"]minv

w397090770   11年前 (2013-04-06) 7255℃ 0评论1喜欢

常用工具

如何在 mac 系统上安装 thrift

如何在 mac 系统上安装 thrift
Thrift 最初由Facebook开发,目前已经开源到Apache,已广泛应用于业界。Thrift 正如其官方主页介绍的,“是一种可扩展、跨语言的服务开发框架”。简而言之,它主要用于各个服务之间的RPC通信,其服务端和客户端可以用不同的语言来开发。只需要依照IDL(Interface Description Language)定义一次接口,Thrift工具就能自动生成 C++, Java, Python, PH

w397090770   2年前 (2022-03-29) 1582℃ 0评论0喜欢

Delta Lake

Data Lakehouse 的演变

Data Lakehouse 的演变
本文是 Forest Rim Technology 数据团队撰写的,作者 Bill Inmon 和 Mary Levins,其中 Bill Inmon 被称为是数据仓库之父,最早的数据仓库概念提出者,被《计算机世界》评为计算机行业历史上最具影响力的十大人物之一。原始数据的挑战随着大量应用程序的出现,产生了相同的数据在不同地方出现不同值的情况。为了做出决定,用户必须找

w397090770   3年前 (2021-05-25) 551℃ 0评论0喜欢

资料分享

highlight.js:轻量级的Web代码语法高亮库

highlight.js:轻量级的Web代码语法高亮库
  highlight.js是一款轻量级的Web代码语法高亮库,它主要有以下几个特点:  (1)、支持118种语言(看这里https://github.com/isagalaev/highlight.js/tree/master/src/languages)和54中样式(看这里https://github.com/isagalaev/highlight.js/tree/master/src/styles);  (2)、可以自动检测编程语言;  (3)、同时为多种编程语言代码高亮;  (4)

w397090770   9年前 (2015-04-16) 14108℃ 0评论13喜欢

ClickHouse

Clickhouse 在58的实践之路

Clickhouse 在58的实践之路
在数据量日益增长的当下,传统数据库的查询性能已满足不了我们的业务需求。而Clickhouse在OLAP领域的快速崛起引起了我们的注意,于是我们引入Clickhouse并不断优化系统性能,提供高可用集群环境。本文主要讲述如何通过Clickhouse结合大数据生态来定制一套完善的数据分析方案、如何打造完备的运维管理平台以降低维护成本,并结合具

w397090770   3年前 (2021-01-22) 1657℃ 0评论2喜欢

Linux

Linux 查看物理 CPU 个数、核数、逻辑 CPU 个数

Linux 查看物理 CPU 个数、核数、逻辑 CPU 个数
# 总核数 = 物理CPU个数 X 每颗物理CPU的核数 # 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数# 查看物理CPU个数cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l# 查看每个物理CPU中core的个数(即核数)cat /proc/cpuinfo| grep "cpu cores"| uniq# 查看逻辑CPU的个数cat /proc/cpuinfo| grep "processor"| wc -l复制代码 查看CPU信息(型号)ca

w397090770   2年前 (2021-11-01) 592℃ 0评论3喜欢

电子书

[电子书]Mastering Apache Storm PDF下载

[电子书]Mastering Apache Storm PDF下载
本书于2017-08由Packt Publishing出版,作者Ankit Jain, 全书341页。通过本书你将学到以下知识Understand the core concepts of Apache Storm and real-time processingFollow the steps to deploy multiple nodes of Storm ClusterCreate Trident topologies to support various message-processing semanticsMake your cluster sharing effective using Storm schedulingIntegrate Apache Storm with other Big Data technolo

zz~~   7年前 (2017-08-30) 3586℃ 4评论15喜欢

Apache Pulsar

Mastering Apache Pulsar 下载

Mastering Apache Pulsar 下载
《Mastering Apache Pulsar》于 2021年12月由 O'Reilly Media 出版, ISBN 为 9781492084907 ,全书 227 页。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop图书介绍Every enterprise application creates data, including log messages, metrics, user activity, and outgoing messages. Learning how to move these items is almost as important as the data itself. If

w397090770   2年前 (2022-03-22) 387℃ 0评论0喜欢

CPP编程

C++怎么设计只能在堆或者栈分配空间的类

C++怎么设计只能在堆或者栈分配空间的类
一般情况下,编写一个类,是可以在栈或者堆分配空间。但有些时候,你想编写一个只能在栈或者只能在堆上面分配空间的类。这能不能实现呢?肯定是可以的。 只能在堆上分配空间:我们可将类的析构函数用private来修饰,也就是把析构函数私有化,因为自动变量与静态变量的对象都在释放空间的时候都需要访问析构函数。若

w397090770   11年前 (2013-04-05) 4762℃ 0评论1喜欢

Spark meetup

杭州第四次Spark Meetup资料分享

杭州第四次Spark Meetup资料分享
  将于2016年6月5日星期天下午1:30在杭州市西湖区教工路88号立元大厦3楼沃创空间沃创咖啡进行,本次场地由挖财公司提供。分享主题1. 陈超, 七牛:《Spark 2.0介绍》(13:30 ~ 14:10)2. 雷宗雄, 花名念钧:《spark mllib大数据实践和优化》(14:10 ~ 14:50)3. 陈亮,华为:《Spark+CarbonData(New File Format For Faster Data Analysis)》(15:10 ~ 15:50)4

w397090770   8年前 (2016-06-06) 2264℃ 0评论2喜欢

Scala

play-json处理空值的几种方法

play-json处理空值的几种方法
假设我们有个需求,需要解析文件里面的Json数据,我们的Json数据如下:[code lang="xml"]{"website": "www.iteblog.com", "email": "hadoop@iteblog.com"}[/code]我们使用play-json来解析,首先我们引入相关依赖:[code lang="xml"]<dependency> <groupId>com.typesafe.play</groupId> <artifactId>play-json_2.10</artifactId

w397090770   7年前 (2017-08-02) 2806℃ 0评论16喜欢

Spark

[电子书]Learning Apache Spark 2 PDF下载

[电子书]Learning Apache Spark 2 PDF下载
本书于2017-03由Packt Publishing出版,作者Muhammad Asif Abbasi,全书356页。通过本书你将学到以下知识:Get an overview of big data analytics and its importance for organizations and data professionalsDelve into Spark to see how it is different from existing processing platformsUnderstand the intricacies of various file formats, and how to process them with Apache Spark.Realize how to deploy Spark with YAR

zz~~   7年前 (2017-07-26) 14715℃ 0评论29喜欢

Presto

Learning and Operating Presto 预览版下载

Learning and Operating Presto 预览版下载
由 Ahana 工程师 Vivek Bharathan、David E. Simmen 以及 George Wang 编写的《Learning and Operating Presto》图书计划在2021年11月发布,不过预览版已经可以下载了。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop图书描述Presto 社区自2012年诞生于 Facebook 后迅速发展起来。但是,即使对最有经验的工程师来说

w397090770   3年前 (2021-01-21) 449℃ 0评论1喜欢

Flink Meetup

杭州第一次Flink Meetup会议

杭州第一次Flink Meetup会议
  杭州第一次Flink Meetup会议将于2016年11月05日在杭州市滨江区江虹路410号进行,本次活动由华为杭研院承办。  Flink Meetup目前由德国柏林和英国伦敦这两个,这次活动是国内第一次Flink Meetup线下活动,开启第三个Flink Meeup活动大本营。  当下流计算系统可选的较多,Flink的性能和特性比较突出,其他流系统也各有特点。这

w397090770   8年前 (2016-10-18) 1652℃ 0评论1喜欢

Spark

Spark SQL中Join常用的几种实现

Spark SQL中Join常用的几种实现
引言Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。SparkSQL作为大数据领域的SQL实现,自然也对Join操作做了不少优化,今天主要看一下在SparkSQL中对于Join,常见的3种实现。Spark SQL中Join常用的实现Broadc

zz~~   7年前 (2017-07-09) 8273℃ 0评论16喜欢

wordpress开发

公告:将新浪微博登录嵌入到WordPress

公告:将新浪微博登录嵌入到WordPress
  经过一晚上的奋战终于通过调用新浪登录的登录API替代Wordpress内置的登录注册模块。只要你有新浪微博帐号即可绑定到本博客。添加微博登录功能主要解决两个问题:(1)、方便用户登录/注册;(2)、防止机器人注册本网站。以下是登录页面图:  点击上面使用微博帐号登录即可调用微博登录。如果你是第一次登录,需

w397090770   9年前 (2015-04-04) 4935℃ 0评论3喜欢

Hive

Apache Hive ​1.0.1和1.1.1两个版本同时发布

Apache Hive ​1.0.1和1.1.1两个版本同时发布
  Apache Hive ​1.0.1 和 1.1.1两个版本同时发布,他们分别是基于Hive 1.0.0和Hive 1.1.0,这两个版本都同时修复可同一个Bug:LDAP授权provider的漏洞。如果用户在HiveServer2里面使用到LDAP授权模式(hive.server2.authentication=LDAP),并且LDAP使用简单地未认证模式,或者是匿名绑定(anonymous bind),在这种情况下未得到合理授权的用户将得到认证(authe

w397090770   9年前 (2015-05-25) 4933℃ 0评论3喜欢

Kafka

Spark Streaming和Kafka整合是如何保证数据零丢失

Spark Streaming和Kafka整合是如何保证数据零丢失
  当我们正确地部署好Spark Streaming,我们就可以使用Spark Streaming提供的零数据丢失机制。为了体验这个关键的特性,你需要满足以下几个先决条件:  1、输入的数据来自可靠的数据源和可靠的接收器;  2、应用程序的metadata被application的driver持久化了(checkpointed );  3、启用了WAL特性(Write ahead log)。  下面我将简单

w397090770   8年前 (2016-03-02) 17549℃ 16评论50喜欢

Hadoop

Hadoop面试题系列(3/11)

Hadoop面试题系列(3/11)
1. 集群多少台, 数据量多大, 吞吐量是多大, 每天处理多少G的数据?2. 我们的日志是不是除了apache的访问日志是不是还有其他的日志?3. 假设我们有其他的日志是不是可以对这个日志有其他的业务分析?这些业务分析都有什么?4. 你们的服务器有多少台?服务器的内存多大?5. 你们的服务器怎么分布的?(这里说地理位置

w397090770   8年前 (2016-08-26) 3409℃ 0评论4喜欢

资料分享

2021年最新美区 Apple ID 注册教程

2021年最新美区 Apple ID 注册教程
国内区 Apple ID 转美国区的教程参见:2021年最新中国区 Apple ID 转美国区教程注意:下面的操作步骤是在2021年10月29日进行的,过程中都没有使用到 VPN 软件。使用苹果手机的有可能知道,国内使用的 App Store 只能下载国内的一些 APP 应用。有一些 APP 并没有在国内 App Store 上架,这时候就无法下载。我们需要使用一个国外的 Apple I

w397090770   2年前 (2021-10-22) 3913℃ 0评论5喜欢

Spark

OpenCloud 2015大会PPT资料免费下载[Spark篇]

OpenCloud 2015大会PPT资料免费下载[Spark篇]
  由CSDN主办OpenCloud 2015大会于4月16日-18日在国家会议中心成功举办。“2015 OpenStack技术大会”、“2015 Spark技术峰会”、“2015 Container技术峰会”三大峰会及三场深度行业实战培训赢得了讲师和听众们高度认可,40余位一线专家的深度主题演讲赢得阵阵掌声。  2015 spark技术峰会.pushed{color:#f60;}时间议题演讲者09:

w397090770   9年前 (2015-04-28) 7517℃ 0评论2喜欢

Hadoop

Hadoop面试题系列(1/11)

Hadoop面试题系列(1/11)
一. 问答题1.请说说hadoop1的HA如何实现?2.列举出hadoop中定义的最常用的InputFormats。那个是默认的?3.TextInputFormat和KeyValueInputFormat类之间的不同之处在于哪里?4.hadoop中的InputSplit是什么?5.hadoop框架中文件拆分是如何被触发的?6.hadoop中的RecordReader的目的是什么?7.如果hadoop中没有定义定制分区,那么如何在输出

w397090770   8年前 (2016-08-26) 5657℃ 0评论5喜欢

Spark

Spark Standalone模式应用程序开发

Spark Standalone模式应用程序开发
  在本博客的《Spark快速入门指南(Quick Start Spark)》文章中简单地介绍了如何通过Spark shell来快速地运用API。本文将介绍如何快速地利用Spark提供的API开发Standalone模式的应用程序。Spark支持三种程序语言的开发:Scala (利用SBT进行编译), Java (利用Maven进行编译)以及Python。下面我将分别用Scala、Java和Python开发同样功能的程序:一、Scala

w397090770   10年前 (2014-06-10) 16401℃ 2评论7喜欢

Mysql

Spark RDD写入RMDB(Mysql)方法二

Spark RDD写入RMDB(Mysql)方法二
  在本博客的《Spark将计算结果写入到Mysql中》文章介绍了如果将Spark计算后的RDD最终 写入到Mysql等关系型数据库中,但是这些写操作都是自己实现的,弄起来有点麻烦。不过值得高兴的是,前几天发布的Spark 1.3.0已经内置了读写关系型数据库的方法,我们可以直接在代码里面调用。  Spark 1.3.0中对数据库写操作是通过DataFrame类

w397090770   9年前 (2015-03-17) 13485℃ 6评论16喜欢

ElasticSearch

ElasticSearch内置也将支持SQL特性

ElasticSearch内置也将支持SQL特性
告诉大家一件好消息:ElasticSearch官方正在开发SQL功能模块,也就是说未来版本(不是 6.x 就是 7.x)的Elasticsearch内置就支持SQL特性了!这样我们就不需要安装 NLPchina/elasticsearch-sql 插件。这个SQL模块是属于X-Pack的一部分。首先默认提供了一个 CLI 工具,可以很方便的执行 SQL 查询。如下图如果想及时了解Spark、Hadoop或者Hbase相关的

w397090770   7年前 (2017-09-06) 3091℃ 0评论12喜欢

其他

58同城商业工程团队招聘

58同城商业工程团队招聘
我们是负责58同城商业广告变现的商业工程技术团队,负责竞价排名类广告系统研发,包含广告投放系统,广告检索系统,以及广告投放策略的研究、实现。在这里,你将面临严密的商业逻辑的挑战,高并发、大数据量的挑战,如何认知数据、应用数据的挑战。高级大数据研发工程师 工作职责:负责或参与58商业数据仓库

w397090770   4年前 (2020-05-21) 1342℃ 0评论8喜欢

资料分享

MathJax:在浏览器上显示LaTeX等数学公式的JS引擎

MathJax:在浏览器上显示LaTeX等数学公式的JS引擎
什么是MathJax  MathJax是一个显示网络上数学公式的开源JavaScript引擎库,它可以在所有浏览器上面工作,其中就支持LaTeX,MathML和AsciiMath 符号,里面的数字会被MathJax使用JavaScript引擎解析成HTML,SVG或者是MathML 方程式,然后在现代的浏览器里面显示。 它的设计目标是利用最新的web技术,构建一个支持math的web平台。支持主要的浏览

w397090770   9年前 (2015-04-15) 34420℃ 3评论42喜欢

Spark

Spark 1.4中REST API介绍

Spark 1.4中REST API介绍
  在Spark 1.4中引入了REST API,这样我们可以像Hadoop中REST API一样,很方便地获取一些信息。这个ISSUE在https://issues.apache.org/jira/browse/SPARK-3644里面首先被提出,已经在Spark 1.4加入。  Spark的REST API返回的信息是JSON格式的,开发者们可以很方便地通过这个API来创建可视化的Spark监控工具。目前这个API支持正在运行的应用程序,也支持

w397090770   9年前 (2015-06-10) 15635℃ 0评论8喜欢

Flume

Kafka实战:七步将RDBMS中的数据实时传输到Hadoop

Kafka实战:七步将RDBMS中的数据实时传输到Hadoop
  对那些想快速把数据传输到其Hadoop集群的企业来说,Kafka是一个非常合适的选择。关于什么是Kafka我就不介绍了,大家可以参见我之前的博客:《Apache kafka入门篇:工作原理简介》  本文是面向技术人员编写的。阅读本文你将了解到我是如何通过Kafka把关系数据库管理系统(RDBMS)中的数据实时写入到Hive中,这将使得实时分析的

w397090770   8年前 (2016-08-30) 11336℃ 6评论24喜欢

Flume

Hadoop大数据零基础实战视频教程下载

Hadoop大数据零基础实战视频教程下载
  本博客分享的其他视频下载地址:《传智播客Hadoop实战视频下载地址[共14集]》、《传智播客Hadoop课程视频资料[共七天]》、《Hadoop入门视频分享[共44集]》、《Hadoop大数据零基础实战培训教程下载》、《Hadoop2.x 深入浅出企业级应用实战视频下载》、《Hadoop新手入门视频百度网盘下载[全十集]》  本博客收集到的Hadoop学习书

w397090770   10年前 (2014-07-15) 92335℃ 0评论162喜欢