最新发布第5页

过往记忆专注于大数据技术构架及应用，微信公众号:过往记忆大数据

最热排行榜

浏览 (139055)473喜欢
1Hive数据类型转换
浏览 (115377)86喜欢
2Hive常用字符串函数
浏览 (101851)66喜欢
3Hive insert into语句用法
浏览 (92456)179喜欢
4Hive常用函数大全一览
浏览 (92323)128喜欢
5Hive几种数据导入方式
浏览 (90813)75喜欢
6Apache Spark SQL自适应执行实践
浏览 (87760)294喜欢
7精心收集的Hadoop学习资料(持续更新)
浏览 (84585)69喜欢
8使用HttpClient通过post方式发送json数据
浏览 (83514)88喜欢
9Spark: sortBy和sortByKey函数详解
浏览 (83504)73喜欢
10Hive:ORC File Format存储格式详解

Apache Pulsar in Action 下载

《Apache Pulsar in Action》于 2021年10月由 Manning 出版， ISBN 为 9781617296888 ，全书 400 页。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop图书介绍《Apache Pulsar in Action》能够无缝地将理论和抽象概念与清晰的循序渐进的实例结合在一起，我愿意向任何人推荐!--- Matteo Merli, co-creator of Apache PulsarDe

w397090770 2年前 (2022-03-02) 706℃ 0评论0喜欢

Kafka

Kafka in Action 下载

《Kafka in Action》于 2022年01月由 Manning 出版， ISBN 为 9781617295232 ，全书 272 页。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop图书介绍作者有多年使用 Kafka 的真实世界的经验，这本书的实地感觉真的让它与众不同。---- From the foreword by Jun Rao, Confluent CofounderMaster the wicked-fast Apache Kafka streaming

w397090770 2年前 (2022-03-02) 475℃ 0评论2喜欢

Apache Doris

Apache Doris 向量化设计与实现

导读：向量化技术带来极致的CPU效率的同时，也已经成为了软件开发的趋势，而数据库的向量化不仅仅是 CPU 指令的向量化，还是一个巨大的性能优化工程。本文从CPU向量化原理出发，通过Cache、虚函数、SIMD等方面讨论CPU的性能优化，介绍了Apache Doris现有列存行式计算结构向列存列式计算结构的转变，同时展示了目前Apache D

w397090770 2年前 (2022-03-01) 1023℃ 0评论2喜欢

Kubernetes

kubectl 常用命令一览表

本文列出了 kubectl 常用命令。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：过往记忆大数据Kubectl 自动补全BASH[code lang="bash"]source <(kubectl completion bash) # 在 bash 中设置当前 shell 的自动补全，要先安装 bash-completion 包。echo "source <(kubectl completion bash)" >> ~/.bashrc # 在您的 bash shell 中永久

w397090770 2年前 (2022-02-28) 292℃ 0评论1喜欢

Spark

Spark Structured Streaming 2021年最新进展的总结

本文我们将花点时间来回顾一下 Databricks 和 Apache Spark™ 在流数据处理方面所取得的巨大进步！2021年，工程团队和开源贡献者在以下三个目标取得了一些进展：降低延迟并改进有状态流处理；提高 Databricks 和 Spark Structured Streaming 工作负载的可观测性；改进资源分配和可伸缩性。下面我们来简单地看下这些目标。目标一：

w397090770 2年前 (2022-02-23) 757℃ 0评论3喜欢

公众号转载文章

一文理解实时数据仓库的演进

数据处理现状：当前基于Hive的离线数据仓库已经非常成熟，数据中台体系也基本上是围绕离线数仓进行建设。但是随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀，业界最近几年就一直聚焦并探索于两个相关的热点问题：实时数仓建设和大数据架构的批流一体建设。实时数仓建设：实时数仓1.0 传统

w397090770 2年前 (2022-02-18) 595℃ 0评论1喜欢

公众号转载文章

数据湖统一存储在 OPPO 的实践

分享嘉宾：Xiaochun He OPPO，编辑整理：门君仪澳洲国立大学导读：OPPO是一家智能终端制造公司，有着数亿的终端用户，手机、IoT设备产生的数据源源不断，设备的智能化服务需要我们对这些数据做更深层次的挖掘。海量的数据如何低成本存储、高效利用是大数据部门必须要解决的问题。目前业界流行的解决方案是数据湖，本次

w397090770 2年前 (2022-02-18) 378℃ 0评论1喜欢

Flink

Flink SQL 在快手的扩展与实践

摘要：本文整理自快手实时计算团队技术专家张静、张芒在 Flink Forward Asia 2021 的分享。主要内容包括： Flink SQL 在快手功能扩展性能优化稳定性提升未来展望一、Flink SQL 在快手经过一年多的推广，快手内部用户对 Flink SQL 的认可度逐渐提高，今年新增的 Flink 作业中，SQL 作业达到了 60%，与去年相比有了一倍的提升，峰值吞吐

w397090770 2年前 (2022-02-18) 871℃ 0评论1喜欢

Apache Doris

Apache Doris 和 ClickHouse 的深度分析

背景介绍Apache Doris是由百度贡献的开源MPP分析型数据库产品，亚秒级查询响应时间，支持实时数据分析；分布式架构简洁，易于运维，可以支持10PB以上的超大数据集；可以满足多种数据分析需求，例如固定历史报表，实时数据分析，交互式数据分析和探索式数据分析等。 ClickHouse 是俄罗斯的搜索公司Yadex开源的MPP架构的分析引

w397090770 2年前 (2022-02-15) 2533℃ 0评论0喜欢

Apache Hop

起源于 Kettle 的新一代数据集成平台 Apache Hop 成为 Apache 顶级项目

Apache Hop（Hop Orchestration Platform 的首字母缩写）是一种数据编排（data orchestration ）和数据工程平台（data engineering platform），旨在促进数据和元数据编制。Hop 可以让我们专注于问题的解决，而不受技术的阻碍。该项目起源于 Kettle，经过数年的重构，并于2020年9月进入 Apache 孵化器；2022年1月18日正式成为 Apache 顶级项目。Hop 允许数据

w397090770 2年前 (2022-01-22) 1471℃ 0评论2喜欢

上一页
1
2
3
4
5
6
7
8
9
10
...
139
下一页
共 139 页