搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
办公|编程助手
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
好文
›
好文
›
经典文章
›
Apache 顶级项目的 Hudi如何在数据湖上玩转增量处理
0
1
0
分享
Apache 顶级项目的 Hudi如何在数据湖上玩转增量处理
hyj
2020-6-4 16:37:05
发表于
经典文章
[显示全部楼层]
阅读模式
关闭右栏
1
3918
Apache Hudi 是由 Uber 开源的在分布式文件系统上提供对大型分析数据集的
摄取、管理以及查询的数据湖框架。2019 年 1 月加入 Apache 孵化器进行孵
化,5 月份,Hudi 晋升为 Apache 顶级项目。本文主要从 “增量处理”的角
度切入来谈谈 Hudi 对于数据湖的重要性。更多关于 Apache Hudi 的框架功
能、特性、使用场景以及最新进展等可关注 QCon 全球软件开发大会(北京
站)2020 获悉。
在大数据技术发展的整个历程中,Hadoop 算是稳稳地抓住了这一时代机
遇,成为了企业建设大数据基础设施事实上的标准。其中,支撑 Hadoop
生态的分布式文件系统 HDFS 顺势持有数据坐拥天下之利,几乎也顺其自
然地成为了事实上的大数据存储系统的接口标准。基于以上的两个坚实的
“标准”,Hive 作为在 Hadoop 体系之上以 HDFS 为存储的大数据数仓
的基础架构也一直是很多企业的不二选择,但天下却苦这套数仓架构久矣。
这其中的原因是多方面的,比如,HDFS 复杂的架构、高昂的成本,冷热分
层存储能力的缺失等问题以及长久以来旧版本的 Hive 无法支持真正意义
上的 Update/Delete 操作等。
于是,近些年随着云原生架构的兴起,我们看到了 Hadoop 逐渐式微,加
上现在拥抱低廉云存储的浪潮,业界涌现出多个跟 HDFS 接口兼容的拥抱
云厂商存储的数据湖框架试图改善上面的这些问题。
本文不打算对比各个框架的特性,孰优孰劣其实还得结合需求和场景来评
判,而且当下三个开源的数据湖存储框架 (Apache Hudi/Iceberg, Delta
Lake) 离成熟以及稳定的形态还有很长的一段路要走。本文会试图从 “增
量处理”的角度切入来谈谈它对于数据湖的重要性。
更多参考:
Apache 顶级项目的 Hudi如何在数据湖上玩转增量处理.rar
(685.72 KB, 下载次数: 25)
2020-6-4 16:36 上传
点击文件名下载附件
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
已有(1)人评论
电梯直达
正序浏览
美丽天空
发表于 2020-6-5 10:13:26
感谢分享
回复
使用道具
举报
显身卡
还有一些帖子被系统自动隐藏,点此展开
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
发表新帖
hyj
超级版主
关注
1689
主题
2216
帖子
469
粉丝
TA的主题
ChatGPT上线了IOS app,很给力
2023-5-19
About云2023年05月19日每日一读
2023-5-19
数澜科技数据中台项目规范-V1.0.0
2023-5-18
现代数据架构
2023-5-18
12 个真正重要的数据质量指标
2023-5-18
24小时热文
Docker基础与实战
docker容器实战:原理、架构与应用
Docker+容器与容器云(第2版)
kafka面试题精选
Nebula Flink Connector 在实时 ETL 的实践
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈