搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
技术学习(版主发帖区)
›
大数据学习
›
数据湖
›
常识型
›
带大家一起学数据湖:数据湖到底价值何在
1
0
1
分享
带大家一起学数据湖:数据湖到底价值何在
阿飞
2021-1-7 12:28:37
发表于
常识型
[显示全部楼层]
阅读模式
关闭右栏
0
3334
本帖最后由 阿飞 于 2021-1-7 12:30 编辑
问题导读
1.数据湖到底如何帮助企业?
2.有了数据仓库为何还需要数据湖?
3.数据湖比数据仓库多了哪些用途?
相关篇:
带大家一起学数据湖:数据湖入门必备
https://www.aboutyun.com/forum.php?mod=viewthread&tid=30092
数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。
1.数据湖如何帮助企业
长期以来,企业一直试图找到一个统一的模型来表示企业中所有实体。这个任务有极大的挑战性,原因有很多,下面列举了其中的一部分:
一个实体在企业中可能有多种表示形式,因此可能不存在某个完备的模型来统一表示实体。
不同的企业应用程序可能会基于特定的商业目标来处理实体,这意味着处理实体时会采用或排斥某些企业流程。
不同应用程序可能会对每个实体采用不同的访问模式及存储结构。
这些问题已困扰企业多年,并阻碍了业务处理、服务定义及术语命名等事务的标准化。
从数据湖的角度来看,我们正在以另外一种方式来看待这个问题。使用数据湖,隐式实现了一个较好的统一数据模型,而不用担心对业务程序产生实质性影响。这些业务程序则是解决具体业务问题的“专家”。数据湖基于从实体所有者相关的所有系统中捕获的全量数据来尽可能“丰满”地表示实体。
因为在实体表示方面更优且更完备,数据湖确实给企业数据处理与管理带来了巨大的帮助,使得企业具备更多关于企业增长方面的洞察力,帮助企业达成其商业目标。
2.数据湖与数据仓库有何不同
根据要求,典型的组织将需要数据仓库和数据湖,因为它们可满足不同的需求和使用案例。
数据仓库是一个优化的数据库,用于分析来自事务系统和业务线应用程序的关系数据。事先定义数据结构和 Schema 以优化快速 SQL 查询,其中结果通常用于操作报告和分析。数据经过了清理、丰富和转换,因此可以充当用户可信任的“单一信息源”。
数据湖有所不同,因为它存储来自业务线应用程序的关系数据,以及来自移动应用程序、IoT 设备和社交媒体的非关系数据。捕获数据时,未定义数据结构或 Schema。这意味着您可以存储所有数据,而不需要精心设计也无需知道将来可能需要哪些问题的答案。可以对数据使用不同类型的分析(如 SQL 查询、大数据分析、全文搜索、实时分析和机器学习)来获得信息。
特性
数据仓库
数据湖
数据
来自事务系统、运营数据库和业务线应用程序的关系数据
来自 IoT 设备、网站、移动应用程序、社交媒体和企业应用程序的非关系和关系数据
Schema
设计在数据仓库实施之前(写入型 Schema)
写入在分析时(读取型 Schema)
性价比
更快查询结果会带来较高存储成本
更快查询结果只需较低存储成本
数据质量
可作为重要事实依据的高度监管数据
任何可以或无法进行监管的数据(例如原始数据)
用户
业务分析师
数据科学家、数据开发人员和业务分析师(使用监管数据)
分析
批处理报告、BI 和可视化
机器学习、预测分析、数据发现和分析
3.总结
其实现在很多企业已经有了数据仓库,或则实时数据仓库,那么是否需要数据湖,从上面我们看出,如果只是需要一些报表、统计等,数据仓库是可以满足的,但是如果企业多个项目或则多个公司,想利用这些数据,用来机器学习、预测分析、数据发现和分析,那么数据湖是最恰当的组织形式。
最新经典文章,欢迎关注公众号
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
没找到任何评论,期待你打破沉寂
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
发表新帖
阿飞
超级版主
关注
1893
主题
1999
帖子
123
粉丝
TA的主题
华为OD目标院校名单(2024.07新版)
2024-7-19
国/央企投递全流程经验分享
2024-7-15
2024年了,互联网大厂福利还香吗?
2024-5-23
华为3年涨薪6次,每次涨薪高达3万
2024-5-14
华为OD面试
2024-5-13
24小时热文
矩阵分析引论罗家洪(第四版)
互联网大厂年终福利曝光:看看别人家老板怎
像高手一样发言:七种常见工作场景的说话之
携程允许员工春节回乡办公2个月
数据治理实施方案
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈