分享

带大家一起学数据湖:数据湖到底价值何在

阿飞 2021-1-7 12:28:37 发表于 常识型 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 0 3334
本帖最后由 阿飞 于 2021-1-7 12:30 编辑

问题导读

1.数据湖到底如何帮助企业?
2.有了数据仓库为何还需要数据湖?
3.数据湖比数据仓库多了哪些用途?

相关篇:
带大家一起学数据湖:数据湖入门必备
https://www.aboutyun.com/forum.php?mod=viewthread&tid=30092


数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。


1.数据湖如何帮助企业
长期以来,企业一直试图找到一个统一的模型来表示企业中所有实体。这个任务有极大的挑战性,原因有很多,下面列举了其中的一部分:

  • 一个实体在企业中可能有多种表示形式,因此可能不存在某个完备的模型来统一表示实体。
  • 不同的企业应用程序可能会基于特定的商业目标来处理实体,这意味着处理实体时会采用或排斥某些企业流程。
  • 不同应用程序可能会对每个实体采用不同的访问模式及存储结构。
  • 这些问题已困扰企业多年,并阻碍了业务处理、服务定义及术语命名等事务的标准化。


从数据湖的角度来看,我们正在以另外一种方式来看待这个问题。使用数据湖,隐式实现了一个较好的统一数据模型,而不用担心对业务程序产生实质性影响。这些业务程序则是解决具体业务问题的“专家”。数据湖基于从实体所有者相关的所有系统中捕获的全量数据来尽可能“丰满”地表示实体。

因为在实体表示方面更优且更完备,数据湖确实给企业数据处理与管理带来了巨大的帮助,使得企业具备更多关于企业增长方面的洞察力,帮助企业达成其商业目标。


2.数据湖与数据仓库有何不同
根据要求,典型的组织将需要数据仓库和数据湖,因为它们可满足不同的需求和使用案例。

  • 数据仓库是一个优化的数据库,用于分析来自事务系统和业务线应用程序的关系数据。事先定义数据结构和 Schema 以优化快速 SQL 查询,其中结果通常用于操作报告和分析。数据经过了清理、丰富和转换,因此可以充当用户可信任的“单一信息源”。


  • 数据湖有所不同,因为它存储来自业务线应用程序的关系数据,以及来自移动应用程序、IoT 设备和社交媒体的非关系数据。捕获数据时,未定义数据结构或 Schema。这意味着您可以存储所有数据,而不需要精心设计也无需知道将来可能需要哪些问题的答案。可以对数据使用不同类型的分析(如 SQL 查询、大数据分析、全文搜索、实时分析和机器学习)来获得信息。




特性
数据仓库
数据湖
数据来自事务系统、运营数据库和业务线应用程序的关系数据来自 IoT 设备、网站、移动应用程序、社交媒体和企业应用程序的非关系和关系数据
Schema设计在数据仓库实施之前(写入型 Schema)写入在分析时(读取型 Schema)
性价比更快查询结果会带来较高存储成本更快查询结果只需较低存储成本
数据质量
可作为重要事实依据的高度监管数据任何可以或无法进行监管的数据(例如原始数据)
用户业务分析师数据科学家、数据开发人员和业务分析师(使用监管数据)
分析批处理报告、BI 和可视化机器学习、预测分析、数据发现和分析

3.总结
其实现在很多企业已经有了数据仓库,或则实时数据仓库,那么是否需要数据湖,从上面我们看出,如果只是需要一些报表、统计等,数据仓库是可以满足的,但是如果企业多个项目或则多个公司,想利用这些数据,用来机器学习、预测分析、数据发现和分析,那么数据湖是最恰当的组织形式。



最新经典文章,欢迎关注公众号



没找到任何评论,期待你打破沉寂

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条