分享

现代数据质量的 4 大支柱



1.png

我们这个世界对高质量、值得信赖的数据的需求永远不会消失。

将数据质量视为技术问题而不是业务问题可能是取得进展的最大限制因素。查找技术缺陷,例如重复数据、缺失值、乱序序列以及与历史数据预期模式的偏差无疑是至关重要的,但这只是第一步。一个更苛刻和关键的步骤是衡量业务质量,检查数据是否上下文正确。

让我们看看现代数据质量的支柱:

1. 自上而下的业务 KPI—— 如果数据质量这个词从未被创造出来,而“业务质量”是目标,也许 IT 团队会受益。在那种情况下,确保数据正确的存在理由本来是为了确保业务成果得到满足。在这种情况下,重点从数据的基础设施转移到它的上下文。

但“上下文”到底是什么?

它是业务用途对数据的应用。例如,不同业务部门对“客户”的定义可能不同。对于销售来说,是买家,对于营销来说,是影响者,对于财务来说,是买单的人。因此,上下文的变化取决于谁在处理数据。 数据质量 需要与上下文保持同步。在另一个例子中,国家代码 1 和地区美国和加拿大可能看起来类似,但事实并非如此。不同的团队可以出于截然不同的目的使用表中的相同列。因此,数据质量的定义各不相同。因此,需要在业务上下文级别应用数据质量。

2. 产品思维 ——数据网格原则引发的概念非常引人注目。他们改变了我们的思维方式,使那些在实践中可能行不通的旧方法在今天也能奏效。最大的变化是我们对数据的看法:作为一种产品,必须在管理时考虑到用户及其期望的结果。

组织正在应用产品管理实践来使他们的数据资产可用。“数据产品”的目标是通过让不同的消费者群体更容易地消费和分析来鼓励“可信数据”的更高利用率。这反过来又提高了组织以低摩擦的方式从其数据资产中快速提取情报和见解的能力。

同样,数据质量也应该采用相同的产品管理原则来处理。数据生产者应发布一份“数据合同”,列出向消费者承诺的数据质量水平。通过将数据质量视为一等公民,生产者应该了解数据的使用方式及其质量的影响。数据产品的数据质量SLA旨在确保消费者了解数据新鲜度等参数。

3. 数据可观察性 ——通常,数据消费者是第一个发现异常的人,例如 CFO 在仪表板上发现错误。在这一点上,一切都乱套了,IT 团队进入了一种被动的救火模式,试图检测复杂架构中错误出现的位置。

数据可观察性 通过持续监控数据管道并使用先进的 ML 技术快速识别异常,甚至主动预测异常来填补空白,以便在问题到达下游系统之前对其进行补救。

数据质量问题可能发生在管道中的任何地方。但是,如果越早发现问题,修复成本就会越低。因此,采用“左移”的理念。数据可观察性产品通过以下方式提高数据质量:

  • 数据发现从数据源和数据管道的所有组件(例如转换引擎和报告或仪表板)中提取元数据。
  • 监控和分析——针对动态和静态数据。使用中的数据如何?
  • 预测性异常检测 - 使用内置。
  • 警报和通知


数据质量是数据可观察性的基础部分。下图显示了数据可观察性的总体范围。

1.jpg

数据可观察性范围

4. 整体数据治理 ——数据质量子系统与整体元数据管理密不可分。

一方面,数据目录存储定义或推断的规则,另一方面,DataOps 实践生成进一步细化数据质量规则的元数据。数据质量和 DataOps 确保数据管道以自动方式使用正确的规则和上下文进行持续测试,并在推断出异常时发出警报。

事实上,数据质量和 DataOps 只是元数据众多用例中的两个。现代数据质量与这些其他用例集成在一起,如下图所示。

1.jpg

元数据是一种粘合剂


在数据治理的其他方面合并数据质量的综合元数据平台可改善业务用户(例如数据消费者与数据产品的生产者和维护者)之间的协作。他们共享相同的上下文和指标。

这种紧密集成有助于采用左移方法来提高数据质量。持续测试、编排和自动化有助于降低错误率并加快数据产品的交付。需要这种方法来提高对数据团队的信任和信心。

这种集成是企业采用数据产品、数据网格和数据共享选项(如交易所和市场)的现代数据交付方法的垫脚石。



没找到任何评论,期待你打破沉寂

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条