12 个真正重要的数据质量指标
为什么数据质量指标很重要?
如果您从事数据方面的工作,那么您要么正在从事数据质量项目,要么刚刚完成一个项目。这是坏数据法则——坏数据总是更多。
衡量数据质量指标的传统方法通常是时间和资源密集型的,跨越多个变量,从准确性(无需动脑筋)和完整性,到有效性和及时性(在数据中,没有流行的迟到之类的东西)。但好消息是有一种更好的方法来处理数据质量指标。
数据停机时间——数据不完整、错误、丢失或不准确的时间段——对于任何努力实现数据驱动的公司来说都是一项重要的数据质量指标。
这可能听起来陈词滥调,但却是事实——我们努力收集、跟踪和使用数据,但我们常常不知道数据是否真的准确。事实上,公司经常最终拥有出色的数据管道,但数据却很糟糕。那么,如果最终我们无法真正使用数据,那么为建立一个精美的数据架构所做的所有艰苦工作又有什么价值呢?
通过测量数据停机时间,这个简单的数据质量 KPI 将帮助您确定数据的可靠性,让您有信心使用它或丢失它。
数据质量指标
总体而言,数据停机时间是以下数据质量指标的函数:
[*]数据事件数 (N) – 考虑到您依赖团队“外部”的数据源,这个因素并不总是在您的控制之下,但它肯定是数据正常运行时间的驱动因素。
[*]检测时间 (TTD) – 发生事故时,您能多快收到警报?在极端情况下,如果您没有适当的检测方法,这个数量可以在几个月内测量到。不良数据造成的隐性错误可能会导致代价高昂的决策,并对您的公司和客户产生影响。
[*]解决时间 (TTR) – 发生已知事件后,您能够多快解决它?
通过这种方法,数据事件是指数据产品(例如 Looker 报告)“不正确”的情况,这可能是多种根本原因的结果,包括:
[*]全部/部分数据未充分更新
[*]全部/部分数据丢失/重复
[*]某些字段丢失/不正确
以下是一些不属于数据事件的示例:
[*]计划的架构更改不会“破坏”任何下游数据
[*]由于对数据系统的有意更改(弃用)而停止更新的表
综上所述,我建议数据停机的正确公式是:
12 个真正重要的数据质量指标
Barr Moses /7 分钟阅读。
2023 年 3 月 30 日
Datafloq 人工智能评分
floq.to/rakWS
为什么数据质量指标很重要?
如果您从事数据方面的工作,那么您要么正在从事数据质量项目,要么刚刚完成一个项目。这是坏数据法则——坏数据总是更多。
衡量数据质量指标的传统方法通常是时间和资源密集型的,跨越多个变量,从准确性(无需动脑筋)和完整性,到有效性和及时性(在数据中,没有流行的迟到之类的东西)。但好消息是有一种更好的方法来处理数据质量指标。
数据停机时间——数据不完整、错误、丢失或不准确的时间段——对于任何努力实现数据驱动的公司来说都是一项重要的数据质量指标。
这可能听起来陈词滥调,但却是事实——我们努力收集、跟踪和使用数据,但我们常常不知道数据是否真的准确。事实上,公司经常最终拥有出色的数据管道,但数据却很糟糕。那么,如果最终我们无法真正使用数据,那么为建立一个精美的数据架构所做的所有艰苦工作又有什么价值呢?
通过测量数据停机时间,这个简单的数据质量 KPI 将帮助您确定数据的可靠性,让您有信心使用它或丢失它。
北极星数据质量指标
总体而言,数据停机时间是以下数据质量指标的函数:
数据事件数 (N) – 考虑到您依赖团队“外部”的数据源,这个因素并不总是在您的控制之下,但它肯定是数据正常运行时间的驱动因素。
检测时间 (TTD) – 发生事故时,您能多快收到警报?在极端情况下,如果您没有适当的检测方法,这个数量可以在几个月内测量到。不良数据造成的隐性错误可能会导致代价高昂的决策,并对您的公司和客户产生影响。
解决时间 (TTR) – 发生已知事件后,您能够多快解决它?
通过这种方法,数据事件是指数据产品(例如 Looker 报告)“不正确”的情况,这可能是多种根本原因的结果,包括:
全部/部分数据未充分更新
全部/部分数据丢失/重复
某些字段丢失/不正确
以下是一些不属于数据事件的示例:
计划的架构更改不会“破坏”任何下游数据
由于对数据系统的有意更改(弃用)而停止更新的表
综上所述,我建议数据停机的正确公式是:
数据停机时间是一个有效的数据质量指标,也是一个非常简单的数据质量 KPI。 它是通过数据事件的数量乘以平均检测时间加上平均解决时间来衡量的。
数据停机时间是一种有效的数据质量指标。它是通过数据事件的数量乘以平均检测时间加上平均解决时间来衡量的。
数据停机时间是一种有效的数据质量指标。它是通过数据事件的数量乘以平均检测时间加上平均解决时间来衡量的。
如果您想进一步提高此数据质量 KPI,您还可以按严重程度对事件进行分类,并按严重程度对权重正常运行时间进行分类,我们已在另一篇文章中对此进行了说明。
通过自动化、高级检测和无缝解决方案的正确组合,您可以通过减少 TTD 和 TTR 来最大限度地减少数据停机时间。甚至还有数据 SLA 和数据健康洞察等方法来减少 N。
11 个更重要的数据质量指标
当然,如果我们认为数据停机时间是我们的北极星数据质量 KPI,那么构成该公式的所有数据点也很重要。例如:
1.事件总数(N)
该指标衡量所有数据管道中的错误或异常数量。大量事件表明需要投入更多资源来优化数据系统和流程的领域。但是,请务必记住,根据您的数据质量成熟度水平,更多的数据事件可能是一件好事。这并不一定意味着您发生了更多事件,只是您发现了更多事件。
2.表正常运行时间:
重要的是将事件总数置于表正常运行时间或未发生事件的表百分比的更大范围内。这可以按事件类型进行过滤,例如按自定义数据新鲜度规则进行过滤,以广泛了解 SLA 遵守情况。
3.响应时间(检测):
该指标衡量从事件创建到数据工程团队成员更新状态的中间时间(这通常是“正在调查”,但也可能是预期的,不需要采取行动,或误报)。
4. 修复时间(解决):
一旦事件被赋予状态,我们就想了解从那一刻到状态更新为固定的中间时间。
按域排序:
重要的是按域衡量上述数据质量指标,以了解可能需要额外优化的领域。
其他类型的数据质量指标也很重要,包括衡量表可靠性、监控覆盖范围、整洁度和事件响应的指标。
首先让我们看一下表的可靠性指标:
5. 重要性得分:
风险是频率和严重性的组合。如果您不了解基础表的重要性,您就无法了解数据事件的严重性。重要性分数是通过数据沿袭在 BI 级别通过读/写次数和下游消耗来衡量的,是使数据工程师能够对其事件响应进行分类的重要部分。它还可以指示一个自然的起点,在这个起点上分层更高级的自定义监控、数据测试或数据合同可能是合适的。
6.表健康
如果重要性分数是严重性,则表的运行状况或表在特定时间段内经历的事件数提供了风险方程式的频率端。
现在让我们看一下数据监控覆盖范围:
7.Table Coverage:
全面覆盖尽可能多的生产表对于确保数据可靠性至关重要。这是因为数据系统是如此相互依赖。一张桌子的问题会流入其他桌子。借助数据可观察性平台,您对数据新鲜度、数据量和模式更改监视器的覆盖率应该达到或接近 100%(但并非所有现代数据质量解决方案都如此)。
8. 创建自定义监视器:
表覆盖范围可帮助您确保在尽可能多的生产表中拥有广泛的覆盖范围。数据工程团队可以通过在关键表或字段上创建自定义监视器来获得额外的覆盖范围。重要的是要了解每种自定义监视器类型创建的事件数量,以避免警报疲劳。
现在让我们看看“整洁”数据质量指标,因为找不到更好的词了。跟踪和了解这些指标可以帮助您减少与组织、可用性和整体管理不善相关的事件。
9.未使用的表和仪表板的数量:
弃用表格和仪表板可能需要一些勇气。由于将它们随意放置更容易,未使用的表格和仪表板很快就会堆积起来。这可能会使查找数据变得困难,或者更糟的是,您的利益相关者最终可能会利用错误的表格或仪表板,从而导致两个真实来源(其中一个本来应该被淘汰)。
10. Deteriorating queries:
衡量为显示过去 30 天内执行运行时间持续增加的查询。在它们成为失败的查询和数据事件之前捕获这些恶化的查询非常重要。
最后,我们介绍了包含数据停机时间的关键事件响应指标,但我们将在下面添加一个指标。
11.状态更新率:
您的团队在更新事件状态方面做得越好,您的事件响应就会越好。
关注重要的数据质量指标
跟踪关键数据质量指标是了解数据质量的第一步,并从那里确保数据可靠性。随着花哨的算法和到处飞扬的数据质量 KPI,很容易使衡量数据质量的方法变得过于复杂。
有时最好专注于重要的事情。但要做到这一点,您需要适当的系统和流程来衡量(最好是在仪表板中)构成整体数据健康状况的许多数据指标。
------------------我的底线------------------------
中文版ChatGPT
https://chat.aboutyun.com/
加微信赠送Chat GPT教程:
https://chat.aboutyun.com/static/weixin.png
获取更多资源:
领取100本书+1T资源
http://www.aboutyun.com/forum.php?mod=viewthread&tid=26480
大数据5个项目视频
http://www.aboutyun.com/forum.php?mod=viewthread&tid=25235
名企资源、名企面试题、最新BAT面试题、专题面试题等资源汇总
https://www.aboutyun.com/forum.php?mod=viewthread&tid=27732
页:
[1]