搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
博客
群组
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云
»
专题
›
技术学习(版主发帖区)
›
大数据学习
›
其它
›
提升数据质量关键步骤分享
0
1
1
分享
提升数据质量关键步骤分享
levycui
2022-6-29 20:23:46
发表于
其它
[显示全部楼层]
只看大图
阅读模式
关闭右栏
1
1638
问题导读:
1、数据质量保障的关键的步骤有哪些?
2、数据质量最关键的6个维度是什么?
3、数据质量最核心内容是什么?
4、数据质量保障机制是什么?
一、前言
数据质量保障的关键的步骤是数据质量规则、数据质量指标,数据探查,数据保障机制和数据清洗,不管是在做数据质量或者打算做数据质量工作的朋友都可以详细研究下,应该会有帮助。
本篇包含数质量基础,数据质量规则、指标(附模板下载),数据探查(附模板下载),数据保障机制,数据清洗(附模板下载),常见质量问题(附下载文档)
二、数据质量基础
数据质量管理(Data Quality Management),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。
数据质量最关键的6个维度:
1)完整性:指数据在录入、传递过程中无缺失和遗漏,包括实体完整、属性完整、记录完整和字段值完整四个方面。
2)及时性:指及时记录和传递相关数据,满足业务对信息获取的时间要求。
3)有效性:指数据的值、格式和展现形式符合数据定义和业务定义的要求。
4)一致性:指遵循统一的数据标准记录和传递数据和信息,主要体现在数据
记录是否规范、数据是否符合逻辑。
5)唯一性:指同一数据只能有唯一的标识符。
6)准确性:指真实地、准确地记录原始数据,无虚假数据及信息。
三、数据质量规则,数据质量指标
数据质量规则是数据质量最核心的内容,数据质量规则和指标设计的全与不全,是否合理,决定了数据的质量的好坏。下面是我根据华为数据之道和工业企业数字化转型之道加上我的经验综合出来的一个版本,如果这些规则都用到位,数据质量应该是有保障的,由于列比较多,完整版请在公众号获取。
四、数据探查
数据探查是数据质量保障非常重要要的一步,他是设计的基础,排除客观原因,好的效率和质量是可以通过设计来提升的,如果没有数据探查,一般情况下数据类项目都会反复多次,有可能影响人员变动,交接困难,维护困难,项目完成周期长等问题。
下面只是其中几个方面的数据探查,供参考,具体案例,请在公众号获取。
探查出的常见问题和分类请在公众号获取。
五、数据质量保障机制
数据质量持续提升就要靠保障机制了,只有自动化,常态化,持续监控数据质量,才能不断提升数据的质量,数据质量保障主要有如下几个关键步骤:
设计量化指标—>设计质量打分细则->设计分值考核->异常数据监控->指标展现->按规则推送提醒相关负责人
例:空值率>5%,记1分,每日空值率指标预警,每日全部门通报,影响年底考核。
此部分需要根据公司实际情况详细设计。
六、数据清洗
数据清洗(Data cleaning)– 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。主要有不完整的数据、错误的数据、重复的数据三大类;
如果前端控制不到位,又想有高质量的数据,只能靠数据清洗,数据清洗是存量数据质量提升的关键步骤,数据清洗后的数据可以更好的支持数据分析,数据洞见。
七、结语
上面是我对数据质量的一些理解和实战经验,如果对您有帮助,烦请关注、转发,如有任何问题,请留言或加我微信入群,我们一起探讨,一起持续构建数据治理体系。
进入来源网页,获取文中提到的参考资料。
作者:1H 数据治理体系
来源:
https://mp.weixin.qq.com/s/BSA7bgEC7BAnAQl100z3Uw
最新经典文章,欢迎关注公众号
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
已有(1)人评论
电梯直达
正序浏览
cuixz
发表于 2022-7-18 09:11:38
学习了,谢谢分享
回复
使用道具
举报
显身卡
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
最佳新人
积极上进,爱好学习
热心会员
经常帮助其他会员答疑
发表新帖
levycui
超级版主
关注
654
主题
1166
帖子
97
粉丝
TA的主题
快手广告领域的大模型技术探索与实践
2024-12-12
人工智能,助力书写数字金融大文章
2024-9-14
开源模型超过最强闭源模型,Llama 3.1颠覆AI生态
2024-7-25
慈不掌兵,我被下属反向PUA了
2024-5-21
字节三面过程,最终还是凉了
2024-4-25
24小时热文
哈佛通识教育红皮书 (北大高等教育文库·大
代码精进之路:从码农到工匠
为什么面试难!一文帮我们看透本质,拿捏of
程序员薪资排名,AI位居榜首,平均年薪277
Django实战:Python Web典型模块与项目开发
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈