搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
办公|编程助手
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
技术学习(版主发帖区)
›
大数据学习
›
数据治理
›
常识型
›
组织中的不同角色如何看待数据质量?
0
0
1
分享
组织中的不同角色如何看待数据质量?
nettman
2023-6-18 22:36:37
发表于
常识型
[显示全部楼层]
只看大图
阅读模式
关闭右栏
0
347
About云VIP帮助找工作和提升
数据工程师:
我们研究了数据工程,它结合了围绕数据管理、软件工程和 I&O 的三个核心实践。这主要侧重于通过跨各种数据和分析平台构建和操作数据管道,将数据重构为可用的消费者形式。
数据工程师,也就是数据的生产者,必须在数据建模、管道开发和软件工程方面保持稳健,并确保数据始终可靠并根据业务服务水平协议提供。这一承诺需要快速对大量数据执行各种检查,并防止任何不足的数据到达下游。
由于数据的规模,这种以工程师为中心的验证是广泛而浅薄的,包括数据表面或元数据级别的验证。这些验证方法从 API 检查扩展到在数据登陆之前防止问题(左移)到使用异常监控检测仓库或湖边房屋的问题(右移)。这两种方法都围绕元数据或自定义级别的 SQL 检查,使用可观察性在消费者使用数据或满足与消费者/内部/外部利益相关者商定的数据合同/SLA 之前防止或检测未知问题。
数据科学家或数据分析师:
在数据科学家或数据分析师(即数据消费者)的世界中,人们听到的最常见的说法是“输入垃圾,输出垃圾”。换句话说,开发的模型或报告仅与输入的数据一样好。这里的数据质量评估主要由用例定义,并且因生成的每个模型和报告而异。
执行的数据 质量 检查更加以业务为中心,必须持续测量以使用数据上下文管理和解决任何已知问题。首先,数据或下游应用程序的消费者希望确保他们用于构建报告和分析模型的数据适合业务。
这需要通过聚合分析、确定性规则、统计措施、数据准确性、完整性、自定义检查和数据质量的其他维度执行狭义和深入的业务检查,这些维度不一定是上游或数据生产者的重点。
例如,数据科学家构建下一个用于优化生产材料分配路线规划的大模型可能对数据的某些特征感兴趣,这些特征对于专注于针对年轻一代人口以获得新收入的营销功能可能并不重要.
这种评估和对数据质量的需求会不时发生变化,并且还决定了分散数据所有权或在其上下文中评估数据质量的需求。
数据管理员:
现在,我们不要忘记数据管理员。这一角色在现代数据领域的世界中非常令人困惑,甚至随着数据治理平台数十年来违背承诺而变得更加混乱。“管理”一词的意思是“监督或照顾某事”,在这种情况下,是的,即使在分散的数据所有权中,也需要始终如一地维护一组业务术语或关键数据元素(业务术语)以维持业务完整性,例如,银行路由号码、SSN、客户 ID。
这需要根据业务上下文(语义)对组织的不同数据资产应用一致的数据质量检查,而不管它在技术元数据中的定义位置和方式如何。这些检查需要自动发现语义,并且必须对质量检查采取一致的措施,并且需要“敏捷”数据管理或联合团队。
数据负责人:
最后但并非最不重要的一点是,数据领导者(又名业务利益相关者)关注的是什么可以使他们下一次大获全胜,并希望了解他们如何使用手头的数据来实现新的或即兴的战略,以实现积极的业务成果。Gartner 的一项研究表明,到 2025 年,80% 的数据和分析治理计划将侧重于业务,到 2024 年,50% 的组织将采用现代 DQ 解决方案来更好地支持其数字业务计划。
这清楚地表明业务领导者如何专注于确定关键业务流程、他们的 KPI 和 KRI,以及与组织关键任务优先级有直接联系的基础数据或指标资产。在开始 DQ 计划并持续测量之前,先确定业务 KPI/KRI 的基线值,这将有助于让领导者有一个自上而下的视图,更重要的是,哪些领域和/或应用程序需要提高数据质量。这种“自上而下”的业务质量检查视图对于评估关键绩效指标以及针对任何计划结果的数据质量基准测量至关重要。此外,隐私、安全和合规领导者至少需要根据数据的分类或类型进行持续验证和保证,以确保 100% 的合规性。
-----------我的底线--------------
中文版ChatGPT
https://xing.aboutyun.com/
加微信领取Chat GPT教程:
1.一份超值的教程,让你成为职场“大佬”,轻松掌握ChatGPT技能
ChatGPT教程1:如何用ChatGPT自动化操作Excel,十倍提升你的工作效率
ChatGPT教程2:如何让ChatGPT帮你做专业又美观的PPT,人工智能神器ChatGPT高效办公系列2023最新教学
ChatGPT教程3:如何利用ChatGPT免费高效自学编程,再也不用担心学不会编程了!
ChatGPT教程4:2023普通人ChatGPT副业赚钱项目
ChatGPT教程5:ChatGPT全方位必修课 报告 论文
绘图教程6:AI绘图最新Midjourney v5.1 + Raw Mode
绘图教程7:深入实作教学 Midjourney niji journey ChatGPT v5
绘图教程8:最新Midjourney v5 + ChatGPT 咒语生成Prompt Generator
2.领取最新面试教程
1.具备哪些特征,你几乎拿不到任何offer
2.如何避免简历被一眼淘汰:十大致命特征揭秘
3.面试+ChatGPT《红花宝典》
https://www.aboutyun.com/forum.php?mod=viewthread&tid=35330
获取更多资源:
领取100本书+1T资源
http://www.aboutyun.com/forum.php?mod=viewthread&tid=26480
大数据5个项目视频
http://www.aboutyun.com/forum.php?mod=viewthread&tid=25235
名企资源、名企面试题、最新BAT面试题、专题面试题等资源汇总
https://www.aboutyun.com/forum.php?mod=viewthread&tid=27732
加微信w3aboutyun,可拉入技术爱好者群
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
没找到任何评论,期待你打破沉寂
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
发表新帖
nettman
超级版主
关注
2910
主题
3203
帖子
478
粉丝
TA的主题
避坑大厂基础架构
昨天 21:48
Flink CDC:新一代实时数据集成框架
昨天 20:38
蚂蚁面试就是不一样
昨天 20:29
招聘1万人
6 天前
为何大厂开发者纷纷抛弃小仓,转向大仓monorepo?
6 天前
24小时热文
Flink CDC:新一代实时数据集成框架
蚂蚁面试就是不一样
如何高效学习
人情世故速查速用大全集
框架思维
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈