nettman 发表于 2023-6-7 04:51:40

简化数据质量的 10 种方法





思考未来情景有助于阐明公司的长期目标应该是什么。例如,假设您的公司可以选择一个数据愿望成真。会是怎样的愿望?

在您的头脑中,我猜您不会回答“转换我们的架构,使其以数据为中心”。但也许这应该是你的答案。

在数据方面,公司最终都想要同样的东西:


[*]正确的数据
[*]在正确的地方
[*]以正确的格式
[*]为了正确的目的
[*]在正确的时间。

不幸的是,目前公司最终获得满足所有这些参数的所需数据的可能性很小。通常,当涉及到数据时,公司会“让它发挥作用”。他们生成、收集或获取一些可能有用的数据,并对其进行足够的提炼和分析以从中提取一些价值。他们使用粗略的数据生命周期方法来管理各种数据,以不断从中提取价值。

造成这种现状的部分原因是创建和管理高质量数据是一项艰苦的工作。对于大多数人来说,这比应该的要难。

大多数公司还没有找到、相信或专注于使工作更轻松的方法。但是有些已经使更容易的数据集成、质量和管理工作成为可能。如果您有兴趣,请向我索取案例研究列表。

观察偏差和数据质量挑战
2009 年,当我在普华永道技术与创新中心担任研究员时,我有一位前斯坦福研究所老板,他总是从第一性原理和蓝天情景开始。他教我们先发散研究,再收敛。

2009 年,他要求我们研究商业智能的挑战是什么。经过研究,我们认为最大的挑战是数据集成,真正的集成。经过更深入的研究,我们同意集成问题的最佳解决方案是 Web 语义,即使用标准语义图建模的更智能的数据。今天,它们被称为知识图谱。

如果您考虑数据中出现的所有类型的偏差及其分析方式,观察偏差是最常见和普遍存在的偏差之一。你不需要大量的观察来解决这种偏见问题。您需要更全面地了解问题概况,才能找到要问的正确问题,并对如何回答这些问题持开放态度。因此,数据的可发现性和丰富性是关键。

此外,仅靠定量数据无法提供答案。定性数据通常提供了一种捕获上下文的方法,以了解您应该收集哪些数据以及如何收集。

我们在 2009 年进行的一次采访是对 Cycorp 的负责人 Doug Lenat 的采访。道格这样描述观察偏差问题:你在灯柱下寻找钥匙,因为那里有灯。挑战在于借助更智能的数据以及大规模集成和互操作,将光投射到更多地方。

简化数据质量和共享工作的十种方法
真正的数据质量简化需要同时转换代码和数据,因为两者有着千丝万缕的联系。代码蔓延和数据孤岛都意味着坏习惯应该是例外,而不是常态。


[*]转变您的数据架构。今天的“现代”架构往往承载着前几代遗留下来的包袱。最好避开这个包袱,构建一个在数据层进行创新的并行系统。
[*]旨在消除代码浪费和数据重复的设计。应该可重用的代码被困在应用程序中。
[*]考虑知识图而不是数据湖屋。优质数据丰富了知识和逻辑。所有类型的异构数据都可以通过知识图汇集在一起​​并进行管理。
[*]将零拷贝集成作为目标。当涉及到新项目时,假设本地拥有和控制的数据在源头上是可重用的。设计应用程序以使用他人的数据。通过命名图而不是 API 共享数据。这就是 Tim Berners-Lee 设想的 SOLID 方法,该方法还支持零拷贝集成和管理。
[*]前期关注语义,中游细化语义。语义学是意义的艺术和科学。当涉及到数字数据时,共享语义在用户之间以及机器与用户之间形成了一座桥梁。智能数据包括语义,可以更全面地了解问题和根据环境绘制解决方案。
[*]使用图形而不是仅使用表格进行集成。图清晰明了并且易于扩展。表到图的转换很简单。
[*]公开和阐明实体之间的关系。具有讽刺意味的是,大多数关系数据库将关系视为二等实体。在图表中思考和工作可以使您的数据情境化。
[*]使用可扩展的图形数据模型作为数据子级的母体进行集成。其他模型用于其他目的,而不是大规模集成和互操作。
[*]合理化您的 SaaSes 和内部应用程序。将更多 SaaSes 添加到您的订阅列表会增加不必要的复杂性。您真的想为使用自己的数据而苦苦挣扎吗?
[*]将您未来的组织映射到语义数据生命周期。例如,Terpsichore 等数据生命周期表明需要致力于智能、情境化数据和情境计算——DARPA 称之为人工智能的第三次浪潮。





-----------我的底线--------------
中文版ChatGPT
https://xing.aboutyun.com/

加微信赠送Chat GPT教程:
一份超值的教程,让你成为职场“大佬”,轻松掌握ChatGPT技能
ChatGPT教程1:如何用ChatGPT自动化操作Excel,十倍提升你的工作效率
ChatGPT教程2:如何让ChatGPT帮你做专业又美观的PPT,人工智能神器ChatGPT高效办公系列2023最新教学
ChatGPT教程3:如何利用ChatGPT免费高效自学编程,再也不用担心学不会编程了!
ChatGPT教程4:2023普通人ChatGPT副业赚钱项目
ChatGPT教程5:ChatGPT全方位必修课 报告 论文
绘图教程6:AI绘图最新Midjourney v5.1 + Raw Mode
绘图教程7:深入实作教学 Midjourney niji journey ChatGPT v5
绘图教程8:最新Midjourney v5 + ChatGPT 咒语生成Prompt Generator

https://chat.aboutyun.com/static/weixin.png

获取更多资源:
领取100本书+1T资源
http://www.aboutyun.com/forum.php?mod=viewthread&tid=26480

大数据5个项目视频
http://www.aboutyun.com/forum.php?mod=viewthread&tid=25235

名企资源、名企面试题、最新BAT面试题、专题面试题等资源汇总
https://www.aboutyun.com/forum.php?mod=viewthread&tid=27732
页: [1]
查看完整版本: 简化数据质量的 10 种方法