你不得不知的大数据15 个数据常见问题及其解决方法汇总

本帖最后由 nettman 于 2023-5-11 21:29 编辑

第一部分
缺失数据
数据缺失的原因有多种：答案不完整的调查，或数据经过审查。当您在 3 年时间段内测量组件的使用寿命时，会出现后者，但并非所有组件都在 3 年内失效。此外，长时间运行实验的成本很高。在这种情况下，解决方法是像精算师那样使用适当的生存模型来构建预期寿命表。对于真正缺失的数据（第一种情况），决策树等技术效果很好。回归技术效果不佳。然而，一种称为偏最小二乘法(PLS)的回归技术可以很好地处理这种情况。

未观察到的数据
一个很好的例子是未经测试的 Covid 感染和恢复，因此没有数据跟踪。一开始，这些病例被大大低估了，因为没有被观察到。他们远远超过有问题的病例，因此严重偏向流行病学模型。要了解隐藏的、未捕获的数据，解决方案是聘请一位非常善于想象所有潜在场景的中立顾问。流行病学家是规避风险的，统计学家并不总能看到大局。因此，您需要能够跳出框框思考的受过教育的非专家的意见。另外，寻找备用数据。就 Covid 而言，污水数据可能会有所帮助。

昂贵的数据
一个典型的例子是临床试验。一些供应商专门帮助公司为更小而非更大的数据设计模型。解决方案归结为良好的实验设计，并从小型或中等数据集中提取最佳数据。寻找生物统计学模型作为起点。其中许多模型适用于各种情况，而不仅仅是临床试验。

脏数据
您的数据集可能包含重复记录或重复 ID。如果基于用户输入，它可能包含错误字段，例如邮政编码中的拼写错误。某些字段可能没有正确编码。或者数据是来自多个来源的混合，每个来源具有一组不同的特征，或者相同的特征但测量不同，因此不兼容。自动化数据捕获（让用户在您的 Web 表单上选择邮政编码，或根据城市自动填写）。创建一个数据字典来检测附加到每个特征的最高值：例如，一个整数值可能被设置为 99999 或 NaN，这意味着它丢失了。包含特殊字符（逗号）的字符串在解析期间被截断：如果它代表一个 URL，那么该 URL 现在是错误的。执行数据协调：在此处查看我关于此主题的专利. 解析文本数据时，使用健壮的解析器。您的工程师需要掌握正则表达式！最后，寻找异常值：这些观察不一定是错误的，但它们总是有见地的。许多这样的数据探索步骤应该是自动化的。

不平衡数据
欺诈性信用卡交易约占 10,000 笔交易中的 4 笔。在医学数据中，有些情况非常罕见。一种解决方案是重新平衡数据并过度采样（比如说）您的欺诈交易训练集。越来越多的合成数据被用来填补空白。增强数据由观察结果与合成数据的混合组成，通常效果最好。在此处查看我关于该主题的演讲。

非结构化数据
要充分利用非结构化数据（电子邮件、客户支持对话），请成为 NLP 技术方面的专家。有多种方法可以构造非结构化数据，请参见此处。简单提取关键字列表并执行关键字匹配的基本技术容易出错。比如有些关键词不能拆分（San Francisco是一个词，不是两个）。删除特殊字符或无法处理外来（重音）字符的文本解析器可能会在您的数据中产生噪音，如果您的数据位于 CSV 文件中，则可能导致列未对齐。

过时的数据
您为创建经济指数或衡量衰退而收集的数据会随着时间而变化。数据集中的查找表需要定期更新。如果大多数人停止检测或该疾病不再构成威胁，那么追踪阳性 Covid 检测就毫无用处。特征的定义和测量会随着时间而改变。可以合并新旧数据，但您应该在数据集中包含时间戳。并记录所有严重影响您数据的事件。在设计数据收集过程时，您需要预先讨论数据更新和维护。

第二部分
数据不一致
混合来自多个来源的数据时会出现不一致。一个特定的字段在两个数据集中可能具有相同的名称，但可能有不同的测量方式。或者您自己的数据集或数据收集随时间发生变化：计算总用户数的指标现在包括国际用户。记录所有数据和测量变化，然后将这些变化与对关键绩效指标的影响相匹配，始终是一个好主意。实际上，我在微软的最后一份工作就是这样做的。我必须检测时间序列中的变化点，然后将它们与各种事件进行匹配。这是一个盲测，因为在我完成分析之前我不知道有问题的事件。最终，更改点算法每周在生产模式下自动运行。

至于协调看似不一致的数据集，有多种方法。我的专利“跨客户端和随时间推移保持网络站点流量质量分数”解决了这个问题。

数据泄露
在一次臭名昭著的 Kaggle 比赛中，当时的获胜者使用“医院 ID”功能以令人难以置信的准确度预测最有可能患上癌症的患者。这些 ID 是加密的，但病情最严重的患者总是被送到同一家医院。加密 ID 没有帮助。这就是数据泄漏：数据集中的某些人工制品可以让您做出良好的预测，但它们没有真正的预测意义。自动化 ML 也可以做到这一点，而不仅仅是人类。想象一下，如果突然间最严重的病人去了不同的医院。那么你梦幻般的预测模型将彻底失败。

解决此问题的一种方法是使用合成数据。或者更好的是，合成数据和真实数据的混合，称为增强数据。在此示例中，合成数据会将医院 ID 与病例严重程度分开。

宽数据
这是当您拥有的特征多于观察结果时。您可能也没有什么观察，就像在临床试验中一样（同样，这个问题可以使用合成数据来解决）。某些模型（例如决策树）适用于广泛的数据。回归模型在这种情况下表现不佳。但是，您可以对特征施加一些约束以降低维度，或使用数据缩减技术（例如主成分分析）。或者，您可以对数据集进行分段，并根据分段使用不同的功能子集。通常，宽数据会导致最佳解决方案的非唯一性。虽然许多从业者认为这是一个问题，但我个人接受非唯一性。它通过向您展示广泛的潜在模型和解释，让您对数据有更多的了解。实际上，在处理许多特征时，

大数据
如果你为 3 亿用户中的每一个用户构建了一个定制的推荐系统，似乎无法避免大数据。也许您需要存储数百万个深空视频来研究系外行星。在我看来，大数据的唯一问题是存储。您可以通过仅保留生产模式或旧数据的汇总数据来减少存储。如果您为每个客户或视频分配一个分段 ID（相当于创建一个分类法），您可以将它们分组到集群中，从而减少存储空间。您的汇总数据应该足够细化以进行预测。

准确性问题
由于测量误差，寻求更高的准确性可能是徒劳的，至少在许多情况下是这样。但是，如果您运行具有传播错误的多次迭代的算法（例如，找到最佳值），您需要确保在处理数据时，不良测量的质量不会进一步恶化。我在之前的 DSC 文章中提供了一个生动的示例：请参阅本文中的“何时可以使用错误的解决方案，何时不可以”部分. 一个简单的策略是将精度从 14 位减少到 10 位、7 位和 4 位，以评估对最终结果的影响。此外，找出（检查文献或联系您的供应商）所讨论的算法是否/何时在数值上不稳定。一个设计良好的系统应该给你一个警告，例如“行列式完形填空，回归系数在这种情况下毫无意义”。

孤立的数据
虽然拥有孤立的数据有好处——每个团队都在本地存储一组特定的观察特征——但问题是与中央存储库的一致性和同步性。利益相关者应该决定什么时候这很重要（以避免本文第一段中讨论的问题），什么时候不重要。就我而言，我经常处理自己的数据集，无论是自己生成的、从中央数据库下载的，还是来自第三方的。大多数情况下，原型预测系统。我的数据集并不总是与中央数据库同步，而且这种方式运行良好。孤立数据的一个好处是减少了对中央数据库的访问次数，以免降低每个人的系统速度。然而，我总是确保我所有的实验都是完全可复制的。

安全和隐私
不合格的员工不应访问包含信用卡数据、社会安全号码或非匿名医疗记录的数据集。应该删除或加密这些字段，可能使用比 MD5 更好的技术（参见此处的原因）。同样，只有在必要时才能存储电子邮件地址和个人信息。允许用户相当简单快速地“退出”。如果您需要与第三方共享数据，最好共享匿名数据。同样，让您的机器学习建模人员尽可能处理合成数据（或合成数据和真实数据的混合）是避免这些风险的一种方法。

数据或结果的偏差
对人口的某些部分进行采样不足可能会导致偏差。重新平衡数据是处理此问题的一种方法。常识可以帮助识别大量缺失的部分，例如 Covid 早期的康复者。它归结为从一开始就捕获正确的数据，或者用外部来源或代理数据（比如 Covid 流行的污水数据）对其进行补充。使用非常丰富的合成数据也有助于减少偏差。如果您在分离良好的集群上测试您的数据，您将不知道您的模型在非对称数据上的表现如何。合成数据可以帮助您包含所有潜在案例，以便更好地进行模型微调。例如，倾斜数据、离群值、不平衡混合、非对称分布、重叠集群等。

也就是说，为了完全消除偏见而寻求完全没有偏见可能是浪费时间，有时甚至是不可能的。一个好的、几乎没有偏差的简单模型比一个更难以实施和解释的复杂的无偏差解决方案要好。无论如何，没有偏见与模型有关，而不是与您的数据有关。最后，你的数据不如你的模型理想。在某些情况下，有偏见的数据可能会导致诉讼。一些用于贷款审批的黑匣子系统现在是非法的，因为系统中的某些地方存在偏见，并且缺乏可解释性。

中文版ChatGPT
https://chat.aboutyun.com/

加微信赠送Chat GPT教程：

获取更多资源：
领取100本书+1T资源
http://www.aboutyun.com/forum.php?mod=viewthread&tid=26480

大数据5个项目视频
http://www.aboutyun.com/forum.php?mod=viewthread&tid=25235

名企资源、名企面试题、最新BAT面试题、专题面试题等资源汇总
https://www.aboutyun.com/forum.php?mod=viewthread&tid=27732

图文精华

你不得不知的大数据15 个数据常见问题及其解决方法汇总

本帖被以下淘专辑推荐:

推荐 /2