数据泄露
在一次臭名昭著的 Kaggle 比赛中,当时的获胜者使用“医院 ID”功能以令人难以置信的准确度预测最有可能患上癌症的患者。这些 ID 是加密的,但病情最严重的患者总是被送到同一家医院。加密 ID 没有帮助。这就是数据泄漏:数据集中的某些人工制品可以让您做出良好的预测,但它们没有真正的预测意义。自动化 ML 也可以做到这一点,而不仅仅是人类。想象一下,如果突然间最严重的病人去了不同的医院。那么你梦幻般的预测模型将彻底失败。
解决此问题的一种方法是使用合成数据。或者更好的是,合成数据和真实数据的混合,称为增强数据。在此示例中,合成数据会将医院 ID 与病例严重程度分开。