我是一名急诊医生:这是我让 ChatGPT 诊断我的病人时的发现
ChatGPT 最近通过了美国医疗执照考试,但将其用于现实世界的医疗诊断很快就会致命。
作者:医学博士 Josh Tamayo-Sarver
随着 ChatGPT成功“通过”美国医师执照考试的消息传出,我很好奇它在现实世界的医疗情况下会如何表现。作为利用人工智能提高医疗保健质量和效率的倡导者,我想看看当前版本的 ChatGPT 如何作为我自己实践中的工具。
因此,在前一周我在急诊室进行常规临床轮班后,我将 35 到 40 名患者的现病史记录匿名化——基本上,我对每个人病史的详细医疗叙述,以及将他们带到急诊室的症状- 并将它们输入 ChatGPT。
我使用的具体提示是,“该患者向急诊室提出的鉴别诊断是什么 [在此处插入患者 HPI 注释]?”
结果令人着迷,但也相当令人不安。
OpenAI 的聊天机器人在提出我不想错过的常见诊断方面做得不错——只要我告诉它的一切都是准确且非常详细的。例如,正确诊断一个病人患有保姆肘大约需要 200 个单词;识别另一名患者的眼眶壁爆裂性骨折占用了我 HPI 的全部 600 个单词。
对于我大约一半的患者,ChatGPT 提出了六种可能的诊断,而“正确”诊断——或者至少是我认为经过全面评估和测试后正确的诊断——是 ChatGPT 提出的六种诊断之一。
不错。话又说回来,在急诊室的情况下,50% 的成功率也不好。
ChatGPT 最糟糕的表现发生在一名 21 岁的女性患者身上,她因右下腹痛进入急诊室。我将她的 HPI 输入 ChatGPT,它立即返回了阑尾炎或卵巢囊肿的鉴别诊断,以及其他可能性。
但是 ChatGPT 错过了对这位女士的一项重要诊断。
她发生了宫外孕,畸形胎儿在女性的输卵管而非子宫中发育。诊断得太晚,可能会致命——导致因内出血而死亡。对我的病人来说幸运的是,我们能够将她送进手术室立即接受治疗。
值得注意的是,当她在急诊室看到我时,这位患者甚至不知道自己怀孕了。这不是一个非典型的场景,通常只有在一些温和的询问之后才会出现:
“你有可能怀孕吗?”
有时患者会回答“我不可能”之类的话。
“可是你怎么知道的?”
如果对后续行动的反应不是指宫内节育器或特定的医疗状况,则更有可能患者实际上是在说他们出于各种原因不想怀孕。(不忠、家庭问题或其他外部因素。)同样,这种情况并不少见;在急诊室发现的怀孕中,约有 8% 是自称性生活不活跃的女性。
但是通过 ChatGPT 的诊断,我注意到它的回复中没有任何一件事表明我的病人怀孕了。它甚至不知道去问。
我担心的是,无数人已经在使用 ChatGPT 进行自我医学诊断,而不是去看医生。如果我的病人在这种情况下这样做,ChatGPT 的回应可能会杀死她。
ChatGPT 还误诊了其他几名危及生命的患者。它正确地表明其中一人患有脑瘤——但错过了另外两名也患有脑瘤的人。它诊断出另一名躯干疼痛的患者患有肾结石——但没有发现该患者实际上患有主动脉破裂。(随后死在我们的手术台上。)
简而言之,当我向它提供完美的信息并且患者有一个经典的演示时,ChatGPT 作为一种诊断工具非常有效。
这可能就是为什么 ChatGPT 在医疗执照考试中“通过”了案例。不是因为它“聪明”,而是因为考试中的经典案例有一个确定性的答案,这个答案已经存在于它的数据库中。ChatGPT 以自然语言格式快速呈现答案(这是真正令人印象深刻的部分),但其背后是类似于 Google 搜索的知识检索过程。而且大多数实际的患者病例都不是经典的。
我的实验说明了绝大多数的医疗遭遇是如何找出正确的病人叙述的。如果有人来我的急诊室说手腕疼,但不是最近发生的意外,那可能是患者孙子摔倒后的心身反应,也可能是性病,或者完全是其他原因。医学的艺术正在提取创建正确叙述所需的所有必要信息。
ChatGPT 是否仍可以充当医生的助手,在治疗期间自动阅读我的患者笔记并提出差异建议?可能吧。但我担心这会带来更糟糕的结果。
如果我的患者笔记中没有包含我尚未提出的问题,ChatGPT 的输出将鼓励我继续遗漏该问题。就像我年轻的女病人,她不知道自己怀孕了。如果我没有立即想到可能的宫外孕,ChatGPT 会继续加强这一疏忽,只会向我反映我认为显而易见的事情——像世界上最危险的应声虫一样热情地证实我的偏见。
所有这些都不表明人工智能在医学中没有潜在的用处,因为它确实存在。
作为一名人类医生,我个人可以治疗的患者数量有限。我希望在我的一生中看到大约 10,000 名患者,他们每个人都有独特的体重、血压、家族史等等——我在我的心智模型中追踪的各种各样的特征。每个人都有无数与其健康相关的变量,但作为一名在有限会话窗口工作的人类医生,我关注的是历史上最重要的几个因素。
因此,例如,如果我检查患者的血液测试并发现血红蛋白 A1C 水平很高,那么我就会诊断他们可能患有糖尿病的早期阶段。但是,如果我可以跟踪有关此人健康的无数变量,并将他们与其他在所有数百万个变量中都相似的人进行比较,而不仅仅是基于他们的血红蛋白 A1C,那会怎样呢?也许那时我可以认识到,其他 100,000 名与我面前的这位患者在各种因素方面看起来都一样的患者在开始多吃西兰花时取得了很好的结果。
这是人工智能可以蓬勃发展的空间,它不知疲倦地处理我治疗过的每一位患者的这些无数特征,以及所有其他医生治疗过的每一位其他患者的特征,给我们深刻、广泛的见解。AI 最终可以帮助做到这一点,但它首先需要摄取数百万个患者数据集,其中包括许多特征、患者所做的事情(比如服用特定药物)和结果。
与此同时,我们迫切需要硅谷和广大公众对人工智能现在可以做什么以及它的许多通常是危险的局限性有一个更现实的看法。我们必须非常小心,避免对像 ChatGPT 这样的程序抱有过高的期望,因为在人类健康的背景下,它们确实会危及生命。
ChatGPT免费交流社区:
https://www.aboutyun.com/data/attachment/forum/202304/10/203613qh5immfifmi43f33.png
获取更多资源:
领取100本书+1T资源
http://www.aboutyun.com/forum.php?mod=viewthread&tid=26480
大数据5个项目视频
http://www.aboutyun.com/forum.php?mod=viewthread&tid=25235
名企资源、名企面试题、最新BAT面试题、专题面试题等资源汇总
https://www.aboutyun.com/forum.php?mod=viewthread&tid=27732
页:
[1]