AI健康聊天机器人:为何无法提升你的自我诊断能力?

一项新研究显示,尽管AI聊天机器人具备丰富的医学知识,但在实际帮助用户进行健康决策时表现不佳。研究发现,用户使用聊天机器人后,正确识别病情的概率反而降低,且未能更好地判断就医需求。问题的核心在于人机沟通的障碍,而非AI知识储备不足。

AI健康聊天机器人:为何无法提升你的自我诊断能力?

AI健康聊天机器人:为何无法提升你的自我诊断能力?

如今,数百万人正转向人工智能(AI)聊天机器人寻求建议,从烹饪到报税,无所不包。越来越多的人也开始向聊天机器人咨询健康问题。然而,正如英国首席医疗官最近警告的那样,在涉及医疗决策时,这可能并非明智之举。在一项最新研究中,我和同事们测试了大型语言模型(LLM)聊天机器人如何帮助公众应对常见健康问题。结果令人惊讶。

研究发现:聊天机器人并非良医

我们测试的聊天机器人尚未准备好扮演医生的角色。我们向参与者提供了常见医疗状况的简要描述,并随机分配他们使用三种广泛可用的聊天机器人之一,或依赖他们通常在家使用的任何信息来源。在与聊天机器人互动后,我们提出了两个问题:什么情况可能解释这些症状?以及他们应该去哪里寻求帮助?

研究发现:

  • 使用聊天机器人的人比不使用的人更不容易识别出正确的病情。
  • 他们在判断寻求护理的正确地点方面,也不比对照组表现得更好。

换句话说,与聊天机器人互动并没有帮助人们做出更好的健康决策。

知识丰富,但沟通不畅

这并不意味着这些模型缺乏医学知识,因为大型语言模型可以轻松通过医学执照考试。当我们移除人为因素,直接将相同场景提供给聊天机器人时,它们的表现显著提升。在没有人类参与的情况下,模型在绝大多数情况下识别出了相关病症,并经常建议适当的护理级别。

那么,为什么当人们实际使用这些系统时,结果会变差呢?当我们查看对话记录时,问题显现出来:

  • 聊天机器人经常在对话中提及相关诊断,但参与者在总结最终答案时并不总是注意到或记住它。
  • 在其他情况下,用户提供了不完整的信息,或者聊天机器人误解了关键细节。

问题不仅仅是医学知识的失败,更是人与机器之间沟通的失败。

对医疗AI发展的启示

这项研究表明,政策制定者需要了解技术在现实世界中的表现,然后才能将其引入像一线医疗保健这样的高风险环境。我们的发现突显了当前许多医疗AI评估的一个重要局限性。语言模型通常在结构化的考试问题或模拟的“模型对模型”互动中表现出色。

但现实世界的使用要混乱得多。患者描述症状时可能模糊或不完整,并且可能误解解释。他们以不可预测的顺序提问。一个在基准测试中表现令人印象深刻的系统,一旦真实的人开始与之互动,其行为可能会大不相同。

这也强调了临床护理的一个更广泛的要点。作为一名全科医生,我的工作远不止回忆事实。医学常被描述为一门艺术而非科学。一次咨询不仅仅是确定正确的诊断,它涉及解读患者的故事、探索不确定性并协商决策。