AI健康聊天机器人：为何无法提升你的自我诊断能力？

如今，数百万人正转向人工智能（AI）聊天机器人寻求建议，从烹饪到报税，无所不包。越来越多的人也开始向聊天机器人咨询健康问题。然而，正如英国首席医疗官最近警告的那样，在涉及医疗决策时，这可能并非明智之举。在一项最新研究中，我和同事们测试了大型语言模型（LLM）聊天机器人如何帮助公众应对常见健康问题。结果令人惊讶。

研究发现：聊天机器人并非良医

我们测试的聊天机器人尚未准备好扮演医生的角色。我们向参与者提供了常见医疗状况的简要描述，并随机分配他们使用三种广泛可用的聊天机器人之一，或依赖他们通常在家使用的任何信息来源。在与聊天机器人互动后，我们提出了两个问题：什么情况可能解释这些症状？以及他们应该去哪里寻求帮助？

研究发现：

使用聊天机器人的人比不使用的人更不容易识别出正确的病情。
他们在判断寻求护理的正确地点方面，也不比对照组表现得更好。

换句话说，与聊天机器人互动并没有帮助人们做出更好的健康决策。

知识丰富，但沟通不畅

这并不意味着这些模型缺乏医学知识，因为大型语言模型可以轻松通过医学执照考试。当我们移除人为因素，直接将相同场景提供给聊天机器人时，它们的表现显著提升。在没有人类参与的情况下，模型在绝大多数情况下识别出了相关病症，并经常建议适当的护理级别。

那么，为什么当人们实际使用这些系统时，结果会变差呢？当我们查看对话记录时，问题显现出来：

聊天机器人经常在对话中提及相关诊断，但参与者在总结最终答案时并不总是注意到或记住它。
在其他情况下，用户提供了不完整的信息，或者聊天机器人误解了关键细节。

问题不仅仅是医学知识的失败，更是人与机器之间沟通的失败。

对医疗AI发展的启示

这项研究表明，政策制定者需要了解技术在现实世界中的表现，然后才能将其引入像一线医疗保健这样的高风险环境。我们的发现突显了当前许多医疗AI评估的一个重要局限性。语言模型通常在结构化的考试问题或模拟的“模型对模型”互动中表现出色。

但现实世界的使用要混乱得多。患者描述症状时可能模糊或不完整，并且可能误解解释。他们以不可预测的顺序提问。一个在基准测试中表现令人印象深刻的系统，一旦真实的人开始与之互动，其行为可能会大不相同。

这也强调了临床护理的一个更广泛的要点。作为一名全科医生，我的工作远不止回忆事实。医学常被描述为一门艺术而非科学。一次咨询不仅仅是确定正确的诊断，它涉及解读患者的故事、探索不确定性并协商决策。