AI健康助手能取代搜索引擎吗？|谷歌|医生|医疗|知名企业|health

AI健康助手能取代搜索引擎吗？

2026-01-24 21:07:22　来源: DeepTech深科技

北京举报

分享至

（来源：麻省理工科技评论）

在过去二十年里，当人们感到身体不适时，往往会下意识地上网搜索相关信息。这种做法过于普遍，以至于人们常常戏称搜索引擎为“Google 医生”。但随着大语言模型的出现，越来越多人习惯于转向 LLMs 搜寻信息。根据 OpenAI 的数据，每周约有 2.3 亿人向 ChatGPT 提出与健康相关的问题。

正是在这样的背景下，OpenAI 于本月早些时候推出了新的 ChatGPT Health 产品。但这一发布时机并不理想。就在两天前，新闻网站 SFGate 披露了一起案件：一名名为 Sam Nelson 的青少年在去年因药物过量去世，而在此之前，他曾与 ChatGPT 进行了大量关于如何组合多种药物的对话。随着这两则消息接连出现，多名记者开始质疑，将医疗建议寄托在一种可能造成严重伤害的工具上是否明智。

尽管 ChatGPT Health 在界面上以独立的侧边栏标签形式存在，但它并不是一个全新的模型。更准确地说，它是一层封装，为 OpenAI 现有模型提供指导和工具，使其能够给出健康相关建议，其中还包括在获得用户许可的情况下，访问其电子病历和健身应用数据的功能。毫无疑问，ChatGPT 和其他大语言模型可能在医疗问题上出错，OpenAI 也反复强调，ChatGPT Health 的定位是辅助工具，而不是医生的替代品。但在医生无法及时提供帮助的情况下，人们仍然会寻求其他选择。

一些医生认为，LLMs 有助于提升公众的医学素养。普通患者往往难以在庞杂的在线医疗信息中进行判断，尤其难以区分高质量内容与看似专业但事实存疑的网站，而从理论上看，LLMs 可以代替他们完成这一筛选工作。哈佛医学院副教授、执业放射科医生 Marc Succi 表示，在过去，接诊那些先在 Google 上搜索过症状的患者时，医生往往需要花费大量精力缓解患者焦虑并纠正错误信息。但他指出，现在可以看到，不论是大学学历还是高中学历的患者，提出的问题已经接近医学院低年级学生的水平。

ChatGPT Health 的推出，以及 Anthropic 随后宣布为 Claude 提供新的健康相关功能，表明大型 AI 公司正越来越愿意正视并鼓励模型在健康领域的应用。然而，这类用途显然伴随着风险，因为 LLMs 已被充分记录存在迎合用户观点、在不确定时编造信息的倾向。

但这些风险也需要与潜在收益一并权衡。这里可以类比自动驾驶汽车。当政策制定者考虑是否允许 Waymo 在城市中运行时，关键指标并不是其车辆是否从不发生事故，而是它们是否比依赖人类驾驶员的现状造成更少的伤害。如果 ChatGPT 医生确实优于 Google 医生，而早期证据表明可能如此，那么它或许能够缓解互联网带来的大量医疗错误信息和不必要的健康焦虑。

不过，要准确评估像 ChatGPT 或 Claude 这样的聊天机器人在面向消费者的健康场景中的效果，并不容易。麻省总医院与布里格姆医疗系统的数据科学与 AI 临床负责人 Danielle Bitterman 表示，评估一个开放式聊天机器人极其困难。大语言模型在医学执照考试中成绩优异，但这些考试采用的是选择题形式，并不能反映人们在实际使用聊天机器人查询医疗信息时的方式。

滑铁卢大学管理科学与工程系助理教授 Sirisha Rambhatla 尝试通过一种方式缩小这一差距：评估 GPT-4o 在没有备选答案列表的情况下，对执照考试问题的回答表现。医学专家对这些回答进行评分后认为，只有大约一半完全正确。不过，选择题本身就被设计得较为刁钻，答案选项并不会直接暴露正确结论，这种形式仍然与用户在 ChatGPT 中输入的真实问题存在较大差距。

另一项研究在更贴近现实的测试使用人类志愿者提交的问题来评估 GPT-4o，结果发现其在约 85% 的情况下能够正确回答医疗问题。我在采访该研究负责人、宾夕法尼亚州立大学副教授、Responsible AI for Social Emancipation Lab 负责人 Amulya Yadav 时，他明确表示，自己并不认同面向患者的医疗 LLMs。但他也坦言，从技术角度来看，这些系统似乎能够胜任这项任务——毕竟，人类医生的误诊率也在 10% 到 15% 之间：“如果冷静地看待这件事，世界似乎正在改变，不管我是否愿意。”

在 Yadav 看来，对于在线寻找医疗信息的人来说，LLMs 的确比 Google 是更好的选择。放射科医生 Succi 也得出了类似结论。他将 GPT-4 对常见慢性疾病问题的回答，与 Google 搜索结果右侧有时出现的知识面板中的信息进行比较后认为，LLMs 在这一场景下可以成为更优的替代方案。

自 Yadav 和 Succi 的研究在 2025 年上半年发布以来，OpenAI 已推出了多个新版 GPT，因此有理由预期 GPT-5.2 的表现会优于前代模型。但这些研究也存在重要局限：它们主要关注简单、事实型问题，并且只考察了用户与聊天机器人或搜索工具之间的短暂互动。LLMs 的一些弱点，尤其是迎合倾向和幻觉问题，在更长时间的对话或更复杂的情境中，可能更容易显现。墨尔本大学研究技术与健康的教授 Reeva Lederman 指出，如果患者不认可医生给出的诊断或治疗建议，可能会转而向 LLM 寻求另一种意见，而具有迎合倾向的 LLM 可能会鼓励他们拒绝医生的建议。

一些研究发现，LLMs 在回应健康相关问题时会出现幻觉和迎合行为。例如，有研究显示，GPT-4 和 GPT-4o 会直接接受并基于用户问题中包含的错误药物信息展开回答。在另一项研究中，GPT-4o 经常为用户提到的虚构综合征和检测项目编造定义。考虑到互联网上充斥着存疑的医疗诊断和治疗方法，如果人们将 LLMs 视为可信来源，这种行为模式可能会加剧医疗错误信息的传播。

OpenAI 表示，GPT-5 系列模型在迎合性和幻觉倾向方面已明显优于前代模型，因此上述研究结果未必适用于 ChatGPT Health。公司还使用其公开的 HealthBench 基准，对支撑 ChatGPT Health 的模型在健康问题上的表现进行了评估。HealthBench 鼓励模型在适当时表达不确定性，在必要时建议用户寻求医疗帮助，并避免通过夸大病情来给用户造成不必要的心理压力。可以合理推测，ChatGPT Health 背后的模型在测试中符合这些要求，不过 Bitterman 指出，HealthBench 中的一些提示是由 LLMs 而非真实用户生成的，这可能会影响该基准在现实世界中的适用性。

一个避免制造恐慌的 LLM，显然优于那些让人浏览几分钟网页后就怀疑自己患癌的系统。随着大语言模型及其衍生产品持续发展，ChatGPT 医生相对于 Google 医生的优势很可能会进一步扩大，ChatGPT Health 的推出正是朝这一方向迈出的一步。通过查看医疗记录，ChatGPT 有可能获得比任何一次 Google 搜索都更丰富的个人健康背景，尽管多位专家也因隐私问题而警告不要轻易赋予其这种权限。

即便 ChatGPT Health 和其他新工具相较 Google 搜索确实带来了实质性改进，它们仍有可能在整体上对健康产生负面影响。正如自动驾驶汽车即便比人类驾驶更安全，如果因此减少了公共交通使用，仍可能带来净负面效应一样，LLMs 也可能因为促使人们依赖互联网而非医生，从而损害用户健康，即使它们提升了在线医疗信息的整体质量。

Lederman 表示，这种结果并非不可想象。她在研究中发现，以健康为主题的在线社区成员往往更信任表达能力强的用户，而不一定关注信息本身是否可靠。由于 ChatGPT 的交流方式类似一位言辞清晰的人，一些人可能会对它过度信任，甚至排斥医生的建议。但至少在目前阶段，LLMs 仍然无法取代人类医生。

https://www.technologyreview.com/2026/01/22/1131692/dr-google-had-its-issues-can-chatgpt-health-do-better/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.