2亿人每周问AI看病，一半回答有问题|医生|医疗|人工智能|世界癌症日

2亿人每周问AI看病，一半回答有问题

2026-04-15 08:44:08　来源: 码上闲叙

北京举报

分享至

当OpenAI说每周超2亿用户向ChatGPT咨询健康问题时，没人告诉他们：这些"AI医生"的建议，有一半可能不靠谱。

五款头部产品全测了，结果一致翻车

美国、加拿大和英国的研究团队刚在《BMJ Open》发了份硬核测试。他们选了ChatGPT、Gemini、Meta AI、Grok、DeepSeek这五家，围绕疫苗、癌症、营养、干细胞等五类主题，各扔了10个问题过去。

结果触目惊心：全部回复里约50%存在问题，近20%被评估为"严重问题"。

更细的分化很有意思——封闭式问题、疫苗和癌症领域，AI表现还算及格；但一旦换成开放式提问，或者切换到干细胞、营养话题，质量断崖式下跌。

研究团队还发现一个危险信号：这些回答语气极其确定，仿佛胸有成竹，却给不出完整准确的参考来源。五款模型里，只有Meta AI两次拒绝回答，其余统统"硬着头皮上"。

确定感陷阱：为什么听起来越像专家，越危险

研究人员在论文里写得很直白：系统可能生成"听起来权威但实际上并不可靠"的回答。这不是技术bug，是生成式AI的结构性缺陷。

大语言模型（LLM，一种基于概率生成文本的人工智能系统）的工作原理是预测下一个最可能的词，而非验证医学事实。当它用"研究表明""临床数据显示"这类句式开头时，用户很难分辨这是有出处的结论，还是模型自己编的合理推测。

问题在于使用场景——用户问的是健康，不是天气。一个错的天气预报顶多让你带错伞，一个错的用药建议可能酿成大祸。

商业狂奔与监管真空的碰撞

讽刺的是，研究发布的同一周，行业正在加速"医疗化"。

OpenAI 1月刚推出面向普通用户和医疗专业人士的健康工具；Anthropic同月宣布为Claude引入医疗服务能力。彭博社报道提到，这些系统既没有医疗资质，也缺乏临床判断能力，却正被越来越多用户当作初诊入口。

研究作者的警告很尖锐：在缺乏公众教育和监管的情况下，大规模部署AI聊天机器人，可能加剧而非缓解错误信息传播。

这不是唱反调。2亿周活用户的数据说明需求真实存在——深夜焦虑、挂号困难、对医生解释没听懂，都是真实痛点。但"有用"和"安全"之间，现在的产品明显偏向了前者。

当AI学会说"我不知道"，比学会回答更难

整个测试里唯一两次拒绝回答，都来自Meta AI。这个细节被很多人忽略，却可能是解题关键。

医疗场景的AI设计，核心不该是"覆盖率"而是"置信度阈值"——不确定时敢说不知道，比硬编一个答案更需要技术勇气，也更考验商业模式。毕竟，"本次回答无法替代专业医疗建议"的小字免责声明，用户真的会看吗？

如果明天你发烧39度，ChatGPT和医院挂号窗口同时摆在面前，你会怎么选——以及，你凭什么确定自己能分辨哪个建议该信？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

汽车要闻

手机 / 数码

房产 / 家居

2亿人每周问AI看病，一半回答有问题

戴尔诺基亚又回来了！AI重估老牌科技公司

香会上中方全英文发问菲律宾 菲防长语无伦次答非所问

香会上中方全英文发问菲律宾 菲防长语无伦次答非所问

阿森纳用最悲壮的方式，成就了巴黎王朝

朱军退休，正义虽迟但到，女方受惩

医学首席转岗搞科技，A股科技股遭遇巨震

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

16位欧美画家笔下的儿童肖像

云栖 舒展如流云

R星新动作引热议！玩家嗨起来了：我们要见证历史

用剪纸的方式，打开江苏扬州

香会上中方全英文发问菲律宾菲防长语无伦次答非所问

香会上中方全英文发问菲律宾菲防长语无伦次答非所问

900V+3.2秒破百领克10+&领克10上市16.99万元起

云栖舒展如流云