当OpenAI说每周超2亿用户向ChatGPT咨询健康问题时,没人告诉他们:这些"AI医生"的建议,有一半可能不靠谱。
五款头部产品全测了,结果一致翻车
![]()
美国、加拿大和英国的研究团队刚在《BMJ Open》发了份硬核测试。他们选了ChatGPT、Gemini、Meta AI、Grok、DeepSeek这五家,围绕疫苗、癌症、营养、干细胞等五类主题,各扔了10个问题过去。
结果触目惊心:全部回复里约50%存在问题,近20%被评估为"严重问题"。
更细的分化很有意思——封闭式问题、疫苗和癌症领域,AI表现还算及格;但一旦换成开放式提问,或者切换到干细胞、营养话题,质量断崖式下跌。
研究团队还发现一个危险信号:这些回答语气极其确定,仿佛胸有成竹,却给不出完整准确的参考来源。五款模型里,只有Meta AI两次拒绝回答,其余统统"硬着头皮上"。
确定感陷阱:为什么听起来越像专家,越危险
研究人员在论文里写得很直白:系统可能生成"听起来权威但实际上并不可靠"的回答。这不是技术bug,是生成式AI的结构性缺陷。
大语言模型(LLM,一种基于概率生成文本的人工智能系统)的工作原理是预测下一个最可能的词,而非验证医学事实。当它用"研究表明""临床数据显示"这类句式开头时,用户很难分辨这是有出处的结论,还是模型自己编的合理推测。
问题在于使用场景——用户问的是健康,不是天气。一个错的天气预报顶多让你带错伞,一个错的用药建议可能酿成大祸。
商业狂奔与监管真空的碰撞
讽刺的是,研究发布的同一周,行业正在加速"医疗化"。
OpenAI 1月刚推出面向普通用户和医疗专业人士的健康工具;Anthropic同月宣布为Claude引入医疗服务能力。彭博社报道提到,这些系统既没有医疗资质,也缺乏临床判断能力,却正被越来越多用户当作初诊入口。
研究作者的警告很尖锐:在缺乏公众教育和监管的情况下,大规模部署AI聊天机器人,可能加剧而非缓解错误信息传播。
这不是唱反调。2亿周活用户的数据说明需求真实存在——深夜焦虑、挂号困难、对医生解释没听懂,都是真实痛点。但"有用"和"安全"之间,现在的产品明显偏向了前者。
当AI学会说"我不知道",比学会回答更难
整个测试里唯一两次拒绝回答,都来自Meta AI。这个细节被很多人忽略,却可能是解题关键。
医疗场景的AI设计,核心不该是"覆盖率"而是"置信度阈值"——不确定时敢说不知道,比硬编一个答案更需要技术勇气,也更考验商业模式。毕竟,"本次回答无法替代专业医疗建议"的小字免责声明,用户真的会看吗?
如果明天你发烧39度,ChatGPT和医院挂号窗口同时摆在面前,你会怎么选——以及,你凭什么确定自己能分辨哪个建议该信?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.