「我们以为AI能当医生,结果它连参考文献都是编的。」——这不是段子,是《医学互联网研究杂志》刚发布的实测结论。
研究人员把ChatGPT、Gemini、Grok、Meta AI、DeepSeek扔进考场,250道医学题覆盖癌症、疫苗、干细胞、营养、运动表现。结果?一半的答案都有问题。更讽刺的是,这些机器人回答时语气笃定、格式专业,跟真专家似的。
![]()
开放式提问是重灾区
实验设计很刁钻:一半题目是封闭式(有标准答案),一半是开放式("这疗法有用吗""疫苗安全吗")。
后者模拟真实场景——普通人不会用多选题问诊,而是抛出一堆模糊描述。正是这类提问,让AI的翻车率飙升。
问题出在哪?机器人会把可靠证据和垃圾信息搅在一起,输出看似合理的混合体。用户很难分辨哪句对、哪句错。
更坑的是,它们几乎从不加限定词。"可能""建议咨询医生"这类缓冲词极少出现,取而代之的是斩钉截铁的断言。
参考文献是摆设,40%完整度
很多人信任AI,是因为它"有出处"。这次测试把这点底裤扒了。
五款机器人的参考文献完整度平均只有40%,没有一家能给出完全准确的引用列表。部分答案附的文献干脆是编的——标题、作者、期刊全造假。
这形成危险闭环:答案看起来专业→附带文献增强可信度→用户查证时发现文献不存在或文不对题。但多数人不会查证。
研究人员特别点名,Gemini等产品的引用格式极其逼真,足以骗过 casual 扫一眼的用户。
为什么闭源模型也没赢
一个反直觉的发现:OpenAI的GPT-4和谷歌的Gemini并没比开源/半开源选手稳多少。
按理说,资金雄厚的大厂应该更安全。但测试显示,所有模型在开放式医学问题上都出现"幻觉"(即一本正经胡说八道)。区别在于,大厂产品的包装更精致,反而更难识别。
DeepSeek作为后来者,表现并未明显掉队,也没明显领先。这说明医学安全不是砸钱就能解决的工程问题。
实验局限性:被故意刁难了吗
作者自己承认,250个prompt是"压力测试"——特意选了容易出错的领域和问法。日常使用中,用户可能问得更简单,错误率或许更低。
但另一个角度:癌症、疫苗正是普通人最可能搜、也最输不起的话题。如果AI在这些领域都稳不住,"日常简单问题"的安全感又有多少意义?
此外,模型迭代极快。今天的GPT-4和三个月后的版本可能是两个东西。研究的时效性天然受限。
产品经理该抄什么作业
这项研究给AI应用层敲了三记警钟:
第一,置信度显示不是摆设。很多产品为了体验流畅,隐藏了模型的不确定性。医学场景下,宁可让用户觉得"这AI不太确定",也别给虚假安全感。
第二,引用必须可验证。不是"列出参考文献"就完事,要链接直达、要交叉核对。40%完整度的引用还不如没有——没有至少让人警惕,假的引用让人放松警惕。
第三,开放式对话需要主动收敛。用户问得越泛,系统越该引导到具体、可验证的子问题,而不是接招硬答。
一个冷观察
研究发布时,恰好是各大厂疯狂推广AI搜索、AI助手的节点。谷歌把Gemini塞进搜索首页,OpenAI力推ChatGPT的实时搜索,Perplexity估值暴涨。
医学是搜索广告的金矿。但这项研究表明,金矿里可能混着相当比例的有毒矿石。监管还没跟上,用户已经用上了。
最黑色幽默的是结尾:研究人员建议,AI目前只适合"总结信息"或"帮你想下一步问什么"——翻译成人话,就是个高级版"您是不是想找"。
我们花了上百亿美元,造出了一个会胡编的自动补全。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.