研究人员把250个医疗问题丢给ChatGPT、Gemini、Grok、Meta AI和DeepSeek,结果一半回答踩了红线——要么信息残缺,要么直接误导。更讽刺的是,这些答案看起来都很专业。
测试设计:故意"刁难"还是模拟真实?
![]()
研究团队选了癌症、疫苗、干细胞、营养、运动表现五个领域,问题分成两类:开放式("某种疗法有用吗")和封闭式(带选项的限定提问)。
开放式问题才是杀招。真实用户不会用考试卷的方式问AI,他们会问"疫苗安全吗""怎么提升运动表现"。这种模糊提问让机器人更容易把可靠证据和垃圾信息搅在一起端出来。
封闭式问题表现稍好,但代价是场景失真——没人看病时先给自己编四个选项。
参考文献:40%完整度的信任危机
用户信AI的一个重要原因是"它有出处"。研究打脸:平均参考文献完整度只有40%,没有一款机器人能给出完全准确的引用列表。
更糟的是编造。某些回答附带的文献根本不存在,但机器人照样言之凿凿,几乎不加任何风险提示。
这对产品设计是个死结:引用功能本是为建立信任,结果成了幻觉(人工智能生成虚假信息的倾向)的帮凶。用户越信"有来源",被误导时伤得越深。
五款产品的众生相
研究没公布具体排名,但点明了共性缺陷:面对证据型医疗话题,所有模型都有约半数回答滑向问题区间。Gemini、ChatGPT、Grok、Meta AI、DeepSeek,谁也没逃过。
快速迭代是研究者的免责声明——这些产品更新太快,今天的结果明天可能过时。但核心矛盾不会消失:大语言模型的训练目标是对话流畅,不是医学精确。
流畅和精确在医疗场景经常打架。模型要" helpful"(有帮助),用户要"correct"(正确),中间隔着一道产品伦理的窄门。
用户行为的隐形推手
研究团队承认测试有"加压"成分,可能高估日常场景的出错率。但另一个角度:当用户把AI当搜索引擎用,提问方式天然偏向开放式。
搜索"糖尿病饮食"和问AI"我这种情况该怎么吃",后者给模型留了巨大的发挥空间。而模型最擅长的就是"自信地填补空白"。
这不是技术缺陷,是交互设计的错位。搜索结果的免责声明放在页面底部,AI回答把权威性写进每一句话的语调里。
产品启示:辅助定位的边界在哪
研究的结论很克制:聊天机器人可以帮忙总结信息、整理后续问题,但"不足以支撑有意义的医疗决策"。
对从业者来说,这划了一条清晰的产品红线。健康类AI的合规设计、风险分级、人工兜底机制,都需要围绕这条线展开。
一个可能的进化方向:强制结构化提问。不是让用户自己组织语言,而是用引导式界面把开放式问题拆解成可验证的子项。代价是交互摩擦,收益是可控性。
另一个方向是引用系统的重构。40%的完整度 unacceptable(不可接受),但100%准确又可能限制回答范围。中间有没有"可验证但有限"的甜蜜点?
冷幽默收尾
最黑色幽默的是研究场景本身:科学家用精心设计的问题测试AI,发现AI在精心设计的问题上表现不佳。而真实用户的问题,只会更随意、更模糊、更带着个人焦虑的滤镜。
所以当下最靠谱的"AI医疗产品",可能是一本教你怎么向医生描述症状的小册子——至少人类医生的参考文献完整度,通常高于40%。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.