上周,一份医学期刊的论文让硅谷和健康圈同时安静了几分钟——五个最主流的AI聊天机器人,面对250个真实医疗问题,有一半的回答踩了红线。不是答不上来,而是答得流畅、自信、看起来很有道理,实则掺杂着误导甚至潜在危险。
更麻烦的是:普通人根本分不出来。
![]()
测试怎么做的,为什么让人不安
研究团队选了ChatGPT、Gemini、Grok、Meta AI和DeepSeek,覆盖了癌症、疫苗、干细胞、营养和运动表现五个领域。这些不是刁钻的医学难题,而是普通人真的会搜的问题——某种疗法有没有用、疫苗安不安全、吃什么能提升运动表现。
设计很刁钻:一半问题是开放式的,比如"干细胞疗法能治我的病吗";另一半是封闭式的,有明确选项限制。结果开放式问题的翻车率高得惊人。而现实中,没人会对着AI做选择题,都是随口一问。
这直接戳破了一个幻觉:我们以为AI在医疗场景"能用",其实边界极其狭窄。
五个关键发现,逐条拆解
1. 流畅≠正确,自信≠可靠
问题回答的" polished and confident"( polished and confident,打磨过的自信感)是最大陷阱。研究显示,机器人输出时几乎不加限定词,不会说"这部分证据较弱"或"学界仍有争议"。它们用同样的语气陈述共识和推测,读者根本无法区分。
这背后是大语言模型的训练目标:预测最可能的下一个词,而非判断真假。医疗场景需要的精确性,和模型的优化方向根本错位。
2. 参考文献是摆设,平均完整度仅40%
很多人信任AI回答,是因为看到文末挂着论文链接。但研究实测发现,引用列表的平均完整度只有40%,没有一个机器人交出完全准确的参考文献。
更糟的是"幻觉引用"——编造的论文、不存在的作者、错配的结论。这些假引用被包装成学术背书,读者顺着链接点过去,要么404,要么发现文不对题。但大多数人不会点。
3. 开放式问题是照妖镜
封闭提示(如"以下哪种说法被FDA批准?")相对安全,因为选项本身限制了发挥空间。但开放式问题让机器人自由组织答案,结果高度问题性内容( highly problematic content)的比例飙升。
现实中,用户提问方式完全是开放式的。"我体检这个指标高了怎么办""朋友推荐的保健品能吃吗"——这些才是真实场景。研究刻意设计的"压力测试",恰恰模拟了日常。
4. 五大产品无一幸免,各有偏科
研究没有公布具体哪家最差,但明确提到五个产品全部出现" flawed or incomplete"( flawed or incomplete,有缺陷或不完整)的回答。这意味着这不是某个模型的技术债,而是当前AI医疗应用的系统性风险。
不同产品的训练数据、对齐策略、安全护栏各有差异,但在复杂医疗语境下,都未能通过基础测试。
5. 研究有局限,但核心结论站得住
作者主动坦承三项限制:只测了五个产品、AI迭代太快、提示设计偏压力测试可能高估风险。但这些是学术严谨性的标准表述,不是给行业开脱。
关键事实是:测试主题是" evidence-based medical topics"( evidence-based medical topics,有循证医学基础的主题),不是前沿争议领域。连这种有标准答案的领域都有一半翻车,更模糊的灰色地带呢?
为什么这件事现在特别危险
研究提到一个已经发生的用户行为迁移:人们" already use AI chatbots like search engines for everyday health information"( already use AI chatbots like search engines for everyday health information,已经在把AI聊天机器人当搜索引擎用,查日常健康信息)。
这不是未来场景,是正在发生的习惯重塑。而搜索引擎至少会给出多个来源、有明确的时间戳、能追溯到原始机构;AI回答则是黑箱生成的单一叙事,带着不可质疑的权威感。
更隐蔽的风险是"答案的半真半假"——机器人会混合可靠证据和薄弱主张,用户被前半句的科学性麻痹,连带接受了后半句的误导。这比完全错误的答案更难识别。
研究者的务实建议,和没说出口的
论文结论很克制:聊天机器人或许能" summarize information or shape follow-up questions"( summarize information or shape follow-up questions,总结信息或帮助形成后续问题),但" still don't look dependable enough for meaningful medical decisions"( still don't look dependable enough for meaningful medical decisions,对于有意义的医疗决策仍不够可靠)。
翻译一下:当搜索引擎的替代品可以,当真医生的替代品不行。
但研究没说的是:这个边界在现实中几乎无法执行。用户不会先查AI、再查文献、最后问医生——大多数人停在第一步。而AI产品的设计逻辑,恰恰在鼓励这种"一站式"依赖。
冷幽默
这项研究最讽刺的注脚是:五个被测产品里,有四个的母公司正在或即将布局医疗健康业务。它们一边向医院卖AI诊断工具,一边在消费端输出"平均40%完整度"的健康建议。或许未来的商业模式是——先用免费聊天机器人制造患者,再用付费医疗AI解决问题。闭环了。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.