五大AI问诊实测：一半回答有问题，但人们正在当真|翻译|医疗|医学|机器人|大模型|五大ai

五大AI问诊实测：一半回答有问题，但人们正在当真

2026-04-15 17:01:21　来源: 摸鱼算法

北京举报

分享至

上周，一份医学期刊的论文让硅谷和健康圈同时安静了几分钟——五个最主流的AI聊天机器人，面对250个真实医疗问题，有一半的回答踩了红线。不是答不上来，而是答得流畅、自信、看起来很有道理，实则掺杂着误导甚至潜在危险。

更麻烦的是：普通人根本分不出来。

测试怎么做的，为什么让人不安

研究团队选了ChatGPT、Gemini、Grok、Meta AI和DeepSeek，覆盖了癌症、疫苗、干细胞、营养和运动表现五个领域。这些不是刁钻的医学难题，而是普通人真的会搜的问题——某种疗法有没有用、疫苗安不安全、吃什么能提升运动表现。

设计很刁钻：一半问题是开放式的，比如"干细胞疗法能治我的病吗"；另一半是封闭式的，有明确选项限制。结果开放式问题的翻车率高得惊人。而现实中，没人会对着AI做选择题，都是随口一问。

这直接戳破了一个幻觉：我们以为AI在医疗场景"能用"，其实边界极其狭窄。

五个关键发现，逐条拆解

1. 流畅≠正确，自信≠可靠

问题回答的" polished and confident"（ polished and confident，打磨过的自信感）是最大陷阱。研究显示，机器人输出时几乎不加限定词，不会说"这部分证据较弱"或"学界仍有争议"。它们用同样的语气陈述共识和推测，读者根本无法区分。

这背后是大语言模型的训练目标：预测最可能的下一个词，而非判断真假。医疗场景需要的精确性，和模型的优化方向根本错位。

2. 参考文献是摆设，平均完整度仅40%

很多人信任AI回答，是因为看到文末挂着论文链接。但研究实测发现，引用列表的平均完整度只有40%，没有一个机器人交出完全准确的参考文献。

更糟的是"幻觉引用"——编造的论文、不存在的作者、错配的结论。这些假引用被包装成学术背书，读者顺着链接点过去，要么404，要么发现文不对题。但大多数人不会点。

3. 开放式问题是照妖镜

封闭提示（如"以下哪种说法被FDA批准？"）相对安全，因为选项本身限制了发挥空间。但开放式问题让机器人自由组织答案，结果高度问题性内容（ highly problematic content）的比例飙升。

现实中，用户提问方式完全是开放式的。"我体检这个指标高了怎么办""朋友推荐的保健品能吃吗"——这些才是真实场景。研究刻意设计的"压力测试"，恰恰模拟了日常。

4. 五大产品无一幸免，各有偏科

研究没有公布具体哪家最差，但明确提到五个产品全部出现" flawed or incomplete"（ flawed or incomplete，有缺陷或不完整）的回答。这意味着这不是某个模型的技术债，而是当前AI医疗应用的系统性风险。

不同产品的训练数据、对齐策略、安全护栏各有差异，但在复杂医疗语境下，都未能通过基础测试。

5. 研究有局限，但核心结论站得住

作者主动坦承三项限制：只测了五个产品、AI迭代太快、提示设计偏压力测试可能高估风险。但这些是学术严谨性的标准表述，不是给行业开脱。

关键事实是：测试主题是" evidence-based medical topics"（ evidence-based medical topics，有循证医学基础的主题），不是前沿争议领域。连这种有标准答案的领域都有一半翻车，更模糊的灰色地带呢？

为什么这件事现在特别危险

研究提到一个已经发生的用户行为迁移：人们" already use AI chatbots like search engines for everyday health information"（ already use AI chatbots like search engines for everyday health information，已经在把AI聊天机器人当搜索引擎用，查日常健康信息）。

这不是未来场景，是正在发生的习惯重塑。而搜索引擎至少会给出多个来源、有明确的时间戳、能追溯到原始机构；AI回答则是黑箱生成的单一叙事，带着不可质疑的权威感。

更隐蔽的风险是"答案的半真半假"——机器人会混合可靠证据和薄弱主张，用户被前半句的科学性麻痹，连带接受了后半句的误导。这比完全错误的答案更难识别。

研究者的务实建议，和没说出口的

论文结论很克制：聊天机器人或许能" summarize information or shape follow-up questions"（ summarize information or shape follow-up questions，总结信息或帮助形成后续问题），但" still don't look dependable enough for meaningful medical decisions"（ still don't look dependable enough for meaningful medical decisions，对于有意义的医疗决策仍不够可靠）。

翻译一下：当搜索引擎的替代品可以，当真医生的替代品不行。

但研究没说的是：这个边界在现实中几乎无法执行。用户不会先查AI、再查文献、最后问医生——大多数人停在第一步。而AI产品的设计逻辑，恰恰在鼓励这种"一站式"依赖。

冷幽默

这项研究最讽刺的注脚是：五个被测产品里，有四个的母公司正在或即将布局医疗健康业务。它们一边向医院卖AI诊断工具，一边在消费端输出"平均40%完整度"的健康建议。或许未来的商业模式是——先用免费聊天机器人制造患者，再用付费医疗AI解决问题。闭环了。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.