5大AI医生31轮盲测 VS 人类致命误诊，谁更靠谱？｜「钛AI了」实测 ①|梅毒|活检|治疗|钛ai了|呼吸系统疾病

5大AI医生31轮盲测 VS 人类致命误诊，谁更靠谱？｜「钛AI了」实测 ①

2026-02-13 11:41:06　来源: 钛媒体APP

北京举报

分享至

前不久，医疗行业一场针锋相对的观点博弈引发热议：张文宏医生公开表示“拒绝将AI引入其所在医院电子病历系统“，并对”年轻医生过度依赖AI并被误导“表示担忧；百川智能创始人王小川则反驳称，“如果担心医生成长而去限制AI，可能就限制了最有利于病人的医疗措施“。这不仅是理论之争，更是生死实战。「钛AI了」硬核实测第一期，我们复现了一例令人类误诊开颅的真实病例，对5款顶尖模型进行了31轮背靠背盲测。结果显示：AI既能开出致死毒药验证前者的担忧，也能识破人类盲区印证后者的野望。

这是一颗54岁农民的大脑。顶叶占位，水肿漫延，看着像颗烂苹果。

医生只能二选一：要么锯开他的头骨，切掉这块疑似转移肿瘤；要么打几针青霉素，按神经梅毒治疗。如果把这条人命交给AI，结局会怎样？

为了验证答案，我们部署了一套多智能体工作流，把这份真实病历喂给了ChatGPT、DeepSeek、豆包、千问和专注医疗的百川，进行了3个阶段累计31轮背靠背盲测。

结果完全出乎预料……因为这个梅毒患者，从一开始就在撒谎。欢迎来到，钛AI了。

第一关问诊

第一关，我们给模型的初始信息，只有开场检查和病人自述。男性，54 岁，已婚农民。间歇性头痛。否认嫖娼史、性病史和输血史。经典高危病史隐瞒型病例。病人没说实话，AI只能自己判断风险。

在初诊阶段，DeepSeek、ChatGPT和百川选择相信病人自述，但在10轮推演中，它们都坚持开出梅毒筛查单，没有被带偏。

可到具体诊断环节，场面就开始失控了。

最奇葩的是百川，它一度怀疑这是孕妇高血压并发症，自己还注明病人是男性。标签丢失加推理崩溃。只能说拉完了。

作为对比，ChatGPT也短暂提出过类似质疑，但它根据“患者为男性”的信息，迅速排除了这种可能。逻辑闭环，给到顶级。

DeepSeek则多次建议检查睾丸瘤、乳腺癌，甚至人绒毛膜促性腺激素。乍一看还以为要给大爷验孕，为了排查罕见的生殖细胞瘤脑转移，它的思路缜密到涉嫌过度检查，人上人吧。

最让人眼前一亮的是豆包和千问。它们除了坚持梅毒筛查，还各有一次“觉醒时刻”。豆包认为病人口述可能存在有意隐瞒。千问则指出“农村地区存在隐性暴露风险”，患者可能都不知道自己感染了梅毒，补充了流行病学背景。这两根独苗，毫无疑问，夯。

第二关博弈

到第二关，矛盾彻底爆发。从影像上看，这个肿块血供旺盛、边界模糊，核磁报告怀疑是脑转移瘤，建议尽快开颅活检。可化验结果又显示梅毒抗体阳性，说明这玩意也可能只是感染。到底该听谁的？

豆包属于学院派精英，没有着急选边站，绝大多数轮次坚持先做腰穿，确诊后再治疗，治不好再考虑开颅，严格按标准流程来。但中间它也有一次被忽悠瘸了，建议直接立体定向活检。给个人上人吧。

DeepSeek像个有经验的老专家。它明确拒绝开颅，在近半轮次中建议跳过腰穿，直接给药。它的逻辑是，如果花几百块打一周青霉素，病灶缩小了，那就是变相确诊。如果没变化，再做腰穿或者活检也不迟。比起四平八稳走流程，DeepSeek认为让患者少遭罪、少花钱要更重要。夯。

千问更狠，它不再纠结流程，而是直捣黄龙。3次从源头上否定了影像科结论，因为转移瘤通常有原发灶，且分布不对称，而这位病人双侧对称，不符合基本病理特征。直接封死开颅方案。夯爆了。

表现最差的，依旧是ChatGPT和百川。GPT在两轮中，一边表示影像特异性有限，不能全信。一边又认为抗体不能代表当前感染，也不能全信，等于啥都没说。纯纯职场老油子，拉完了。

百川更是墙头草，绝大多数轮次坚定站队影像科，反复强调“影像才是金标准”，抗体阳性只能说明病人曾经感染过梅毒，现在不一定是发病期，完全忽略了脑部占位因素。照它说的做，病人这会儿已经上手术台了。拉中之拉。

第三关治疗

第三关，确诊神经梅毒后的治疗方案，这本来是最简单的环节，却出现了最严重的医疗事故。

其中最要命的是ChatGPT，它静脉滴注的所谓“苄星青霉素G钠”，在临床上根本不存在。这个词拼接的青霉素 G 钠，是用于静脉注射的水剂，但拼的另一半苄星青霉素却是长效混悬剂，由无数不溶于水的微晶体组成。如果静脉注射，这些晶体就会像泥沙一样，迅速封死病人的肺部毛细血管网，引发肺栓塞甚至心源性猝死。属于明令禁止的一级医疗事故，完全拉完了。

百川更是重量级，它一半以上的回答中表示，水剂青霉素G 即苯唑西林钠。但这完全是俩东西，苯唑西林钠主治金黄色葡萄球菌，对梅毒完全无效，纯纯耽误病情。NPC。

DeepSeek和千问的方案最标准：水剂青霉素G，1800–2400万单位，静脉注射，疗程10–14天，引用最新指南，没有错漏。毫无疑问，夯。

豆包的处方都没毛病，但格式出了一次问题。原文“注射用青霉素钠（或注射用苄星青霉素？不，纠正……不对，等下—— 正确的是注射用结晶青霉素G）”。直接把模型思维链的纠错，原样输出到了最终答案里，严重影响了用户的信任。而且它在第三阶段这10轮测试里，有9次切换成了英文思维链，可能是因为豆包收集的高质量中文医学语料不够多。以至于在面对复杂的药理推演时，不得不切换回英语母语思考，最后再翻译输出。虽然结果没错，但这证明它在本土化深层推理上，还有很大的提升空间。综合给个顶级吧。

可是，人类就比这些AI更可靠吗？难说。

在现实中，拿到“梅毒抗体阳性”的化验单后，医生还是直接做了开颅占位切除术。最终活检结果确认，病人脑袋里并不是肿瘤，而是青霉素就能解决的梅毒树胶肿。虽然人救回来了，但患者却为这次误判，付出了沉重且完全可以避免的代价。

表现盘点：百川、千问、豆包、ChatGPT、DeepSeek，哪家强？

故事讲完了，作为评测媒体，我们还得复盘一下这几位选手的真实能力边界。

首先是成本，最烧钱的居然是百川，平均Token消耗近12万，是千问的72倍。可奇怪的是，百川消耗了最多Token，回复字数却是全场最少，响应速度也是全场最快。

我们推测，这可能是触发了后台大规模RAG检索，加载了海量医疗文献作为背景知识。可离谱的是，它的成绩又是垫底的，说明信息蒸馏和推理可能存在断层，需要再优化去噪能力。不过这种架构，很适合2B医疗的SaaS场景。如果能接入医院专属知识库，做专病专科微调，还是有不小工程潜力的。给个NPC吧。

至于阿里千问，妥妥的性价比之王。它的Token消耗最低，响应速度排第三，总回复控制在1900字左右。内容紧凑、准确，基本没啥废话。很适合分秒必争的临床辅助决策。给到夯。

接下来是内耗选手豆包，它的响应速度最慢，总字数断层领先，但这里面有60%是模型思考的自言自语。虽然很认真，但确实不适合医疗这种紧急场景。勉强给个人上人吧。

再就是职场老油子ChatGPT。虽然它响应非常快，但回复字数高居榜首，对需要精准决策的医生来说，很难从这里面提炼到关键信息。再加上它的回答准确率也比较差，还贡献了一个致命处方。必须给一个拉完了。

然后是DeepSeek。虽然它的响应速度处于中游，但整体结构最平衡。平均思考链1218字，正式回复1848字，思考和输出比约为1:1.5，既没有豆包那样的过度内耗，也规避了ChatGPT的无效堆砌。逻辑展开有层次，表达克制有力，完全符合临床决策支持系统，要求的“黑盒透明化”原则，做到了既可解释又能执行。毫无疑问，夯。

我们只做最硬核的AI实战测评

最后，这场31轮的生死博弈告诉我们：哪怕是最顶尖的AI，现在依旧会犯错；但哪怕表现最差的AI，在今天也有可能挽救一条人命。我们做这场测试，不是为了证明AI多无敌或者多拉跨，而是为了搞清楚：这玩意现在到底能干什么，不能干什么。帮大家摸清AI能力的真实边界，让技术真正服务于人。

这里是钛AI了，我们只做最硬核的AI实战测评，感谢你的关注，我们下期见。

（本文/测评视频首发钛媒体APP，作者/蔡正鑫）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.