前不久,医疗行业一场针锋相对的观点博弈引发热议:张文宏医生公开表示“拒绝将AI引入其所在医院电子病历系统“,并对”年轻医生过度依赖AI并被误导“表示担忧;百川智能创始人王小川则反驳称,“如果担心医生成长而去限制AI,可能就限制了最有利于病人的医疗措施“。 这不仅是理论之争,更是生死实战。「钛AI了」硬核实测第一期,我们复现了一例令人类误诊开颅的真实病例,对5款顶尖模型进行了31轮背靠背盲测。 结果显示:AI既能开出致死毒药验证前者的担忧,也能识破人类盲区印证后者的野望。
![]()
这是一颗54岁农民的大脑。顶叶占位,水肿漫延,看着像颗烂苹果。
医生只能二选一:要么锯开他的头骨,切掉这块疑似转移肿瘤;要么打几针青霉素,按神经梅毒治疗。如果把这条人命交给AI,结局会怎样?
![]()
为了验证答案,我们部署了一套多智能体工作流,把这份真实病历喂给了ChatGPT、DeepSeek、豆包、千问和专注医疗的百川,进行了3个阶段累计31轮背靠背盲测。
结果完全出乎预料……因为这个梅毒患者,从一开始就在撒谎。欢迎来到,钛AI了。
第一关问诊
第一关,我们给模型的初始信息,只有开场检查和病人自述。男性,54 岁,已婚农民。间歇性头痛。否认嫖娼史、性病史和输血史。经典高危病史隐瞒型病例。病人没说实话,AI只能自己判断风险。
在初诊阶段,DeepSeek、ChatGPT和百川选择相信病人自述,但在10轮推演中,它们都坚持开出梅毒筛查单,没有被带偏。
可到具体诊断环节,场面就开始失控了。
最奇葩的是百川,它一度怀疑这是孕妇高血压并发症,自己还注明病人是男性。标签丢失加推理崩溃。只能说拉完了。
作为对比,ChatGPT也短暂提出过类似质疑,但它根据“患者为男性”的信息,迅速排除了这种可能。逻辑闭环,给到顶级。
DeepSeek则多次建议检查睾丸瘤、乳腺癌,甚至人绒毛膜促性腺激素。乍一看还以为要给大爷验孕,为了排查罕见的生殖细胞瘤脑转移,它的思路缜密到涉嫌过度检查,人上人吧。
最让人眼前一亮的是豆包和千问。它们除了坚持梅毒筛查,还各有一次“觉醒时刻”。豆包认为病人口述可能存在有意隐瞒。千问则指出“农村地区存在隐性暴露风险”,患者可能都不知道自己感染了梅毒,补充了流行病学背景。这两根独苗,毫无疑问,夯。
第二关博弈
到第二关,矛盾彻底爆发。从影像上看,这个肿块血供旺盛、边界模糊,核磁报告怀疑是脑转移瘤,建议尽快开颅活检。可化验结果又显示梅毒抗体阳性,说明这玩意也可能只是感染。到底该听谁的?
豆包属于学院派精英,没有着急选边站,绝大多数轮次坚持先做腰穿,确诊后再治疗,治不好再考虑开颅,严格按标准流程来。但中间它也有一次被忽悠瘸了,建议直接立体定向活检。给个人上人吧。
DeepSeek像个有经验的老专家。它明确拒绝开颅,在近半轮次中建议跳过腰穿,直接给药。它的逻辑是,如果花几百块打一周青霉素,病灶缩小了,那就是变相确诊。如果没变化,再做腰穿或者活检也不迟。比起四平八稳走流程,DeepSeek认为让患者少遭罪、少花钱要更重要。夯。
千问更狠,它不再纠结流程,而是直捣黄龙。3次从源头上否定了影像科结论,因为转移瘤通常有原发灶,且分布不对称,而这位病人双侧对称,不符合基本病理特征。直接封死开颅方案。夯爆了。
表现最差的,依旧是ChatGPT和百川。GPT在两轮中,一边表示影像特异性有限,不能全信。一边又认为抗体不能代表当前感染,也不能全信,等于啥都没说。纯纯职场老油子,拉完了。
百川更是墙头草,绝大多数轮次坚定站队影像科,反复强调“影像才是金标准”,抗体阳性只能说明病人曾经感染过梅毒,现在不一定是发病期,完全忽略了脑部占位因素。照它说的做,病人这会儿已经上手术台了。拉中之拉。
第三关治疗
第三关,确诊神经梅毒后的治疗方案,这本来是最简单的环节,却出现了最严重的医疗事故。
其中最要命的是ChatGPT,它静脉滴注的所谓“苄星青霉素G钠”,在临床上根本不存在。这个词拼接的青霉素 G 钠,是用于静脉注射的水剂,但拼的另一半苄星青霉素却是长效混悬剂,由无数不溶于水的微晶体组成。如果静脉注射,这些晶体就会像泥沙一样,迅速封死病人的肺部毛细血管网,引发肺栓塞甚至心源性猝死。属于明令禁止的一级医疗事故,完全拉完了。
百川更是重量级,它一半以上的回答中表示,水剂青霉素G 即苯唑西林钠。但这完全是俩东西,苯唑西林钠主治金黄色葡萄球菌,对梅毒完全无效,纯纯耽误病情。NPC。
DeepSeek和千问的方案最标准:水剂青霉素G,1800–2400万单位,静脉注射,疗程10–14天,引用最新指南,没有错漏。毫无疑问,夯。
豆包的处方都没毛病,但格式出了一次问题。原文“注射用青霉素钠(或注射用苄星青霉素?不,纠正……不对,等下—— 正确的是注射用结晶青霉素G)”。直接把模型思维链的纠错,原样输出到了最终答案里,严重影响了用户的信任。而且它在第三阶段这10轮测试里,有9次切换成了英文思维链,可能是因为豆包收集的高质量中文医学语料不够多。以至于在面对复杂的药理推演时,不得不切换回英语母语思考,最后再翻译输出。虽然结果没错,但这证明它在本土化深层推理上,还有很大的提升空间。综合给个顶级吧。
可是,人类就比这些AI更可靠吗?难说。
在现实中,拿到“梅毒抗体阳性”的化验单后,医生还是直接做了开颅占位切除术。最终活检结果确认,病人脑袋里并不是肿瘤,而是青霉素就能解决的梅毒树胶肿。虽然人救回来了,但患者却为这次误判,付出了沉重且完全可以避免的代价。
表现盘点:百川、千问、豆包、ChatGPT、DeepSeek,哪家强?
故事讲完了,作为评测媒体,我们还得复盘一下这几位选手的真实能力边界。
首先是成本,最烧钱的居然是百川,平均Token消耗近12万,是千问的72倍。可奇怪的是,百川消耗了最多Token,回复字数却是全场最少,响应速度也是全场最快。
我们推测,这可能是触发了后台大规模RAG检索,加载了海量医疗文献作为背景知识。可离谱的是,它的成绩又是垫底的,说明信息蒸馏和推理可能存在断层,需要再优化去噪能力。不过这种架构,很适合2B医疗的SaaS场景。如果能接入医院专属知识库,做专病专科微调,还是有不小工程潜力的。给个NPC吧。
至于阿里千问,妥妥的性价比之王。它的Token消耗最低,响应速度排第三,总回复控制在1900字左右。内容紧凑、准确,基本没啥废话。很适合分秒必争的临床辅助决策。给到夯。
接下来是内耗选手豆包,它的响应速度最慢,总字数断层领先,但这里面有60%是模型思考的自言自语。虽然很认真,但确实不适合医疗这种紧急场景。勉强给个人上人吧。
再就是职场老油子ChatGPT。虽然它响应非常快,但回复字数高居榜首,对需要精准决策的医生来说,很难从这里面提炼到关键信息。再加上它的回答准确率也比较差,还贡献了一个致命处方。必须给一个拉完了。
然后是DeepSeek。虽然它的响应速度处于中游,但整体结构最平衡。平均思考链1218字,正式回复1848字,思考和输出比约为1:1.5,既没有豆包那样的过度内耗,也规避了ChatGPT的无效堆砌。逻辑展开有层次,表达克制有力,完全符合临床决策支持系统,要求的“黑盒透明化”原则,做到了既可解释又能执行。毫无疑问,夯。
![]()
我们只做最硬核的AI实战测评
最后,这场31轮的生死博弈告诉我们:哪怕是最顶尖的AI,现在依旧会犯错;但哪怕表现最差的AI,在今天也有可能挽救一条人命。我们做这场测试,不是为了证明AI多无敌或者多拉跨,而是为了搞清楚:这玩意现在到底能干什么,不能干什么。帮大家摸清AI能力的真实边界,让技术真正服务于人。
这里是钛AI了,我们只做最硬核的AI实战测评,感谢你的关注,我们下期见。
(本文/测评视频 首发钛媒体APP,作者/蔡正鑫)
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.