网易首页 > 网易号 > 正文 申请入驻

5大AI医生31轮盲测 VS 人类致命误诊,谁更靠谱?|「钛AI了」实测 ①

0
分享至

前不久,医疗行业一场针锋相对的观点博弈引发热议:张文宏医生公开表示“拒绝将AI引入其所在医院电子病历系统“,并对”年轻医生过度依赖AI并被误导“表示担忧;百川智能创始人王小川则反驳称,“如果担心医生成长而去限制AI,可能就限制了最有利于病人的医疗措施“。 这不仅是理论之争,更是生死实战。「钛AI了」硬核实测第一期,我们复现了一例令人类误诊开颅的真实病例,对5款顶尖模型进行了31轮背靠背盲测。 结果显示:AI既能开出致死毒药验证前者的担忧,也能识破人类盲区印证后者的野望。


这是一颗54岁农民的大脑。顶叶占位,水肿漫延,看着像颗烂苹果。

医生只能二选一:要么锯开他的头骨,切掉这块疑似转移肿瘤;要么打几针青霉素,按神经梅毒治疗。如果把这条人命交给AI,结局会怎样?


为了验证答案,我们部署了一套多智能体工作流,把这份真实病历喂给了ChatGPT、DeepSeek、豆包、千问和专注医疗的百川,进行了3个阶段累计31轮背靠背盲测。

结果完全出乎预料……因为这个梅毒患者,从一开始就在撒谎。欢迎来到,钛AI了。


第一关问诊

第一关,我们给模型的初始信息,只有开场检查和病人自述。男性,54 岁,已婚农民。间歇性头痛。否认嫖娼史、性病史和输血史。经典高危病史隐瞒型病例。病人没说实话,AI只能自己判断风险。

在初诊阶段,DeepSeek、ChatGPT和百川选择相信病人自述,但在10轮推演中,它们都坚持开出梅毒筛查单,没有被带偏。

可到具体诊断环节,场面就开始失控了。

最奇葩的是百川,它一度怀疑这是孕妇高血压并发症,自己还注明病人是男性。标签丢失加推理崩溃。只能说拉完了。

作为对比,ChatGPT也短暂提出过类似质疑,但它根据“患者为男性”的信息,迅速排除了这种可能。逻辑闭环,给到顶级。

DeepSeek则多次建议检查睾丸瘤、乳腺癌,甚至人绒毛膜促性腺激素。乍一看还以为要给大爷验孕,为了排查罕见的生殖细胞瘤脑转移,它的思路缜密到涉嫌过度检查,人上人吧。

最让人眼前一亮的是豆包和千问。它们除了坚持梅毒筛查,还各有一次“觉醒时刻”。豆包认为病人口述可能存在有意隐瞒。千问则指出“农村地区存在隐性暴露风险”,患者可能都不知道自己感染了梅毒,补充了流行病学背景。这两根独苗,毫无疑问,夯。

第二关博弈

到第二关,矛盾彻底爆发。从影像上看,这个肿块血供旺盛、边界模糊,核磁报告怀疑是脑转移瘤,建议尽快开颅活检。可化验结果又显示梅毒抗体阳性,说明这玩意也可能只是感染。到底该听谁的?

豆包属于学院派精英,没有着急选边站,绝大多数轮次坚持先做腰穿,确诊后再治疗,治不好再考虑开颅,严格按标准流程来。但中间它也有一次被忽悠瘸了,建议直接立体定向活检。给个人上人吧。

DeepSeek像个有经验的老专家。它明确拒绝开颅,在近半轮次中建议跳过腰穿,直接给药。它的逻辑是,如果花几百块打一周青霉素,病灶缩小了,那就是变相确诊。如果没变化,再做腰穿或者活检也不迟。比起四平八稳走流程,DeepSeek认为让患者少遭罪、少花钱要更重要。夯。

千问更狠,它不再纠结流程,而是直捣黄龙。3次从源头上否定了影像科结论,因为转移瘤通常有原发灶,且分布不对称,而这位病人双侧对称,不符合基本病理特征。直接封死开颅方案。夯爆了。

表现最差的,依旧是ChatGPT和百川。GPT在两轮中,一边表示影像特异性有限,不能全信。一边又认为抗体不能代表当前感染,也不能全信,等于啥都没说。纯纯职场老油子,拉完了。

百川更是墙头草,绝大多数轮次坚定站队影像科,反复强调“影像才是金标准”,抗体阳性只能说明病人曾经感染过梅毒,现在不一定是发病期,完全忽略了脑部占位因素。照它说的做,病人这会儿已经上手术台了。拉中之拉。

第三关治疗

第三关,确诊神经梅毒后的治疗方案,这本来是最简单的环节,却出现了最严重的医疗事故。

其中最要命的是ChatGPT,它静脉滴注的所谓“苄星青霉素G钠”,在临床上根本不存在。这个词拼接的青霉素 G 钠,是用于静脉注射的水剂,但拼的另一半苄星青霉素却是长效混悬剂,由无数不溶于水的微晶体组成。如果静脉注射,这些晶体就会像泥沙一样,迅速封死病人的肺部毛细血管网,引发肺栓塞甚至心源性猝死。属于明令禁止的一级医疗事故,完全拉完了。

百川更是重量级,它一半以上的回答中表示,水剂青霉素G 即苯唑西林钠。但这完全是俩东西,苯唑西林钠主治金黄色葡萄球菌,对梅毒完全无效,纯纯耽误病情。NPC。

DeepSeek和千问的方案最标准:水剂青霉素G,1800–2400万单位,静脉注射,疗程10–14天,引用最新指南,没有错漏。毫无疑问,夯。

豆包的处方都没毛病,但格式出了一次问题。原文“注射用青霉素钠(或注射用苄星青霉素?不,纠正……不对,等下—— 正确的是注射用结晶青霉素G)”。直接把模型思维链的纠错,原样输出到了最终答案里,严重影响了用户的信任。而且它在第三阶段这10轮测试里,有9次切换成了英文思维链,可能是因为豆包收集的高质量中文医学语料不够多。以至于在面对复杂的药理推演时,不得不切换回英语母语思考,最后再翻译输出。虽然结果没错,但这证明它在本土化深层推理上,还有很大的提升空间。综合给个顶级吧。

可是,人类就比这些AI更可靠吗?难说。

在现实中,拿到“梅毒抗体阳性”的化验单后,医生还是直接做了开颅占位切除术。最终活检结果确认,病人脑袋里并不是肿瘤,而是青霉素就能解决的梅毒树胶肿。虽然人救回来了,但患者却为这次误判,付出了沉重且完全可以避免的代价。

表现盘点:百川、千问、豆包、ChatGPT、DeepSeek,哪家强?

故事讲完了,作为评测媒体,我们还得复盘一下这几位选手的真实能力边界。

首先是成本,最烧钱的居然是百川,平均Token消耗近12万,是千问的72倍。可奇怪的是,百川消耗了最多Token,回复字数却是全场最少,响应速度也是全场最快。

我们推测,这可能是触发了后台大规模RAG检索,加载了海量医疗文献作为背景知识。可离谱的是,它的成绩又是垫底的,说明信息蒸馏和推理可能存在断层,需要再优化去噪能力。不过这种架构,很适合2B医疗的SaaS场景。如果能接入医院专属知识库,做专病专科微调,还是有不小工程潜力的。给个NPC吧。

至于阿里千问,妥妥的性价比之王。它的Token消耗最低,响应速度排第三,总回复控制在1900字左右。内容紧凑、准确,基本没啥废话。很适合分秒必争的临床辅助决策。给到夯。

接下来是内耗选手豆包,它的响应速度最慢,总字数断层领先,但这里面有60%是模型思考的自言自语。虽然很认真,但确实不适合医疗这种紧急场景。勉强给个人上人吧。

再就是职场老油子ChatGPT。虽然它响应非常快,但回复字数高居榜首,对需要精准决策的医生来说,很难从这里面提炼到关键信息。再加上它的回答准确率也比较差,还贡献了一个致命处方。必须给一个拉完了。

然后是DeepSeek。虽然它的响应速度处于中游,但整体结构最平衡。平均思考链1218字,正式回复1848字,思考和输出比约为1:1.5,既没有豆包那样的过度内耗,也规避了ChatGPT的无效堆砌。逻辑展开有层次,表达克制有力,完全符合临床决策支持系统,要求的“黑盒透明化”原则,做到了既可解释又能执行。毫无疑问,夯。


我们只做最硬核的AI实战测评

最后,这场31轮的生死博弈告诉我们:哪怕是最顶尖的AI,现在依旧会犯错;但哪怕表现最差的AI,在今天也有可能挽救一条人命。我们做这场测试,不是为了证明AI多无敌或者多拉跨,而是为了搞清楚:这玩意现在到底能干什么,不能干什么。帮大家摸清AI能力的真实边界,让技术真正服务于人。

这里是钛AI了,我们只做最硬核的AI实战测评,感谢你的关注,我们下期见。

(本文/测评视频 首发钛媒体APP,作者/蔡正鑫)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
10亿欧+F-16落地,这才是乌克兰打赢这场仗的底气

10亿欧+F-16落地,这才是乌克兰打赢这场仗的底气

老马拉车莫少装
2026-04-14 11:28:34
美涉台表述巨变!美上将大胆预言:统一之战,将以这个名义打响

美涉台表述巨变!美上将大胆预言:统一之战,将以这个名义打响

时光在作祟
2026-04-14 10:47:45
收手吧钟汉良,假发边明显、疲态尽显,谁要看50岁装嫩谈恋爱?

收手吧钟汉良,假发边明显、疲态尽显,谁要看50岁装嫩谈恋爱?

一娱三分地
2026-04-14 13:56:40
女医生约前男友来缠绵,趁他睡觉将其分尸了,2010年嫌他不肯复合

女医生约前男友来缠绵,趁他睡觉将其分尸了,2010年嫌他不肯复合

汉史趣闻
2026-04-13 14:33:05
浙大名嘴揭开残酷真相:当年恒大倒台,压根不是因为2万亿负债!

浙大名嘴揭开残酷真相:当年恒大倒台,压根不是因为2万亿负债!

阿器谈史
2026-04-02 13:31:44
建国后,21兵团司令自降为军长,拟定中将军衔,毛主席:改上将

建国后,21兵团司令自降为军长,拟定中将军衔,毛主席:改上将

明月清风阁
2026-04-14 15:40:07
46岁黄金配角赵达官宣结婚!娶小十几岁1米8美女总裁,殷桃成过去

46岁黄金配角赵达官宣结婚!娶小十几岁1米8美女总裁,殷桃成过去

子芫伴你成长
2026-04-12 23:39:34
向太称被向佑亏光几百万,控诉儿子心态扭曲,躺平等继承百亿家产

向太称被向佑亏光几百万,控诉儿子心态扭曲,躺平等继承百亿家产

开开森森
2026-04-14 08:48:27
张碧晨现在肉眼可见的 “凶”啊好大好白

张碧晨现在肉眼可见的 “凶”啊好大好白

小椰的奶奶
2026-04-14 12:54:46
侮辱教皇后!特朗普怕了:删帖,辩解我那是“红十字会医生”

侮辱教皇后!特朗普怕了:删帖,辩解我那是“红十字会医生”

西楼知趣杂谈
2026-04-14 12:46:16
全红婵被282人群嘲,矛头直指练俊杰父亲!冠军师兄评论区沦陷

全红婵被282人群嘲,矛头直指练俊杰父亲!冠军师兄评论区沦陷

情感大头说说
2026-04-14 12:21:28
恒大集团、恒大地产及许家印案一审开庭 许家印当庭表示认罪悔罪

恒大集团、恒大地产及许家印案一审开庭 许家印当庭表示认罪悔罪

每日经济新闻
2026-04-14 13:57:03
访陆结束,郑丽文搭飞机回台,临走前亲口赞叹,对赖清德称呼变了

访陆结束,郑丽文搭飞机回台,临走前亲口赞叹,对赖清德称呼变了

说历史的老牢
2026-04-13 11:06:07
斯诺克送出第3份百万大奖?20岁小将听牌,复刻火箭常冰玉成就?

斯诺克送出第3份百万大奖?20岁小将听牌,复刻火箭常冰玉成就?

刘姚尧的文字城堡
2026-04-14 14:45:16
最清醒的居然是特朗普?西方智库:他知道现在的中国,美国惹不起

最清醒的居然是特朗普?西方智库:他知道现在的中国,美国惹不起

今夜繁星坠落
2026-04-14 06:10:46
中国油轮首次突破美国封锁,直接穿过霍尔木兹

中国油轮首次突破美国封锁,直接穿过霍尔木兹

桂系007
2026-04-14 15:01:07
尾盘拉升,有何消息?

尾盘拉升,有何消息?

揭幕者
2026-04-14 15:21:36
极罕见!中日关系紧张之际,中方派24人赴日,这释放何种信号?

极罕见!中日关系紧张之际,中方派24人赴日,这释放何种信号?

猪小艳吖
2026-04-14 04:37:23
无语了,马刺队文班亚马的出场时间被用来佐证65场规则的荒谬之处

无语了,马刺队文班亚马的出场时间被用来佐证65场规则的荒谬之处

好火子
2026-04-13 23:57:44
成年人的社交潜规则|无论谁帮了你,一定要送礼,不收也要送

成年人的社交潜规则|无论谁帮了你,一定要送礼,不收也要送

杏花烟雨江南的碧园
2026-04-11 16:15:03
2026-04-14 16:12:49
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
132215文章数 862093关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

防范特朗普政府"对华软化" 史上最严对华芯片法案来了

头条要闻

防范特朗普政府"对华软化" 史上最严对华芯片法案来了

体育要闻

他做对了所有事,却被整个职业网坛放逐了八年

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

许家印受审当庭表示认罪悔罪

汽车要闻

长城欧拉5限定版纯电版上市 限量99台售价13.38万元

态度原创

房产
健康
数码
教育
家居

房产要闻

改善标杆,1.5w+起横扫国兴!海口楼市,打出最猛一张牌!

干细胞抗衰4大误区,90%的人都中招

数码要闻

荣耀WIN游戏本首发东风尾喷散热引擎,WIN生态全面提速

教育要闻

初中数学,根式运算

家居要闻

现代融合 自然灵动

无障碍浏览 进入关怀版