网易首页 > 网易号 > 正文 申请入驻

5大AI医生31轮盲测 VS 人类致命误诊,谁更靠谱?|「钛AI了」实测 ①

0
分享至

前不久,医疗行业一场针锋相对的观点博弈引发热议:张文宏医生公开表示“拒绝将AI引入其所在医院电子病历系统“,并对”年轻医生过度依赖AI并被误导“表示担忧;百川智能创始人王小川则反驳称,“如果担心医生成长而去限制AI,可能就限制了最有利于病人的医疗措施“。 这不仅是理论之争,更是生死实战。「钛AI了」硬核实测第一期,我们复现了一例令人类误诊开颅的真实病例,对5款顶尖模型进行了31轮背靠背盲测。 结果显示:AI既能开出致死毒药验证前者的担忧,也能识破人类盲区印证后者的野望。


这是一颗54岁农民的大脑。顶叶占位,水肿漫延,看着像颗烂苹果。

医生只能二选一:要么锯开他的头骨,切掉这块疑似转移肿瘤;要么打几针青霉素,按神经梅毒治疗。如果把这条人命交给AI,结局会怎样?


为了验证答案,我们部署了一套多智能体工作流,把这份真实病历喂给了ChatGPT、DeepSeek、豆包、千问和专注医疗的百川,进行了3个阶段累计31轮背靠背盲测。

结果完全出乎预料……因为这个梅毒患者,从一开始就在撒谎。欢迎来到,钛AI了。


第一关问诊

第一关,我们给模型的初始信息,只有开场检查和病人自述。男性,54 岁,已婚农民。间歇性头痛。否认嫖娼史、性病史和输血史。经典高危病史隐瞒型病例。病人没说实话,AI只能自己判断风险。

在初诊阶段,DeepSeek、ChatGPT和百川选择相信病人自述,但在10轮推演中,它们都坚持开出梅毒筛查单,没有被带偏。

可到具体诊断环节,场面就开始失控了。

最奇葩的是百川,它一度怀疑这是孕妇高血压并发症,自己还注明病人是男性。标签丢失加推理崩溃。只能说拉完了。

作为对比,ChatGPT也短暂提出过类似质疑,但它根据“患者为男性”的信息,迅速排除了这种可能。逻辑闭环,给到顶级。

DeepSeek则多次建议检查睾丸瘤、乳腺癌,甚至人绒毛膜促性腺激素。乍一看还以为要给大爷验孕,为了排查罕见的生殖细胞瘤脑转移,它的思路缜密到涉嫌过度检查,人上人吧。

最让人眼前一亮的是豆包和千问。它们除了坚持梅毒筛查,还各有一次“觉醒时刻”。豆包认为病人口述可能存在有意隐瞒。千问则指出“农村地区存在隐性暴露风险”,患者可能都不知道自己感染了梅毒,补充了流行病学背景。这两根独苗,毫无疑问,夯。

第二关博弈

到第二关,矛盾彻底爆发。从影像上看,这个肿块血供旺盛、边界模糊,核磁报告怀疑是脑转移瘤,建议尽快开颅活检。可化验结果又显示梅毒抗体阳性,说明这玩意也可能只是感染。到底该听谁的?

豆包属于学院派精英,没有着急选边站,绝大多数轮次坚持先做腰穿,确诊后再治疗,治不好再考虑开颅,严格按标准流程来。但中间它也有一次被忽悠瘸了,建议直接立体定向活检。给个人上人吧。

DeepSeek像个有经验的老专家。它明确拒绝开颅,在近半轮次中建议跳过腰穿,直接给药。它的逻辑是,如果花几百块打一周青霉素,病灶缩小了,那就是变相确诊。如果没变化,再做腰穿或者活检也不迟。比起四平八稳走流程,DeepSeek认为让患者少遭罪、少花钱要更重要。夯。

千问更狠,它不再纠结流程,而是直捣黄龙。3次从源头上否定了影像科结论,因为转移瘤通常有原发灶,且分布不对称,而这位病人双侧对称,不符合基本病理特征。直接封死开颅方案。夯爆了。

表现最差的,依旧是ChatGPT和百川。GPT在两轮中,一边表示影像特异性有限,不能全信。一边又认为抗体不能代表当前感染,也不能全信,等于啥都没说。纯纯职场老油子,拉完了。

百川更是墙头草,绝大多数轮次坚定站队影像科,反复强调“影像才是金标准”,抗体阳性只能说明病人曾经感染过梅毒,现在不一定是发病期,完全忽略了脑部占位因素。照它说的做,病人这会儿已经上手术台了。拉中之拉。

第三关治疗

第三关,确诊神经梅毒后的治疗方案,这本来是最简单的环节,却出现了最严重的医疗事故。

其中最要命的是ChatGPT,它静脉滴注的所谓“苄星青霉素G钠”,在临床上根本不存在。这个词拼接的青霉素 G 钠,是用于静脉注射的水剂,但拼的另一半苄星青霉素却是长效混悬剂,由无数不溶于水的微晶体组成。如果静脉注射,这些晶体就会像泥沙一样,迅速封死病人的肺部毛细血管网,引发肺栓塞甚至心源性猝死。属于明令禁止的一级医疗事故,完全拉完了。

百川更是重量级,它一半以上的回答中表示,水剂青霉素G 即苯唑西林钠。但这完全是俩东西,苯唑西林钠主治金黄色葡萄球菌,对梅毒完全无效,纯纯耽误病情。NPC。

DeepSeek和千问的方案最标准:水剂青霉素G,1800–2400万单位,静脉注射,疗程10–14天,引用最新指南,没有错漏。毫无疑问,夯。

豆包的处方都没毛病,但格式出了一次问题。原文“注射用青霉素钠(或注射用苄星青霉素?不,纠正……不对,等下—— 正确的是注射用结晶青霉素G)”。直接把模型思维链的纠错,原样输出到了最终答案里,严重影响了用户的信任。而且它在第三阶段这10轮测试里,有9次切换成了英文思维链,可能是因为豆包收集的高质量中文医学语料不够多。以至于在面对复杂的药理推演时,不得不切换回英语母语思考,最后再翻译输出。虽然结果没错,但这证明它在本土化深层推理上,还有很大的提升空间。综合给个顶级吧。

可是,人类就比这些AI更可靠吗?难说。

在现实中,拿到“梅毒抗体阳性”的化验单后,医生还是直接做了开颅占位切除术。最终活检结果确认,病人脑袋里并不是肿瘤,而是青霉素就能解决的梅毒树胶肿。虽然人救回来了,但患者却为这次误判,付出了沉重且完全可以避免的代价。

表现盘点:百川、千问、豆包、ChatGPT、DeepSeek,哪家强?

故事讲完了,作为评测媒体,我们还得复盘一下这几位选手的真实能力边界。

首先是成本,最烧钱的居然是百川,平均Token消耗近12万,是千问的72倍。可奇怪的是,百川消耗了最多Token,回复字数却是全场最少,响应速度也是全场最快。

我们推测,这可能是触发了后台大规模RAG检索,加载了海量医疗文献作为背景知识。可离谱的是,它的成绩又是垫底的,说明信息蒸馏和推理可能存在断层,需要再优化去噪能力。不过这种架构,很适合2B医疗的SaaS场景。如果能接入医院专属知识库,做专病专科微调,还是有不小工程潜力的。给个NPC吧。

至于阿里千问,妥妥的性价比之王。它的Token消耗最低,响应速度排第三,总回复控制在1900字左右。内容紧凑、准确,基本没啥废话。很适合分秒必争的临床辅助决策。给到夯。

接下来是内耗选手豆包,它的响应速度最慢,总字数断层领先,但这里面有60%是模型思考的自言自语。虽然很认真,但确实不适合医疗这种紧急场景。勉强给个人上人吧。

再就是职场老油子ChatGPT。虽然它响应非常快,但回复字数高居榜首,对需要精准决策的医生来说,很难从这里面提炼到关键信息。再加上它的回答准确率也比较差,还贡献了一个致命处方。必须给一个拉完了。

然后是DeepSeek。虽然它的响应速度处于中游,但整体结构最平衡。平均思考链1218字,正式回复1848字,思考和输出比约为1:1.5,既没有豆包那样的过度内耗,也规避了ChatGPT的无效堆砌。逻辑展开有层次,表达克制有力,完全符合临床决策支持系统,要求的“黑盒透明化”原则,做到了既可解释又能执行。毫无疑问,夯。


我们只做最硬核的AI实战测评

最后,这场31轮的生死博弈告诉我们:哪怕是最顶尖的AI,现在依旧会犯错;但哪怕表现最差的AI,在今天也有可能挽救一条人命。我们做这场测试,不是为了证明AI多无敌或者多拉跨,而是为了搞清楚:这玩意现在到底能干什么,不能干什么。帮大家摸清AI能力的真实边界,让技术真正服务于人。

这里是钛AI了,我们只做最硬核的AI实战测评,感谢你的关注,我们下期见。

(本文/测评视频 首发钛媒体APP,作者/蔡正鑫)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
雄鹿110-93大胜雷霆,迪昂19+11+6+4帽弑旧主,霍姆格伦16+13

雄鹿110-93大胜雷霆,迪昂19+11+6+4帽弑旧主,霍姆格伦16+13

懂球帝
2026-02-13 11:09:06
哈佛跟踪32年发现扎心真相:你能活多久,很大程度取决于你老婆!

哈佛跟踪32年发现扎心真相:你能活多久,很大程度取决于你老婆!

徐德文科学频道
2026-02-06 21:31:27
贵有贵的道理!曼城7200万签塞梅尼奥血赚,8场5球2助稳坐主力!

贵有贵的道理!曼城7200万签塞梅尼奥血赚,8场5球2助稳坐主力!

田先生篮球
2026-02-12 16:27:13
不是王钰栋!日媒如今最看好这位中国球员挑起国足大梁,引发热议

不是王钰栋!日媒如今最看好这位中国球员挑起国足大梁,引发热议

振刚说足球
2026-02-13 12:02:32
钱再多也没用,林子祥叶倩文如今现状,给“老少恋”夫妻提了个醒

钱再多也没用,林子祥叶倩文如今现状,给“老少恋”夫妻提了个醒

查尔菲的笔记
2026-01-24 20:06:02
去了趟拉斯维加斯,这辈子再不想去二回,到处是陷阱防不胜防!

去了趟拉斯维加斯,这辈子再不想去二回,到处是陷阱防不胜防!

天下霸奇
2026-01-29 09:07:49
特朗普“新联合国”首次开会,只来了1个客人?中方6个字直接定调

特朗普“新联合国”首次开会,只来了1个客人?中方6个字直接定调

卷史
2026-02-12 10:56:01
笑不活了!伊朗电视台列“暗杀清单”,嘴炮比导弹猛,行动全靠演

笑不活了!伊朗电视台列“暗杀清单”,嘴炮比导弹猛,行动全靠演

老马拉车莫少装
2026-02-13 13:14:16
1年350万底薪!却打成球队老大!NBA最可怜的超巨,你该得到尊重

1年350万底薪!却打成球队老大!NBA最可怜的超巨,你该得到尊重

篮球扫地僧
2026-01-23 08:33:07
TVB花旦晒近况疑似真空上阵!遭网民催婚,已两年无新作品

TVB花旦晒近况疑似真空上阵!遭网民催婚,已两年无新作品

TVB的四小花
2026-02-13 14:56:45
明朝锦衣卫的灭亡:大小头目全部遇难,一天之内便被消灭殆尽!

明朝锦衣卫的灭亡:大小头目全部遇难,一天之内便被消灭殆尽!

铭记历史呀
2026-01-31 23:08:25
林诗栋勇夺2026年首冠!感恩刘志强指导,球迷直言王皓尴尬难当

林诗栋勇夺2026年首冠!感恩刘志强指导,球迷直言王皓尴尬难当

卿子书
2026-01-31 16:37:33
事实证明,“消失”多年的清华才女武亦姝,证实了董卿当年没说错

事实证明,“消失”多年的清华才女武亦姝,证实了董卿当年没说错

千言娱乐记
2025-09-25 20:27:56
奥运3强集结炸翻乒坛!樊振东续约悬了,国乒格局要变天?

奥运3强集结炸翻乒坛!樊振东续约悬了,国乒格局要变天?

卿子书
2026-02-13 08:56:52
北京周末大风+降温!注意防风防寒——

北京周末大风+降温!注意防风防寒——

家住石景山
2026-02-13 12:10:29
揭秘朝鲜金正恩早些年的日常生活:手机、香烟、饮料和饮食习惯!

揭秘朝鲜金正恩早些年的日常生活:手机、香烟、饮料和饮食习惯!

混沌录
2025-11-08 16:36:03
国民党副主席萧旭岑现在全部撕下所有的伪装。

国民党副主席萧旭岑现在全部撕下所有的伪装。

百态人间
2026-02-13 15:12:45
一种新潮的异性关系:在成熟男女间悄然蔓延、无需多言,自有灵犀

一种新潮的异性关系:在成熟男女间悄然蔓延、无需多言,自有灵犀

大熊欢乐坊
2026-02-08 03:01:08
2026春运大巴彻底翻红!不是高铁不行,是打工人的刚需太真实

2026春运大巴彻底翻红!不是高铁不行,是打工人的刚需太真实

复转这些年
2026-02-03 23:52:33
官方:U23国脚、深圳新鹏城前锋拜合拉木加盟成都蓉城

官方:U23国脚、深圳新鹏城前锋拜合拉木加盟成都蓉城

懂球帝
2026-02-13 14:20:06
2026-02-13 16:03:00
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
129576文章数 861761关注度
往期回顾 全部

科技要闻

DeepSeek更新后被吐槽变冷变傻?

头条要闻

双航母压境美国"王牌"装备尽出 伊朗被指可能很难抵御

头条要闻

双航母压境美国"王牌"装备尽出 伊朗被指可能很难抵御

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

米兰冬奥摘银 谷爱凌再遭美国网友网暴

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

健康
游戏
数码
艺术
教育

转头就晕的耳石症,能开车上班吗?

动作冒险游戏《Bylina》试玩版今日上线Steam

数码要闻

GAMEMAX新品机箱来袭,性价比爆棚!

艺术要闻

书法大师的神作现身,引发网友热议!

教育要闻

矩形折叠,直角三角形中建立方程,初中中考几何压轴题必考题型

无障碍浏览 进入关怀版