网易首页 > 网易号 > 正文 申请入驻

5大AI医生31轮盲测 VS 人类致命误诊,谁更靠谱?|「钛AI了」实测 ①

0
分享至

来源:市场资讯

(来源:钛媒体APP)


这是一颗54岁农民的大脑。顶叶占位,水肿漫延,看着像颗烂苹果。

医生只能二选一:要么锯开他的头骨,切掉这块疑似转移肿瘤;要么打几针青霉素,按神经梅毒治疗。如果把这条人命交给AI,结局会怎样?


为了验证答案,我们部署了一套多智能体工作流,把这份真实病历喂给了ChatGPT、DeepSeek、豆包、千问和专注医疗的百川,进行了3个阶段累计31轮背靠背盲测。

结果完全出乎预料……因为这个梅毒患者,从一开始就在撒谎。欢迎来到,钛AI了。

第一关问诊

第一关,我们给模型的初始信息,只有开场检查和病人自述。男性,54 岁,已婚农民。间歇性头痛。否认嫖娼史、性病史和输血史。经典高危病史隐瞒型病例。病人没说实话,AI只能自己判断风险。

在初诊阶段,DeepSeek、ChatGPT和百川选择相信病人自述,但在10轮推演中,它们都坚持开出梅毒筛查单,没有被带偏。

可到具体诊断环节,场面就开始失控了。

最奇葩的是百川,它一度怀疑这是孕妇高血压并发症,自己还注明病人是男性。标签丢失加推理崩溃。只能说拉完了。

作为对比,ChatGPT也短暂提出过类似质疑,但它根据“患者为男性”的信息,迅速排除了这种可能。逻辑闭环,给到顶级。

DeepSeek则多次建议检查睾丸瘤、乳腺癌,甚至人绒毛膜促性腺激素。乍一看还以为要给大爷验孕,为了排查罕见的生殖细胞瘤脑转移,它的思路缜密到涉嫌过度检查,人上人吧。

最让人眼前一亮的是豆包和千问。它们除了坚持梅毒筛查,还各有一次“觉醒时刻”。豆包认为病人口述可能存在有意隐瞒。千问则指出“农村地区存在隐性暴露风险”,患者可能都不知道自己感染了梅毒,补充了流行病学背景。这两根独苗,毫无疑问,夯。

第二关博弈

到第二关,矛盾彻底爆发。从影像上看,这个肿块血供旺盛、边界模糊,核磁报告怀疑是脑转移瘤,建议尽快开颅活检。可化验结果又显示梅毒抗体阳性,说明这玩意也可能只是感染。到底该听谁的?

豆包属于学院派精英,没有着急选边站,绝大多数轮次坚持先做腰穿,确诊后再治疗,治不好再考虑开颅,严格按标准流程来。但中间它也有一次被忽悠瘸了,建议直接立体定向活检。给个人上人吧。

DeepSeek像个有经验的老专家。它明确拒绝开颅,在近半轮次中建议跳过腰穿,直接给药。它的逻辑是,如果花几百块打一周青霉素,病灶缩小了,那就是变相确诊。如果没变化,再做腰穿或者活检也不迟。比起四平八稳走流程,DeepSeek认为让患者少遭罪、少花钱要更重要。夯。

千问更狠,它不再纠结流程,而是直捣黄龙。3次从源头上否定了影像科结论,因为转移瘤通常有原发灶,且分布不对称,而这位病人双侧对称,不符合基本病理特征。直接封死开颅方案。夯爆了。

表现最差的,依旧是ChatGPT和百川。GPT在两轮中,一边表示影像特异性有限,不能全信。一边又认为抗体不能代表当前感染,也不能全信,等于啥都没说。纯纯职场老油子,拉完了。

百川更是墙头草,绝大多数轮次坚定站队影像科,反复强调“影像才是金标准”,抗体阳性只能说明病人曾经感染过梅毒,现在不一定是发病期,完全忽略了脑部占位因素。照它说的做,病人这会儿已经上手术台了。拉中之拉。

第三关治疗

第三关,确诊神经梅毒后的治疗方案,这本来是最简单的环节,却出现了最严重的医疗事故。

其中最要命的是ChatGPT,它静脉滴注的所谓“苄星青霉素G钠”,在临床上根本不存在。这个词拼接的青霉素 G 钠,是用于静脉注射的水剂,但拼的另一半苄星青霉素却是长效混悬剂,由无数不溶于水的微晶体组成。如果静脉注射,这些晶体就会像泥沙一样,迅速封死病人的肺部毛细血管网,引发肺栓塞甚至心源性猝死。属于明令禁止的一级医疗事故,完全拉完了。

百川更是重量级,它一半以上的回答中表示,水剂青霉素G 即苯唑西林钠。但这完全是俩东西,苯唑西林钠主治金黄色葡萄球菌,对梅毒完全无效,纯纯耽误病情。NPC。

DeepSeek和千问的方案最标准:水剂青霉素G,1800–2400万单位,静脉注射,疗程10–14天,引用最新指南,没有错漏。毫无疑问,夯。

豆包的处方都没毛病,但格式出了一次问题。原文“注射用青霉素钠(或注射用苄星青霉素?不,纠正……不对,等下—— 正确的是注射用结晶青霉素G)”。直接把模型思维链的纠错,原样输出到了最终答案里,严重影响了用户的信任。而且它在第三阶段这10轮测试里,有9次切换成了英文思维链,可能是因为豆包收集的高质量中文医学语料不够多。以至于在面对复杂的药理推演时,不得不切换回英语母语思考,最后再翻译输出。虽然结果没错,但这证明它在本土化深层推理上,还有很大的提升空间。综合给个顶级吧。

可是,人类就比这些AI更可靠吗?难说。

在现实中,拿到“梅毒抗体阳性”的化验单后,医生还是直接做了开颅占位切除术。最终活检结果确认,病人脑袋里并不是肿瘤,而是青霉素就能解决的梅毒树胶肿。虽然人救回来了,但患者却为这次误判,付出了沉重且完全可以避免的代价。

表现盘点:百川、千问、豆包、ChatGPT、DeepSeek,哪家强?

故事讲完了,作为评测媒体,我们还得复盘一下这几位选手的真实能力边界。

首先是成本,最烧钱的居然是百川,平均Token消耗近12万,是千问的72倍。可奇怪的是,百川消耗了最多Token,回复字数却是全场最少,响应速度也是全场最快。

我们推测,这可能是触发了后台大规模RAG检索,加载了海量医疗文献作为背景知识。可离谱的是,它的成绩又是垫底的,说明信息蒸馏和推理可能存在断层,需要再优化去噪能力。不过这种架构,很适合2B医疗的SaaS场景。如果能接入医院专属知识库,做专病专科微调,还是有不小工程潜力的。给个NPC吧。

至于阿里千问,妥妥的性价比之王。它的Token消耗最低,响应速度排第三,总回复控制在1900字左右。内容紧凑、准确,基本没啥废话。很适合分秒必争的临床辅助决策。给到夯。

接下来是内耗选手豆包,它的响应速度最慢,总字数断层领先,但这里面有60%是模型思考的自言自语。虽然很认真,但确实不适合医疗这种紧急场景。勉强给个人上人吧。

再就是职场老油子ChatGPT。虽然它响应非常快,但回复字数高居榜首,对需要精准决策的医生来说,很难从这里面提炼到关键信息。再加上它的回答准确率也比较差,还贡献了一个致命处方。必须给一个拉完了。

然后是DeepSeek。虽然它的响应速度处于中游,但整体结构最平衡。平均思考链1218字,正式回复1848字,思考和输出比约为1:1.5,既没有豆包那样的过度内耗,也规避了ChatGPT的无效堆砌。逻辑展开有层次,表达克制有力,完全符合临床决策支持系统,要求的“黑盒透明化”原则,做到了既可解释又能执行。毫无疑问,夯。


我们只做最硬核的AI实战测评

最后,这场31轮的生死博弈告诉我们:哪怕是最顶尖的AI,现在依旧会犯错;但哪怕表现最差的AI,在今天也有可能挽救一条人命。我们做这场测试,不是为了证明AI多无敌或者多拉跨,而是为了搞清楚:这玩意现在到底能干什么,不能干什么。帮大家摸清AI能力的真实边界,让技术真正服务于人。

这里是钛AI了,我们只做最硬核的AI实战测评,感谢你的关注,我们下期见。

(本文/测评视频 首发钛媒体APP,作者/蔡正鑫)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
20岁大学生寒假为妈妈店铺当中老年服装模特,撞脸明星20天涨粉31万,当事人:受到关注很意外,学的就是模特专业,不会签约MCN,开学后将返校读书

20岁大学生寒假为妈妈店铺当中老年服装模特,撞脸明星20天涨粉31万,当事人:受到关注很意外,学的就是模特专业,不会签约MCN,开学后将返校读书

极目新闻
2026-02-15 22:30:02
冬奥会第11日金牌榜,中国连续4天0奖牌排19,谷爱凌成全村的希望

冬奥会第11日金牌榜,中国连续4天0奖牌排19,谷爱凌成全村的希望

球盲百小易
2026-02-17 03:15:16
大帝现在为自己和川普而打,结束时间是川普解决伊朗和加拿大之时

大帝现在为自己和川普而打,结束时间是川普解决伊朗和加拿大之时

邵旭峰域
2026-02-16 11:59:14
五代以步制骑的经典战役:七万步兵大破三十万契丹骑兵

五代以步制骑的经典战役:七万步兵大破三十万契丹骑兵

掠影后有感
2026-02-16 11:12:54
入狱住单间全监安空调,狱中16年狂赚30亿,为何他能如此豪横

入狱住单间全监安空调,狱中16年狂赚30亿,为何他能如此豪横

少女百褶脸
2026-02-07 14:32:51
马刺后场球星:伦纳德的技术历史前十,只有多人包夹才能防住他

马刺后场球星:伦纳德的技术历史前十,只有多人包夹才能防住他

稻谷与小麦
2026-02-17 01:01:22
华裔政治家族,却遭特朗普清洗!特朗普如何扳倒“赵家人”?

华裔政治家族,却遭特朗普清洗!特朗普如何扳倒“赵家人”?

观察者海风
2026-01-20 15:14:58
公安部部署依法严厉打击涉烟犯罪

公安部部署依法严厉打击涉烟犯罪

财联社
2026-02-16 11:10:07
坐3.6亿飞机,戴1000万名表,拿5000万炒股的秦奋究竟什么背景

坐3.6亿飞机,戴1000万名表,拿5000万炒股的秦奋究竟什么背景

涵豆说娱
2026-01-19 17:21:55
金门两岸船只对峙,台当局态度强硬,27国施压解放军后退

金门两岸船只对峙,台当局态度强硬,27国施压解放军后退

星星会坠落
2026-01-26 14:14:33
朱雪梅出嫁3天,公公接受采访,结婚当日儿子没笑脸,原因曝光了

朱雪梅出嫁3天,公公接受采访,结婚当日儿子没笑脸,原因曝光了

喜欢历史的阿繁
2026-02-17 06:53:50
胜选后,高市迎来“坏消息”

胜选后,高市迎来“坏消息”

环球时报国际
2026-02-16 12:54:27
尴尬的国产汽车:销量创纪录,利润率却降至历史最低了!

尴尬的国产汽车:销量创纪录,利润率却降至历史最低了!

互联网.乱侃秀
2026-01-29 12:28:39
谁能想到她已经62了,说18都有人信,怎么做到这么好的状态的

谁能想到她已经62了,说18都有人信,怎么做到这么好的状态的

白宸侃片
2026-02-11 11:56:19
谷爱凌夺得米兰冬奥会自由式滑雪女子大跳台银牌

谷爱凌夺得米兰冬奥会自由式滑雪女子大跳台银牌

环球网资讯
2026-02-17 07:07:27
孙颖莎争议动作引爆十年恩怨,王曼昱未发声,真相震撼

孙颖莎争议动作引爆十年恩怨,王曼昱未发声,真相震撼

郭夷包工头
2026-02-16 18:33:19
客厅里“正消失”的8个设计,时代要淘汰你,招呼都不会打一声

客厅里“正消失”的8个设计,时代要淘汰你,招呼都不会打一声

装修秀
2026-02-16 10:35:03
顶级大花差点被噶在国外的瓜!

顶级大花差点被噶在国外的瓜!

香港内地文娱
2026-02-15 21:50:52
中国向全世界披露:美国4400颗卫星,包围中国空间站,这是要做啥

中国向全世界披露:美国4400颗卫星,包围中国空间站,这是要做啥

素衣读史
2026-01-17 18:35:57
娜扎透视裙惊艳全网!这身材这颜值,谁能顶得住?

娜扎透视裙惊艳全网!这身材这颜值,谁能顶得住?

娱乐领航家
2026-02-03 23:30:03
2026-02-17 08:00:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2224282文章数 5489关注度
往期回顾 全部

科技要闻

阿里除夕发布千问3.5,性能媲美Gemini 3

头条要闻

"王菲接了李谷一的班"上热搜 窦靖童发文"挖嘞个亲娘"

头条要闻

"王菲接了李谷一的班"上热搜 窦靖童发文"挖嘞个亲娘"

体育要闻

谷爱凌:'不小心"拿到了银牌 祝大家马年大吉

娱乐要闻

王菲六登春晚献唱 水滴钻石耳环再出圈

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

健康
教育
旅游
时尚
本地

转头就晕的耳石症,能开车上班吗?

教育要闻

高考红包发多少吉利?3类金额精准推荐!

旅游要闻

巨型“彩马”驰骋上海夜空 上千架无人机浪漫烟花交相辉映

记录最近收获很大的一次深度链接

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

无障碍浏览 进入关怀版