网易首页 > 网易号 > 正文 申请入驻

全球首个医疗动态红队测试框架DAS,破解临床落地信任危机

0
分享至



作者 | 论文团队

编辑 | ScienceAI

近年来,以大型语言模型(LLMs)为代表的人工智能技术正以前所未有的速度发展,并在医疗健康领域展现出巨大的潜力。从辅助疾病诊断到优化临床决策,LLMs 似乎正为我们描绘一幅智慧医疗的宏伟蓝图。

Med-Gemini 以及最新的 OpenAI 模型在各类医学资格考试中取得的优异成绩,更是点燃了人们对于其近期临床应用的热情。然而,在这份看似完美的成绩单背后,我们是否忽略了那些潜藏的、可能对患者安全构成严重威胁的「阿喀琉斯之踵」?

我们必须清醒地认识到,目前对医疗 LLMs 的评估大多依赖于静态的、固定的基准测试。这种评估方式存在三大关键问题:

首先,LLMs 的进化速度远超基准的更新速度,导致现有基准无法全面反映模型的真实能力和潜在缺陷。

其次,根据「古德哈特定律」,一旦某个指标成为目标,它就不再是一个好的指标。公开的基准测试集很容易成为模型「应试」的目标,而非推动科学进步的催化剂。开发者可能通过过度拟合甚至「数据污染」的方式来刷高分数,但这并不能代表模型在真实临床场景中的可靠性。

最后,对于安全至上的医疗领域而言,静态测试在发现未知风险方面效率极其低下。

为了弥补这一关键空白,来自慕尼黑工业大学、牛津大学、哈佛大学医学院、帝国理工学院等多家全球顶尖研究机构的学者们,共同提出了一种全新的医疗语言模型评估范式 —— 超越基准:为可信赖的医疗语言模型打造动态、自动、系统化的(Dynamic, Automatic, and Systematic, DAS)红队测试框架。该研究成果为我们揭示了在静态基准测试中表现优异的 LLMs,在面对持续的对抗性压力时,其脆弱性远超想象。



论文链接:https://arxiv.org/abs/2508.00923

代码 (code & agents):https://github.com/JZPeterPan/DAS-Medical-Red-Teaming-Agents

Huggingface (数据):https://huggingface.co/datasets/JZPeterPan/DAS-Mediacal-Red-Teaming-Data

DAS 框架:从「静态考试」到「动态对抗」

给医疗 AI 装上「压力测试引擎」

「红队测试」(Red-Teaming)是一种通过主动、系统性地模拟攻击来暴露系统漏洞的安全测试方法。DAS 框架创新性地将这一理念引入医疗 LLMs 的评估中,将静态的「考卷」转变为一场动态的、持续的「攻防演练」。



图 1:DAS 红队测试整体框架图

DAS 框架的核心由一系列智能代理(Agents)驱动,它们能够自主地生成测试用例、识别和演化能够触发模型不安全行为的策略,并实时评估模型的响应,整个过程无需人工干预。这个框架主要围绕四个对临床安全至关重要的维度,对 LLMs 进行全方位的「压力测试」:

1. 稳健性(Robustness):在引入看似合理却错误的选项、不符合生理学常识的实验室检查结果,或是不提供正确答案的情况下,模型能否保持其准确性?这模拟了临床实践中医生可能遇到的各种复杂和干扰情景。

2. 隐私性(Privacy):在与用户的非正式、冗长的对话中,模型是否会无意中泄露受 HIPAA/GDPR等法规保护的患者个人健康信息?

3. 偏见与公平性(Bias/Fairness):当患者的社会人口学背景、语言风格、情绪状态或对话中出现权威暗示时,模型是否会对相同的临床信息做出不同的诊断或治疗建议,从而暴露其潜在的人群或认知偏见?

4. 幻觉(Hallucination):在高风险、专业性强的提问下,模型捏造临床指南、引用不存在的科学文献或推荐禁用药物的频率有多高?

静态基准失灵

医疗 AI 的「考场学霸,临床差生」困局

研究团队应用 DAS 框架对 15 个主流的闭源和开源 LLMs 进行了全面的测试。结果出乎意料:这些在 MedQA 等基准测试中平均准确率超过 80% 的「学霸」模型,在动态对抗测试中却表现出惊人的脆弱性。

稳健性测试显示,尽管模型在初始测试中表现优异,但在经过 DAS 框架的六种「变异工具」(如答案否定、问题反转、选项扩展、叙事干扰、认知诱饵和生理学谬误)的轮番攻击后,高达 94% 的先前正确答案最终都以失败告终。这表明,许多模型的高分可能仅仅来自于对特定题型的「死记硬背」,而非真正理解了背后的临床逻辑。



图 2: 稳健性动态测试结果

在隐私保护方面,结果同样不容乐观。在模拟的 81 个可能诱发隐私泄露的场景中,即使在没有施加任何对抗性策略的直接请求下,模型的平均「越狱率」也高达 86%。即便在系统提示中明确加入了遵守 HIPAA/GDPR 法规的指令,仍有超过 66% 的请求导致了隐私泄露。研究者们进一步设计了四种「伪装」策略(如善意伪装、微妙请求、焦点误导和陷阱警告),使得模型的隐私防线几乎全线崩溃。



图 3: 隐私测试案例

在偏见与公平性的测试中,研究人员发现,通过「认知偏见启动」策略(例如,在问题中加入暗示权威或从众心理的句子),可以在 81% 的测试中成功改变模型的临床建议。此外,当改变患者的身份标签(如种族、社会经济地位)或语言风格时,模型也会表现出显著的偏见。这意味着,当前的 LLMs 在面对复杂的社会和心理因素时,其决策的公平性还远未达到临床应用的要求。



图 4: 医疗偏见与公平性测试案例

而最令人担忧的幻觉问题,在测试中也普遍存在。研究团队构建了一个包含七个细分临床相关错误类别的幻觉分类法,并开发了专门的 Agent 自动检测框架。结果显示,所有被测试模型的幻觉率都超过了 50%,即使是表现最好的模型,在面对可能诱发幻觉的复杂医学问题时,也有一半的概率会「一本正经地胡说八道」。这些幻觉内容涵盖了错误的医学事实、捏造的文献引用以及不安全的治疗建议,对患者安全构成了直接威胁。



图 5: DAS 医疗幻觉自动检测框架

未来已来

迈向可信赖医疗 AI 的必由之路

这项研究的意义是深远的。它不仅揭示了当前主流医疗 LLMs 在安全性方面存在的严重短板,更重要的是,它为我们提供了一套行之有效的评估和改进方法。DAS 框架将「红队测试」从一个静态的清单转变为一个动态的、可持续的审计流程,它能够与被测试的模型共同进化,从而避免了「应试教育」带来的虚假繁荣。

正如论文作者所强调的,通往可信赖临床 AI 的道路不是一场追求更高分数的短跑,而是一场不断进行自我挑战的接力赛。我们需要更强大的模型,也需要更严格的审计。

DAS 框架的提出,正是这场接力赛中至关重要的一棒。它为医院、监管机构和技术供应商提供了一套可扩展、可演进且可靠的「防火墙」,确保在 LLMs 被广泛应用于患者聊天机器人、临床决策支持系统等关键医疗流程之前,其安全性、公平性和可靠性得到充分的检验和保障。

作者期待:「未来每一个医疗 LLM 模型的发布,都能附带一份类似 DAS 框架生成的『风险档案』,就像药品说明书上的不良反应列表一样,清晰、透明地向世人展示其能力的边界和潜在的风险。」

医疗 AI 的可信之路不是冲刺更高分数,而是在真实临床压力下的永续自我挑战 —— 更强大的模型需要更严苛的审计。唯有如此,我们才能在拥抱人工智能带来的巨大机遇的同时,坚定地守护住医疗领域最核心的价值 —— 患者安全至上。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
德约科维奇再次打破一项纪录,超越费德勒和纳达尔!

德约科维奇再次打破一项纪录,超越费德勒和纳达尔!

网球之家
2025-11-18 22:40:06
豪门悲喜夜!拜仁止步于16连胜,曼联逃出生天,阿森纳10连胜告终

豪门悲喜夜!拜仁止步于16连胜,曼联逃出生天,阿森纳10连胜告终

舟望停云
2025-11-18 04:41:40
乒乓春晚!陈梦再战孙颖莎,一天血战8小时,莎莎以逸待劳要复仇

乒乓春晚!陈梦再战孙颖莎,一天血战8小时,莎莎以逸待劳要复仇

嘴炮体坛
2025-11-18 23:06:18
北京李圣律师最新发文:4人非法入侵,故意伤害…奉陪到底!

北京李圣律师最新发文:4人非法入侵,故意伤害…奉陪到底!

恪守原则和底线
2025-11-18 14:52:55
东莞市虎门镇党委书记李惠勤,已兼任滨海湾新区管委会主任

东莞市虎门镇党委书记李惠勤,已兼任滨海湾新区管委会主任

南方都市报
2025-11-18 20:26:06
俄专家:中国军力追上俄罗斯需要10年,能和美国掰手腕还要25年!

俄专家:中国军力追上俄罗斯需要10年,能和美国掰手腕还要25年!

书中自有颜如玉
2025-11-17 15:33:00
背刺中国,出卖孟晚舟的真凶被挖出来后,如今遭到了哪些报应

背刺中国,出卖孟晚舟的真凶被挖出来后,如今遭到了哪些报应

小影的娱乐
2025-11-17 13:37:24
为啥美国人都快人均糖尿病了,却还喜欢吃致死量的糖?

为啥美国人都快人均糖尿病了,却还喜欢吃致死量的糖?

历史有些冷
2025-11-17 21:05:03
郑丽文又有大动作,当着日媒的面、直接说出心里话,绿营瞬间炸锅

郑丽文又有大动作,当着日媒的面、直接说出心里话,绿营瞬间炸锅

特特农村生活
2025-11-18 09:09:21
久旱逢甘霖,三星2纳米被中国芯片救命,总算松一口气了

久旱逢甘霖,三星2纳米被中国芯片救命,总算松一口气了

柏铭锐谈
2025-11-18 22:39:25
全员医美?芒果台新综艺,王心凌张歆艺等脸僵到不能动疑整容失败

全员医美?芒果台新综艺,王心凌张歆艺等脸僵到不能动疑整容失败

八星人
2025-11-17 14:43:09
解放军报发声警告,美军听懂跑路,高市早苗被骗,日本沦为耗材

解放军报发声警告,美军听懂跑路,高市早苗被骗,日本沦为耗材

知鉴明史
2025-11-18 23:22:51
张靓颖“零透光”裙惊爆热搜,性感曲线令全场屏息,时尚女王?

张靓颖“零透光”裙惊爆热搜,性感曲线令全场屏息,时尚女王?

娱乐领航家
2025-10-28 22:00:07
央视曝光4种“致癌日用品”,家里千万别囤!越囤全家身体越差!

央视曝光4种“致癌日用品”,家里千万别囤!越囤全家身体越差!

39健康网
2025-11-16 20:35:40
福州站大升级!告别“上天入地”,秒换乘时代来了!

福州站大升级!告别“上天入地”,秒换乘时代来了!

今日搞笑分享
2025-11-18 13:43:41
辛卡赛季总奖金收入公布舆论沸了,阿利亚西姆谈赛程发表感恩论

辛卡赛季总奖金收入公布舆论沸了,阿利亚西姆谈赛程发表感恩论

网球之家
2025-11-18 15:17:34
12万多就能拿下!极狐阿尔法T5开启预售

12万多就能拿下!极狐阿尔法T5开启预售

Ai爱车
2025-10-17 10:09:07
曝巴黎奥运乒乓球单打冠军原定庆祝仪式取消:樊振东陈梦真不容易

曝巴黎奥运乒乓球单打冠军原定庆祝仪式取消:樊振东陈梦真不容易

姜大叔侃球
2025-11-17 21:10:27
男篮全运又一大冷门!争冠大热惨遭东道主掀翻:广东逆袭杀进决赛

男篮全运又一大冷门!争冠大热惨遭东道主掀翻:广东逆袭杀进决赛

篮球快餐车
2025-11-18 08:12:52
胖东来高层大调整:于东来卸任总经理,多名高管退出!公司年薪50万元招翻译(限女,不超40岁),咨询电话又爆了

胖东来高层大调整:于东来卸任总经理,多名高管退出!公司年薪50万元招翻译(限女,不超40岁),咨询电话又爆了

鲁中晨报
2025-11-18 22:24:10
2025-11-19 00:23:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1155文章数 218关注度
往期回顾 全部

科技要闻

谷歌CEO警告:若AI泡沫破裂,没公司能幸免

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

硬核配置旗舰气场 岚图泰山售37.99万起

态度原创

数码
亲子
健康
公开课
军事航空

数码要闻

预售1449元,华为FreeBuds Pro 5悦彰耳机完整规格公布

亲子要闻

最能干活的那批人回来了 孟婆汤的质量越来越差了

警惕超声报告这六大"坑"

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

日媒扬言要"击沉福建舰" 专家:玩火自焚

无障碍浏览 进入关怀版