网易首页 > 网易号 > 正文 申请入驻

80万条数据揭示隐患:AI正在污染病历,你的诊疗数据越来越不靠谱

0
分享至



本研究是由新加坡国立大学刘钿渤组博士生何洪宇领衔、包括哈佛大学、斯坦福大学、耶鲁大学、谷歌公司、梅奥诊所等机构共同完成的,研究团队成员有医学 AI、放射学、临床医学等各方面的专家,具有很强的跨学科研究背景和临床实践经验。

随着生成式人工智能在医疗领域的加速渗透,越来越多的病历、影像报告及各类临床文本正逐步纳入 AI 参与生成的范畴。这一旨在提升医疗效率的技术革新背后,潜藏着威胁诊断安全性的深层隐患。

最近新加坡国立大学、哈佛大学、斯坦福大学等机构联合团队最新研究显示,当 AI 生成的临床文本被用作训练新一代 AI 模型时,一些罕见但是重要的病理信息会在数据迭代的过程中悄悄地消失,从而使得医疗 AI 整体诊断可靠性在群体上不断下降。

研究团队对临床文本生成、视觉-语言报告、医学图像合成这三个任务下的 80 多万条合成数据进行了系统的分析(如图 1 表示),首次证明了在没有强制性人工验证的情况下,多代自我训练循环会使病理多样性迅速消失,诊断可靠度急剧降低,并且医师评估也表明临床效用的退化。

最后研究团队提出了可以直接融入到目前临床工作流程中的缓解方法,在 AI 全面进入医疗之前给医生提供一条安全的操作路线。

  • 论文标题:AI-generated data contamination erodes pathological variability and diagnostic reliability
  • 论文链接:https://arxiv.org/abs/2601.12946



图 1 人工智能生成的数据污染造成的病理多样性丧失、诊断安全性降低的现象以及缓解方法

现实困境:

医疗 AI 生成普及背后的隐形危机

人工智能正在改变全球医疗文档系统,大型语言模型已经被广泛地应用到临床报告、出院小结、电子健康档案等方面,AI 辅助诊断已经得到广泛的应用。但是其中隐藏的风险是,原来依靠人工建立起来的医疗数据库正在被大量的 AI 生成内容所取代,而且不断保存在诊疗记录中,从而成为下一代 AI 训练的数据来源,形成了一个「生成-训练-再生成」的自循环结构。

在其它领域,自我训练循环被证明会造成「模型退化」,也就是输出的多样性以及保真度会降低。而医学领域的特殊性使得该问题的危害更加严重。医学诊断很大程度上依靠罕见病、非典型临床表现、临床分布尾部细微异常等信息的轻微流失都会造成系统性诊断盲区,增加漏诊风险,加重医疗不公,影响疾病监测。更严重的是,目前医疗 AI 评价标准大多只看表面的语言质量,而没有考虑诊断的准确性,导致这样的模型和临床应用出现退化很难被常规监测到。

核心发现:

多种任务下性能全面退化,

虚假信心掩盖致命漏洞

研究团队对 216307 份放射学报告、790 份临床笔记、1000 份眼科病历和 9781 张胸部 X 线片进行了多任务实验,研究表明,AI 生成的数据污染造成模型性能退化甚至失效,并不是单一数据类型或者临床任务造成的,而是贯穿临床文本生成、视觉-语言放射学报告、医学图像合成这三个不同的真实临床任务,采用多种代表性模型架构开展实验并且各个任务都存在类似的退化逻辑,即自我训练循环造成病理多样性丧失、诊断可靠度降低,同时又被虚假的预测信心所掩盖。为评估研究结果的临床相关性,研究团队通过对人工智能生成输出进行结构化审查和编辑,并纳入了医师评估环节。



图 2 人工智能生成的数据污染导致临床笔记语言多样性丧失和临床知识退化

AI 生成的临床文本隐患:

词汇和知识的双重流失以及叙事的碎片化

研究团队首先用多种临床文档和人工智能模型架构,研究用合成临床文本进行自我训练会不会造成语言模型性能下降。图 2 结果表明经过四代自我训练之后,模型就会出现灾难性的退化。放射学报告中印象部分的词汇量由原来的 12078 个减少到现在的 200 个左右,减少了 98.9%;独特医学术语减少 66%,报告公式化趋势明显。类似的结论也可以用在更广泛的临床文书上,例如 790 份 i2b2 临床数据库。随着 AI 模型对于自身产生的合成数据的信心越来越大,但它所具有的真实医疗语言的能力却降低了到原来的四分之一,这给医疗人工智能的部署带来严重的风险,虚假的信心会掩盖患者文书记录中的重大失误。



图 3 人工智能生成的数据污染造成基于视觉-语言模型的放射学报告生成出现语言多样性的丧失和临床知识的退化

视觉-语言报告:

图像锚定失效,虚假安心率激增

人工智能在医学影像生成报告的时候,语言退化仍然会发生。研究使用了 Swin-Transformer、Llama-2 的视觉语言模型 R2GenGPT,用真实的胸部 X 线片做输入,只用合成报告来训练。图 3 结果说明即使有真实的图像,模型也会出现严重的退化,报告的唯一性从原来的 96.2% 下降到现在的 0.9%,词汇量从原来的 8186 个减少到现在的 94 个,减少了 98.9%。

更危险的是虚假的安心率急剧上升,当存在危及生命危险的病理情况时,「无急性发现」的错误比例从原来的 13.3% 上升到现在的 40.3%,但是模型本身的置信度很高,因此模型具有临床危险性的结果,不能满足患者的诊疗需求。



图 4 人工智能生成的数据污染给医学图像合成造成的视觉质量下降、病理表征失真和人口统计学偏差变大

医学图像合成:

出现质量退化、偏见放大、弱势人群代表性缺失

除此之外,人工智能生成的合成医学影像也越来越广泛地被用来进行研究、产品研发等,用以扩充训练数据集、实现隐私保护型的数据共享。但是当这些合成影像被用来训练后续的人工智能模型的时候,生成出来的影像很难体现真实患者人群的多样性,为了探究影像生成会不会出现和文本模型一样的退化模式,研究团队在多轮自我训练循环中,用胸部 X 光片来训练人工智能影像生成模型。从实验结果(图 4)可知,由于人工智能合成的数据污染而产生的视觉退化、病理表征扭曲以及人口统计学偏倚等都会被加重。

纳入医生评估环节,

提出三种策略解决 AI 生成困境

为了评价研究结果的临床相关性,对人工智能生成出来的输出做了结构化的审查和编辑,并且加入了医师评价的过程证实临床效用的退化。另外,研究团队对三种应对 AI 数据污染导致模型退化的策略进行了系统的验证,分别为真实数据混合训练为基本方案,当真实数据占比达到 75% 时,可以较好地保持病理的多样性、语言的保真度,从而有效地减少人口统计学偏差;质量感知过滤是在有限真实数据的基础上提高利用效率的一种方式,可以作为增效补充,但是不能代替高比例真实数据的作用;单纯扩增合成数据不仅无效,还会加快模型退化、加重性别偏见,数据数量不能弥补质量缺陷。

结论与展望

研究团队认为应该把数据溯源作为医疗 AI 部署的政策强制要求,实行强制的人工检验制度。仅仅依靠自愿监督是不够的,随着临床 AI 应用规模的扩大,严格的机械验证的经济可行性会越来越低,如果没有制度性的限制,医疗系统就会存在污染未来患者数字生理数据的风险。如果缺少政策强制的溯源机制,那么生成式 AI 部署后就会影响到它本身的医疗数据生态系统,进而引发安全问题。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中央定调!养老金22连涨稳了,今年涨幅真的和你想的不一样

中央定调!养老金22连涨稳了,今年涨幅真的和你想的不一样

开心美食白科
2026-04-14 14:24:54
外媒发布欧冠历史最强阵容!皇马7人霸榜让这份全明星毫无公平?

外媒发布欧冠历史最强阵容!皇马7人霸榜让这份全明星毫无公平?

体坛八点半的那些事儿
2026-04-14 20:58:16
5月1日教育部新政落地,中小学生将打破“内卷”,家长:太给力了

5月1日教育部新政落地,中小学生将打破“内卷”,家长:太给力了

复转这些年
2026-04-14 12:11:40
章子怡新电影路透照,穿灰衬衫戴眼镜素颜出镜,网友:完全认不出

章子怡新电影路透照,穿灰衬衫戴眼镜素颜出镜,网友:完全认不出

悠悠说世界
2026-04-14 10:07:26
最高院:合同所盖公章真实但法定代表人签字伪造的,合同有效吗?

最高院:合同所盖公章真实但法定代表人签字伪造的,合同有效吗?

周军律师聊案子
2026-04-14 09:09:04
曾被吹上天的6个网红设计,全是智商税,网友吐槽:确实很垃圾

曾被吹上天的6个网红设计,全是智商税,网友吐槽:确实很垃圾

室内设计师有料儿
2026-04-14 09:15:21
又一知名演员去世

又一知名演员去世

无锡eTV全媒体
2026-04-14 05:53:10
疯狂特赦!特朗普这操作把全美看傻了

疯狂特赦!特朗普这操作把全美看傻了

李荣茂
2026-04-14 18:59:59
北约和多个国家支持美国封锁霍尔木兹海峡

北约和多个国家支持美国封锁霍尔木兹海峡

一种观点
2026-04-13 15:34:58
使馆回应中国女子在堪培拉遭陌生人殴打:要求澳警方彻查案件

使馆回应中国女子在堪培拉遭陌生人殴打:要求澳警方彻查案件

南方都市报
2026-04-14 17:07:26
外交部:藏南地区是中国领土,中方从不承认所谓“阿鲁纳恰尔邦”

外交部:藏南地区是中国领土,中方从不承认所谓“阿鲁纳恰尔邦”

澎湃新闻
2026-04-14 15:34:26
一次管两天的他达拉非,常吃会伤身体?牢记5个要点,用药更安心

一次管两天的他达拉非,常吃会伤身体?牢记5个要点,用药更安心

新时代的两性情感
2026-04-14 18:30:58
他被打一拳,半个头骨没了!7年生不如死,凶手只判15个月...这?!

他被打一拳,半个头骨没了!7年生不如死,凶手只判15个月...这?!

英国那些事儿
2026-04-13 23:16:27
美国对伊朗实施海上封锁,前国务卿布林肯:美国的选择正将自己逼入困境

美国对伊朗实施海上封锁,前国务卿布林肯:美国的选择正将自己逼入困境

上观新闻
2026-04-14 13:04:14
5天点6家外卖全“吃出蟑螂”?北京警方:刑拘!

5天点6家外卖全“吃出蟑螂”?北京警方:刑拘!

环球网资讯
2026-04-14 20:06:10
王菲的两助理都挺漂亮的,她们当她的助理,一月工资得多少啊

王菲的两助理都挺漂亮的,她们当她的助理,一月工资得多少啊

手工制作阿歼
2026-04-14 08:58:13
副驾没人坐也会被罚?5月起严查这3种情况,3分200元直接扣

副驾没人坐也会被罚?5月起严查这3种情况,3分200元直接扣

小怪吃美食
2026-04-14 07:51:31
回京第二天,马筱梅凌晨3点哭红双眼,曝为何汪宝儿不能住奶奶家

回京第二天,马筱梅凌晨3点哭红双眼,曝为何汪宝儿不能住奶奶家

混沌录
2026-04-14 20:38:06
峰学未来小郭老师泪洒直播间,哭到泣不成声,直言现在太难了

峰学未来小郭老师泪洒直播间,哭到泣不成声,直言现在太难了

东方不败然多多
2026-04-14 00:47:56
活久见!网传重庆全女健身房生意火爆,限女性顾客和男性教练进去

活久见!网传重庆全女健身房生意火爆,限女性顾客和男性教练进去

火山詩话
2026-04-13 09:18:54
2026-04-14 21:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12762文章数 142628关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

54岁班主任带15岁女孩到宾馆开房猥亵:将她压到床上

头条要闻

54岁班主任带15岁女孩到宾馆开房猥亵:将她压到床上

体育要闻

带出中超最大黑马!他让球迷们“排队道歉”

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

许家印认罪,他和恒大还有多少欠债?

汽车要闻

售12.99万起/续航2000km 风云T9L上市

态度原创

游戏
数码
手机
本地
公开课

沐瞳的第一款二游似乎按下了“暂停键”

数码要闻

OPPO Pad 5 Pro旗舰配置官曝,悬浮键盘确认配备全域压感触控板

手机要闻

苹果iOS 26.4现Bug:捷克语键盘缺失字符致用户无法解锁手机

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版