网易首页 > 网易号 > 正文 申请入驻

80万条数据揭示隐患:AI正在污染病历,你的诊疗数据越来越不靠谱

0
分享至

来源:市场资讯

(来源:机器之心Pro)


本研究是由新加坡国立大学刘钿渤组博士生何洪宇领衔、包括哈佛大学、斯坦福大学、耶鲁大学、谷歌公司、梅奥诊所等机构共同完成的,研究团队成员有医学 AI、放射学、临床医学等各方面的专家,具有很强的跨学科研究背景和临床实践经验。

随着生成式人工智能在医疗领域的加速渗透,越来越多的病历、影像报告及各类临床文本正逐步纳入 AI 参与生成的范畴。这一旨在提升医疗效率的技术革新背后,潜藏着威胁诊断安全性的深层隐患。

最近新加坡国立大学、哈佛大学、斯坦福大学等机构联合团队最新研究显示,当 AI 生成的临床文本被用作训练新一代 AI 模型时,一些罕见但是重要的病理信息会在数据迭代的过程中悄悄地消失,从而使得医疗 AI 整体诊断可靠性在群体上不断下降。

研究团队对临床文本生成、视觉-语言报告、医学图像合成这三个任务下的 80 多万条合成数据进行了系统的分析(如图 1 表示),首次证明了在没有强制性人工验证的情况下,多代自我训练循环会使病理多样性迅速消失,诊断可靠度急剧降低,并且医师评估也表明临床效用的退化。

最后研究团队提出了可以直接融入到目前临床工作流程中的缓解方法,在 AI 全面进入医疗之前给医生提供一条安全的操作路线。


图 1 人工智能生成的数据污染造成的病理多样性丧失、诊断安全性降低的现象以及缓解方法

现实困境:

医疗 AI 生成普及背后的隐形危机

人工智能正在改变全球医疗文档系统,大型语言模型已经被广泛地应用到临床报告、出院小结、电子健康档案等方面,AI 辅助诊断已经得到广泛的应用。但是其中隐藏的风险是,原来依靠人工建立起来的医疗数据库正在被大量的 AI 生成内容所取代,而且不断保存在诊疗记录中,从而成为下一代 AI 训练的数据来源,形成了一个「生成-训练-再生成」的自循环结构。

在其它领域,自我训练循环被证明会造成「模型退化」,也就是输出的多样性以及保真度会降低。而医学领域的特殊性使得该问题的危害更加严重。医学诊断很大程度上依靠罕见病、非典型临床表现、临床分布尾部细微异常等信息的轻微流失都会造成系统性诊断盲区,增加漏诊风险,加重医疗不公,影响疾病监测。更严重的是,目前医疗 AI 评价标准大多只看表面的语言质量,而没有考虑诊断的准确性,导致这样的模型和临床应用出现退化很难被常规监测到。

核心发现:

多种任务下性能全面退化,

虚假信心掩盖致命漏洞

研究团队对 216307 份放射学报告、790 份临床笔记、1000 份眼科病历和 9781 张胸部 X 线片进行了多任务实验,研究表明,AI 生成的数据污染造成模型性能退化甚至失效,并不是单一数据类型或者临床任务造成的,而是贯穿临床文本生成、视觉-语言放射学报告、医学图像合成这三个不同的真实临床任务,采用多种代表性模型架构开展实验并且各个任务都存在类似的退化逻辑,即自我训练循环造成病理多样性丧失、诊断可靠度降低,同时又被虚假的预测信心所掩盖。为评估研究结果的临床相关性,研究团队通过对人工智能生成输出进行结构化审查和编辑,并纳入了医师评估环节。


图 2 人工智能生成的数据污染导致临床笔记语言多样性丧失和临床知识退化

AI 生成的临床文本隐患:

词汇和知识的双重流失以及叙事的碎片化

研究团队首先用多种临床文档和人工智能模型架构,研究用合成临床文本进行自我训练会不会造成语言模型性能下降。图 2 结果表明经过四代自我训练之后,模型就会出现灾难性的退化。放射学报告中印象部分的词汇量由原来的 12078 个减少到现在的 200 个左右,减少了 98.9%;独特医学术语减少 66%,报告公式化趋势明显。类似的结论也可以用在更广泛的临床文书上,例如 790 份 i2b2 临床数据库。随着 AI 模型对于自身产生的合成数据的信心越来越大,但它所具有的真实医疗语言的能力却降低了到原来的四分之一,这给医疗人工智能的部署带来严重的风险,虚假的信心会掩盖患者文书记录中的重大失误。


图 3 人工智能生成的数据污染造成基于视觉-语言模型的放射学报告生成出现语言多样性的丧失和临床知识的退化

视觉-语言报告:

图像锚定失效,虚假安心率激增

人工智能在医学影像生成报告的时候,语言退化仍然会发生。研究使用了 Swin-Transformer、Llama-2 的视觉语言模型 R2GenGPT,用真实的胸部 X 线片做输入,只用合成报告来训练。图 3 结果说明即使有真实的图像,模型也会出现严重的退化,报告的唯一性从原来的 96.2% 下降到现在的 0.9%,词汇量从原来的 8186 个减少到现在的 94 个,减少了 98.9%。

更危险的是虚假的安心率急剧上升,当存在危及生命危险的病理情况时,「无急性发现」的错误比例从原来的 13.3% 上升到现在的 40.3%,但是模型本身的置信度很高,因此模型具有临床危险性的结果,不能满足患者的诊疗需求。


图 4 人工智能生成的数据污染给医学图像合成造成的视觉质量下降、病理表征失真和人口统计学偏差变大

医学图像合成:

出现质量退化、偏见放大、弱势人群代表性缺失

除此之外,人工智能生成的合成医学影像也越来越广泛地被用来进行研究、产品研发等,用以扩充训练数据集、实现隐私保护型的数据共享。但是当这些合成影像被用来训练后续的人工智能模型的时候,生成出来的影像很难体现真实患者人群的多样性,为了探究影像生成会不会出现和文本模型一样的退化模式,研究团队在多轮自我训练循环中,用胸部 X 光片来训练人工智能影像生成模型。从实验结果(图 4)可知,由于人工智能合成的数据污染而产生的视觉退化、病理表征扭曲以及人口统计学偏倚等都会被加重。

纳入医生评估环节,

提出三种策略解决 AI 生成困境

为了评价研究结果的临床相关性,对人工智能生成出来的输出做了结构化的审查和编辑,并且加入了医师评价的过程证实临床效用的退化。另外,研究团队对三种应对 AI 数据污染导致模型退化的策略进行了系统的验证,分别为真实数据混合训练为基本方案,当真实数据占比达到 75% 时,可以较好地保持病理的多样性、语言的保真度,从而有效地减少人口统计学偏差;质量感知过滤是在有限真实数据的基础上提高利用效率的一种方式,可以作为增效补充,但是不能代替高比例真实数据的作用;单纯扩增合成数据不仅无效,还会加快模型退化、加重性别偏见,数据数量不能弥补质量缺陷。

结论与展望

研究团队认为应该把数据溯源作为医疗 AI 部署的政策强制要求,实行强制的人工检验制度。仅仅依靠自愿监督是不够的,随着临床 AI 应用规模的扩大,严格的机械验证的经济可行性会越来越低,如果没有制度性的限制,医疗系统就会存在污染未来患者数字生理数据的风险。如果缺少政策强制的溯源机制,那么生成式 AI 部署后就会影响到它本身的医疗数据生态系统,进而引发安全问题。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
三野名将不听粟裕调遣,出言不逊后甩手离去,主席:立刻撤职 

三野名将不听粟裕调遣,出言不逊后甩手离去,主席:立刻撤职 

纪实文录
2025-05-10 17:45:35
马斯克:西方不搞电车,欧日韩集体拥抱氢能,中国电动车真的错了

马斯克:西方不搞电车,欧日韩集体拥抱氢能,中国电动车真的错了

史行途
2026-04-08 15:27:19
破案!卢鹏羽故意当裁判面撞翻张宁真正原因找到,球迷说出大实话

破案!卢鹏羽故意当裁判面撞翻张宁真正原因找到,球迷说出大实话

后仰大风车
2026-04-10 08:10:23
辛纳硬扛3小时窒息鏖战,法网冠军被拖到抽筋退场

辛纳硬扛3小时窒息鏖战,法网冠军被拖到抽筋退场

热血体育社
2026-04-10 11:59:53
女优玥伶揭麻豆传媒内幕逼演毁三观剧本:乱伦还涉未成年

女优玥伶揭麻豆传媒内幕逼演毁三观剧本:乱伦还涉未成年

孤独的独角兽影视
2026-04-10 10:10:16
73岁迟重瑞近况:卖故宫旁自家房子,均价15万,陈丽华嫁他好福气

73岁迟重瑞近况:卖故宫旁自家房子,均价15万,陈丽华嫁他好福气

一娱三分地
2026-02-19 17:04:30
《穿普拉达的女王2》海报撞脸《小时代》,网友:好差的美工,灾难级海报!

《穿普拉达的女王2》海报撞脸《小时代》,网友:好差的美工,灾难级海报!

品牌新
2026-04-08 16:38:02
拜仁造神运动引争议,英媒德媒隔空掐架

拜仁造神运动引争议,英媒德媒隔空掐架

茅塞盾开本尊
2026-04-10 12:44:50
郑丽文抵达北京,入住酒店与马英九待遇一致,两岸关系开启新时代

郑丽文抵达北京,入住酒店与马英九待遇一致,两岸关系开启新时代

徐慍解说
2026-04-10 08:33:48
43岁谢婷婷狂揽第5个网球冠军!小7岁男友曝光,顾家带娃全力托举

43岁谢婷婷狂揽第5个网球冠军!小7岁男友曝光,顾家带娃全力托举

阿凫爱吐槽
2026-04-10 12:46:56
台湾地区前领导人马英九:我不希望台湾成为第二个香港!

台湾地区前领导人马英九:我不希望台湾成为第二个香港!

时负相知
2026-04-10 10:38:17
上半年北京小客车指标资格审核结果公布,无车家庭积分本月发布

上半年北京小客车指标资格审核结果公布,无车家庭积分本月发布

新京报
2026-04-09 14:20:06
特朗普:所有美国舰船、飞机和军事人员将继续留在伊朗周围

特朗普:所有美国舰船、飞机和军事人员将继续留在伊朗周围

新京报
2026-04-09 12:12:05
惹了事还恶人先告状?眼见事闹大,巴拿马找补:无意与中国摩擦

惹了事还恶人先告状?眼见事闹大,巴拿马找补:无意与中国摩擦

清沐执笔
2026-04-10 12:54:10
张雪终于把碎屏手机换了!用上荣耀折叠屏手机 竖大拇指:好轻啊

张雪终于把碎屏手机换了!用上荣耀折叠屏手机 竖大拇指:好轻啊

念洲
2026-04-10 08:41:40
教育部:人工智能将纳入教师资格考试和认证内容

教育部:人工智能将纳入教师资格考试和认证内容

界面新闻
2026-04-10 10:11:27
俄寡头:普京将在一月内对乌发动核打击,发射一枚2万吨当量核弹

俄寡头:普京将在一月内对乌发动核打击,发射一枚2万吨当量核弹

梁濆爱玩车
2026-04-09 16:04:48
军事专家戴旭:目前世界没有一个国家,在军事方面,敢和我们较量

军事专家戴旭:目前世界没有一个国家,在军事方面,敢和我们较量

音乐时光的娱乐
2026-04-10 00:23:22
26582辆!鸿蒙智行3月销量数据曝光

26582辆!鸿蒙智行3月销量数据曝光

鞭牛士
2026-04-09 20:31:06
盛李豪世界杯西班牙站连夺两金:比拼技术很有意思

盛李豪世界杯西班牙站连夺两金:比拼技术很有意思

体坛周报
2026-04-10 09:51:31
2026-04-10 13:36:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2819629文章数 6527关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

牛弹琴:巴基斯坦被以色列激怒了 这是一个不祥的信号

头条要闻

牛弹琴:巴基斯坦被以色列激怒了 这是一个不祥的信号

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

夏克立婚内出轨 曾参加《爸爸去哪儿》

财经要闻

爱尔眼科一院长被指猥亵 总部:已被停职

汽车要闻

全新一代理想 L8 五座旗舰+5C增程系统 三季度交付

态度原创

时尚
家居
旅游
艺术
公开课

直播|| 春夏百元级首饰,最爱逛的一定有他家!

家居要闻

复古风格 自然简约

旅游要闻

圈占百年祖坟,景区开发不能断了后人祭祖的路丨中听

艺术要闻

于小冬2026年4月油画新作《花季》

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版