网易首页 > 网易号 > 正文 申请入驻

机器学习模型部署需超越聚合指标评估

0
分享至


MIT研究人员发现,当机器学习模型应用于训练数据之外的新数据时,会出现重大失效问题,这表明在新环境中部署模型时需要进行充分测试。

"我们证明了即使在大量数据上训练模型并选择最佳平均模型,在新环境中这个'最佳模型'可能对6%-75%的新数据表现最差,"MIT电气工程与计算机科学系副教授Marzyeh Ghassemi说道。她同时也是医学工程与科学研究所成员和信息决策系统实验室首席研究员。

在2025年12月神经信息处理系统会议上发表的论文中,研究人员指出,在一家医院训练的胸部X光疾病诊断模型,平均而言可能在另一家医院被认为是有效的。然而,研究人员的性能评估显示,在第一家医院表现最佳的一些模型,在第二家医院多达75%的患者中表现最差,尽管当汇总第二家医院所有患者数据时,高平均性能掩盖了这种失效。

研究发现揭示了虚假关联问题。虚假关联的一个简单例子是,机器学习系统由于没有"见过"许多在海滩拍摄的奶牛照片,仅仅因为背景就将海滩奶牛的照片分类为鲸鱼。虽然人们认为通过提高模型在观察数据上的性能可以缓解虚假关联,但实际上这些问题仍然存在,并对模型在新环境中的可信度构成风险。在许多情况下,包括研究人员检查的胸部X光、癌症组织病理学图像和仇恨言论检测等领域,这种虚假关联更难检测。

以在胸部X光上训练的医疗诊断模型为例,该模型可能学会将一家医院X光片上特定的无关标记与某种病理相关联。在不使用该标记的另一家医院,可能会漏诊该病理。

Ghassemi团队之前的研究表明,模型可能虚假关联年龄、性别和种族等因素与医学发现。例如,如果模型在更多患有肺炎的老年人胸部X光上训练,而没有"看到"足够多年轻人的X光片,它可能预测只有老年患者会患肺炎。

"我们希望模型学会观察患者的解剖特征,然后基于此做出决定,"MIT博士后、论文第一作者Olawale Salaudeen说,"但实际上数据中任何与决策相关的因素都可能被模型使用。这些关联在环境变化时可能不够稳健,使模型预测成为不可靠的决策来源。"

虚假关联加剧了偏见决策的风险。在NeurIPS会议论文中,研究人员显示,例如提高整体诊断性能的胸部X光模型,在患有胸膜疾病或心脏纵隔增大(即心脏或胸腔中央扩大)的患者中实际表现更差。

论文其他作者包括博士生Haoran Zhang和Kumail Alhamoud、电气工程与计算机科学系助理教授Sara Beery以及Ghassemi。

虽然之前的工作普遍接受按性能从最佳到最差排序的模型在新环境中应用时会保持该顺序(称为准确性在线),但研究人员能够证明在一个环境中表现最佳的模型在另一个环境中表现最差的例子。

Salaudeen设计了一个名为OODSelect的算法来发现准确性在线被打破的例子。基本上,他使用分布内数据(即来自第一个环境的数据)训练了数千个模型并计算其准确性。然后将模型应用于来自第二个环境的数据。当那些在第一环境数据上准确性最高的模型应用于第二环境大部分样本时出错,这就识别出了问题子集或子群体。Salaudeen还强调了聚合统计评估的危险性,这可能掩盖关于模型性能更细粒度和更重要的信息。

在研究过程中,研究人员分离出"最误算的例子",以免将数据集内的虚假关联与简单难以分类的情况混淆。

NeurIPS论文发布了研究人员的代码和一些识别的子集供未来工作使用。

一旦医院或任何使用机器学习的组织识别出模型表现不佳的子集,该信息可用于改进模型在特定任务和环境中的表现。研究人员建议未来工作采用OODSelect以突出评估目标并设计更一致地改进性能的方法。

"我们希望发布的代码和OODSelect子集成为一个踏脚石,"研究人员写道,"朝着面对虚假关联不良影响的基准和模型迈进。"

Q&A

Q1:什么是虚假关联?为什么会影响机器学习模型?

A:虚假关联是指机器学习模型错误地将无关因素与目标结果关联起来。例如,模型可能将医院X光片上的特定标记与某种疾病关联,但该标记实际上与疾病无关。这会导致模型在新环境中失效,因为这些关联在不同环境中可能不存在。

Q2:OODSelect算法是如何工作的?

A:OODSelect算法通过训练数千个模型并测试它们在不同环境中的表现来识别问题。首先在原始数据上训练模型并计算准确性,然后将这些模型应用到新环境的数据上。当原本表现最佳的模型在新环境中大部分数据上表现最差时,就能识别出存在虚假关联的问题子集。

Q3:如何解决机器学习模型的虚假关联问题?

A:研究人员建议使用OODSelect等工具识别模型表现不佳的特定子群体,然后针对这些问题区域改进模型。此外,不应仅依赖聚合指标评估模型,而要进行更细粒度的性能分析。在部署到新环境前,必须对模型进行充分测试以发现潜在的虚假关联问题。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
萨尔加多:贝克汉姆当年每天都找我出门,我妻子为此很生气

萨尔加多:贝克汉姆当年每天都找我出门,我妻子为此很生气

懂球帝
2026-01-22 11:22:52
荷兰足协回应“可能退出2026世界杯”传闻:一切以FIFA指示为准

荷兰足协回应“可能退出2026世界杯”传闻:一切以FIFA指示为准

星耀国际足坛
2026-01-22 22:31:12
王鹤棣妈妈的油炸店确认转让,棣爸回应:照顾儿子,没办法兼顾生意

王鹤棣妈妈的油炸店确认转让,棣爸回应:照顾儿子,没办法兼顾生意

封面新闻
2026-01-22 16:01:04
性商教母,被封号!

性商教母,被封号!

微微热评
2026-01-23 00:25:55
清华大学公示:邱某某、吴某某同学,拟被退学处理

清华大学公示:邱某某、吴某某同学,拟被退学处理

新京报政事儿
2026-01-22 22:41:33
“32岁程序员周末晕倒猝死”妻子再发声:丈夫经常被反复催促才下班,出事前两人正备孕

“32岁程序员周末晕倒猝死”妻子再发声:丈夫经常被反复催促才下班,出事前两人正备孕

极目新闻
2026-01-22 20:34:10
孙开连,当选副部级新职!贵州省委常委、贵阳市委书记胡忠雄,获增补新职!

孙开连,当选副部级新职!贵州省委常委、贵阳市委书记胡忠雄,获增补新职!

观星赏月
2026-01-23 07:36:29
19投16中,爆砍40+11+7,抱歉东契奇:你的MVP悬了

19投16中,爆砍40+11+7,抱歉东契奇:你的MVP悬了

篮球大视野
2026-01-22 16:14:19
炸裂!曼联砸 1.2 亿欧报价皇马巨星,卡塞米罗最佳接班人落位

炸裂!曼联砸 1.2 亿欧报价皇马巨星,卡塞米罗最佳接班人落位

澜归序
2026-01-23 05:09:44
双色球010期开奖:三等奖井喷6千注,99倍哥颗粒无收

双色球010期开奖:三等奖井喷6千注,99倍哥颗粒无收

王晓爱体彩
2026-01-23 00:00:01
世界级铁矿首船矿石直抵中国!澳巴垄断被破,美西方铁矿石霸权的噩梦来了!

世界级铁矿首船矿石直抵中国!澳巴垄断被破,美西方铁矿石霸权的噩梦来了!

华山穹剑
2026-01-22 20:13:41
巴黎这一夜,中日韩小鲜肉个个“帅气逼人”,却被63岁梁朝伟惊艳

巴黎这一夜,中日韩小鲜肉个个“帅气逼人”,却被63岁梁朝伟惊艳

冷紫葉
2026-01-22 19:19:35
有中国公民被“上海浦西分局的警官”骗了!中领馆紧急提醒:上海并无浦西区

有中国公民被“上海浦西分局的警官”骗了!中领馆紧急提醒:上海并无浦西区

上观新闻
2026-01-22 11:27:18
36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

释凡电影
2025-08-14 09:33:19
全都跑不掉!背人命债、逼儿媳吃剩饭,闫学晶露面后又牵出一大佬

全都跑不掉!背人命债、逼儿媳吃剩饭,闫学晶露面后又牵出一大佬

李橑在北漂
2026-01-22 21:13:18
上映5天票房1100万,吴京投资的新片再次被影迷抛弃,亏本成定局

上映5天票房1100万,吴京投资的新片再次被影迷抛弃,亏本成定局

八卦南风
2026-01-22 11:36:53
无意之中和亲戚谈恋爱是啥体验?网友:近亲不能结婚,建议五代外

无意之中和亲戚谈恋爱是啥体验?网友:近亲不能结婚,建议五代外

解读热点事件
2025-12-29 01:45:30
中方已做好最坏打算!南海发生激烈对峙,黄岩岛突现072登陆舰队

中方已做好最坏打算!南海发生激烈对峙,黄岩岛突现072登陆舰队

老范谈史
2026-01-22 01:41:37
第一个拒绝加入特朗普“和平委员会”的总统来了!中国也收到邀请

第一个拒绝加入特朗普“和平委员会”的总统来了!中国也收到邀请

军机Talk
2026-01-22 10:54:50
中国向全世界披露:美国4400颗卫星,包围中国空间站,这是要做啥

中国向全世界披露:美国4400颗卫星,包围中国空间站,这是要做啥

素衣读史
2026-01-17 18:35:57
2026-01-23 09:43:00
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1294文章数 156关注度
往期回顾 全部

科技要闻

TikTok在美正式建合资公司,字节保留算法

头条要闻

300万元一张票 演员黄景瑜将上太空:很荣幸坐自家飞船

头条要闻

300万元一张票 演员黄景瑜将上太空:很荣幸坐自家飞船

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

车银优赚800亿 涉嫌逃税200亿!

财经要闻

茂名首富,这次糟了

汽车要闻

配备多块娱乐屏 极氪8X内饰曝光

态度原创

旅游
亲子
本地
艺术
公开课

旅游要闻

北京北海公园琉璃阁院落腾退移交 “西天梵境”将恢复完整性

亲子要闻

2025年中国早教行业白皮书

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

艺术要闻

有一個匠人叫仇英,他的绘画耐人追寻

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版