网易首页 > 网易号 > 正文 申请入驻

ICML 2025 | Entropy不灵了?北大港中文用“区域置信”重新定义模型的不确定性

0
分享至

还在使用传统的熵最小化作为模型自训练的目标?还在为缓慢降低且不稳定的模型不确定性而担忧?

来自北京大学与香港中文大学的最新研究,提出 ReCAP 框架,成功打破了 Entropy 在 Test-Time Training 的性能瓶颈,在多个场景和数据集挑战中全面超越当前的熵最小化方法,几乎零成本提升在下游任务的泛化性能!

论文标题: Beyond Entropy: Region Confidence Proxy for Wild Test-Time Adaptation 论文链接: https://arxiv.org/abs/2505.20704 开源地址: https://github.com/hzcar/ReCAP
一、前言:“自信”过头了?模型陷入熵最小化陷阱!

测试时训练(Test-Time Training/Adaptation)已然成为模型训练后在测试阶段微调的最重要方法之一,极大程度上增强了模型在下游应对不同下游任务的泛化能力。当前最常见的方法是熵最小化策略,以求让模型扩大自己输出的置信度。

然而,在复杂多变的测试条件下,熵最小化开始暴露出致命缺陷:模型往往对单一样本盲目“自信”,而忽视了其周围样本的预测一致性。这种局部预测的不稳定性会导致熵优化方向之间相互冲突,扰乱模型收敛过程,最终适得其反。

因此,我们迫切需要一种新的目标函数——它不仅能有效降低模型不确定性,更应能协调局部样本间的预测稳定性。

二、区域置信度:熵最小化背后的“隐形变量”是局部一致性

在深入分析现有方法局限性的基础上,来自北京大学与香港中文大学的研究团队提出了全新框架 ReCAP(Region Confidence Adaptive Proxy),以更加精准的方式刻画模型预测中的不确定性与稳定性之间的内在联系。

熵最小化的核心思想是通过引导预测概率向主要的类别集中收敛,其有效性很大程度上依赖于局部一致性,也就是附近的点应该有相似的预测概率。在分布偏移较复杂或者数据有限的场景中,局部不一致现象非常普遍,此时熵最小化反而会成为性能崩溃的罪魁祸首。

为此,团队引入了区域置信度(Region Confidence)的全新定义。它不再聚焦于单一样本的置信度提升,而是在其局部区域内同时衡量整体熵水平与一致性程度,具体形式如下:

对于样本 和其一个局部区域 , 在 上的区域置信度 (Region Confidence)定义为:

第一项熵损失函数代表了优化方向与区域目标之间的偏差,保留了熵最小化扩大置信度的思想。

第二项与中心点预测分布的 KL 散度代表了局部区域内不一致预测概率的方差,鼓励模型在局部区域内保持一致性。

研究团队在此采用积分,意味着理论可以在无限样本上整合损失项。

三、高效代理:ReCAP优化区域置信度几乎零成本

为了将“区域置信度”这一理论目标落地为可高效优化的形式,研究团队设计了两项关键技术创新:

区域概率建模机制:将特征空间中的局部区域视为一个高斯分布,动态建模预测概率的变化趋势,提取区域内的语义不确定性。

有限-无限近似理论推导:创新性地提出“区域置信代理损失”,无需采样、无额外前向传播,即可高效近似原始优化目标中难以计算的熵积分和KL散度项,大幅提升优化效率。

具体来说,给定一个特征 及其局部区域 ,该局部区域服从高斯分布 ,研究团队证明了两个重要结论:

整个分布上的熵损失期望具有上界:

输出概率与中心概率之间的 KL 散度的期望值具有上界:

因此只需要最小化 和 即可,此运算开销几乎可以忽略不计。

在样本过滤时,使用区域熵 来识别可靠的样本参与优化:

分母表示加权项, 表示区域熵的阈值, 是超参数。

四、ReCAP:重塑测试时训练范式的“加速引擎”

研究团队重磅推出的 ReCAP 框架,不仅给出了熵最小化训练困难的理论分析,也给出了区域内模型预测不确定性的度量方法。

更关键的是,ReCAP 拥有极强的模块兼容性与方法泛化性:它无需改变原有网络结构,可无缝集成到主流的 TTT 框架中,以替换原有的熵目标函数,轻松提升性能。

文章对多种数据偏移,多种测试场景做了综合实验分析,均取得显著的性能提升:

相较于传统熵最小化方法,ReCAP 在多个关键维度上实现突破:

  1. 强鲁棒性:数据限制和复杂偏移下更高效:在多种场景和数据集下,ReCAP 均显著优于现有SOTA方法,带来 2~5 个百分点的性能提升。

  2. 强兼容性:几行代码替代原有熵目标:ReCAP 可直接作为 drop-in 替代模块,嵌入到各种框架中,无需任何结构或训练流程修改,即可取得增益。

  3. 高效率:近零成本、无冗余操作的理论优化路径:借助推导出的上界代理损失,ReCAP 无需使用如扩散模型、数据增强、生成式补全等昂贵操作,显著降低测试时训练成本,适合部署在边缘设备和工业环境中。

五、结语:在更多场景和任务中积极探索区域置信度的效果

ReCAP 框架的提出是对测试时训练目标函数设计的一次重新审视与范式突破。它不仅揭示了传统熵最小化方法在复杂环境下的局限性,更通过区域置信代理优化,兼顾了不确定性抑制与局部预测稳定性,实现了理论优雅、实践高效的完美结合。

当前,ReCAP 已在图像分类领域多个高强度扰动数据集(如 ImageNet-C、ImageNet-R、VisDA)上展现出显著优势。而我们相信,这只是一个开始——

  1. 在目标检测、语义分割、视频理解等任务中,局部区域一致性同样扮演着关键角色;

  2. 在 3D 视觉、医学图像、工业缺陷检测等现实场景中,数据稀缺性与分布偏移问题尤为突出,ReCAP 的无监督适应潜力亟待释放;

  3. 在更大尺度、更高复杂度的模型体系中,ReCAP 所倡导的“区域视角”,或许正是提升稳健性与可解释性的关键。

研究团队也将持续开源和完善相关工具链,欢迎更多研究者和工程团队将“区域置信”理念扩展到更多测试时适应应用中,共同推动更稳健、更通用的视觉模型构建路径。

来源:公众号 【PaperWeekly】

llustration From IconScout By nanoagency

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
万科创始人被限制出境

万科创始人被限制出境

地产微资讯
2026-03-27 09:13:13
张雪峰追悼会:遗像被鲜花包裹,员工全黑衣,女儿和奶奶让人心疼

张雪峰追悼会:遗像被鲜花包裹,员工全黑衣,女儿和奶奶让人心疼

古希腊掌管松饼的神
2026-03-27 10:29:03
悲催!月入一万,想让妻子结束产假上班,深圳35岁男子哭诉被痛斥

悲催!月入一万,想让妻子结束产假上班,深圳35岁男子哭诉被痛斥

火山詩话
2026-03-27 08:39:57
维尔茨:那脚世界波是蒙的;世界杯冠军无疑是我们的目标

维尔茨:那脚世界波是蒙的;世界杯冠军无疑是我们的目标

懂球帝
2026-03-28 06:38:44
1-1!枪手铁卫破门+送点 皇马队长绝平 FIFA第4惨遭爆冷6连胜终结

1-1!枪手铁卫破门+送点 皇马队长绝平 FIFA第4惨遭爆冷6连胜终结

狍子歪解体坛
2026-03-28 05:56:31
林志玲、吕良伟2公里,黄晓明5公里、张朝阳半马!新闻马拉松群星完赛

林志玲、吕良伟2公里,黄晓明5公里、张朝阳半马!新闻马拉松群星完赛

马拉松跑步健身
2026-03-27 21:54:40
贺晋年将军晚年披露:徐海东红25军到陕北后,我天天想跑路,差点就打起来了

贺晋年将军晚年披露:徐海东红25军到陕北后,我天天想跑路,差点就打起来了

寄史言志
2026-03-27 18:05:07
美媒:万斯批评内塔尼亚胡对本次美以伊冲突的预测过于乐观,认为内塔尼亚胡夸大了伊朗政权更迭的可能性

美媒:万斯批评内塔尼亚胡对本次美以伊冲突的预测过于乐观,认为内塔尼亚胡夸大了伊朗政权更迭的可能性

大象新闻
2026-03-27 22:49:10
笑完F-35后,回旋镖又飞回来了?德专家:歼-35战斗机外挂霹雳-10

笑完F-35后,回旋镖又飞回来了?德专家:歼-35战斗机外挂霹雳-10

啸鹰评
2026-03-26 22:30:39
A股:下周一定要管住手

A股:下周一定要管住手

风风顺
2026-03-28 01:00:03
全国社保基金多次在A股大跌时果断加仓

全国社保基金多次在A股大跌时果断加仓

21世纪经济报道
2026-03-27 17:56:34
南京鸡鸣寺路樱花“开成海”,上演一年一度人从众名场面

南京鸡鸣寺路樱花“开成海”,上演一年一度人从众名场面

现代快报
2026-03-27 21:14:14
世上最危险的关系,就是夫妻关系,夫妻生活是肉体上的生活

世上最危险的关系,就是夫妻关系,夫妻生活是肉体上的生活

加油丁小文
2026-03-11 14:00:09
59岁巩俐身材引热议,外套都快撑不住丰腴身材了,却被夸少女体态

59岁巩俐身材引热议,外套都快撑不住丰腴身材了,却被夸少女体态

一盅情怀
2026-03-16 16:52:57
陈妍希红毯胖出新高度!臀肥大、后背勒出两层肉,裙子被撑到崩开

陈妍希红毯胖出新高度!臀肥大、后背勒出两层肉,裙子被撑到崩开

嘴角上翘的弧度
2026-03-28 02:16:27
香港马拉松成“照妖镜”!阿Sa脸馒化成蔡明,林志玲最人意外

香港马拉松成“照妖镜”!阿Sa脸馒化成蔡明,林志玲最人意外

阿策聊实事
2026-03-28 04:52:46
台湾统一的风向:赖清德由独转统,或能成就统一功绩

台湾统一的风向:赖清德由独转统,或能成就统一功绩

混沌录
2026-03-15 16:17:03
江西女硕士失踪,被发现时已在教授实验室待6年,魔鬼真的存在

江西女硕士失踪,被发现时已在教授实验室待6年,魔鬼真的存在

灿烂夏天
2025-02-10 20:20:13
为什么二手车市场里,几乎全是“九成新”的车?原因很现实

为什么二手车市场里,几乎全是“九成新”的车?原因很现实

复转这些年
2026-03-18 18:58:13
千架俄机猛轰乌全境,20万俄军挥师南下,普京春季猛攻多亏特朗普

千架俄机猛轰乌全境,20万俄军挥师南下,普京春季猛攻多亏特朗普

浪子阿邴聊体育
2026-03-27 06:08:33
2026-03-28 08:36:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2326文章数 596关注度
往期回顾 全部

科技要闻

杨植麟张鹏夏立雪罗福莉,聊龙虾、聊涨价

头条要闻

特朗普称暂停打击伊能源设施不到1天 美以空袭伊核设施

头条要闻

特朗普称暂停打击伊能源设施不到1天 美以空袭伊核设施

体育要闻

邵佳一:足球就像一场马拉松

娱乐要闻

范玮琪加盟,官宣《浪姐7》遭全网抵制

财经要闻

我在小吃培训机构学习“科技与狠活”

汽车要闻

与众08,金标大众不能输的一战

态度原创

亲子
本地
旅游
艺术
公开课

亲子要闻

天气暖和了,安排一套孩子自己能玩半天,激发孩子的动手能力,真的是带娃省妈啊#太空沙解压 #太空沙花样...

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

旅游要闻

日照岚山“打飞的”赏春成新时尚

艺术要闻

一位好“色”的摄影师

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版