网易首页 > 网易号 > 正文 申请入驻

ICML 2025 | Entropy不灵了?北大港中文用“区域置信”重新定义模型的不确定性

0
分享至

还在使用传统的熵最小化作为模型自训练的目标?还在为缓慢降低且不稳定的模型不确定性而担忧?

来自北京大学与香港中文大学的最新研究,提出 ReCAP 框架,成功打破了 Entropy 在 Test-Time Training 的性能瓶颈,在多个场景和数据集挑战中全面超越当前的熵最小化方法,几乎零成本提升在下游任务的泛化性能!

论文标题: Beyond Entropy: Region Confidence Proxy for Wild Test-Time Adaptation 论文链接: https://arxiv.org/abs/2505.20704 开源地址: https://github.com/hzcar/ReCAP
一、前言:“自信”过头了?模型陷入熵最小化陷阱!

测试时训练(Test-Time Training/Adaptation)已然成为模型训练后在测试阶段微调的最重要方法之一,极大程度上增强了模型在下游应对不同下游任务的泛化能力。当前最常见的方法是熵最小化策略,以求让模型扩大自己输出的置信度。

然而,在复杂多变的测试条件下,熵最小化开始暴露出致命缺陷:模型往往对单一样本盲目“自信”,而忽视了其周围样本的预测一致性。这种局部预测的不稳定性会导致熵优化方向之间相互冲突,扰乱模型收敛过程,最终适得其反。

因此,我们迫切需要一种新的目标函数——它不仅能有效降低模型不确定性,更应能协调局部样本间的预测稳定性。

二、区域置信度:熵最小化背后的“隐形变量”是局部一致性

在深入分析现有方法局限性的基础上,来自北京大学与香港中文大学的研究团队提出了全新框架 ReCAP(Region Confidence Adaptive Proxy),以更加精准的方式刻画模型预测中的不确定性与稳定性之间的内在联系。

熵最小化的核心思想是通过引导预测概率向主要的类别集中收敛,其有效性很大程度上依赖于局部一致性,也就是附近的点应该有相似的预测概率。在分布偏移较复杂或者数据有限的场景中,局部不一致现象非常普遍,此时熵最小化反而会成为性能崩溃的罪魁祸首。

为此,团队引入了区域置信度(Region Confidence)的全新定义。它不再聚焦于单一样本的置信度提升,而是在其局部区域内同时衡量整体熵水平与一致性程度,具体形式如下:

对于样本 和其一个局部区域 , 在 上的区域置信度 (Region Confidence)定义为:

第一项熵损失函数代表了优化方向与区域目标之间的偏差,保留了熵最小化扩大置信度的思想。

第二项与中心点预测分布的 KL 散度代表了局部区域内不一致预测概率的方差,鼓励模型在局部区域内保持一致性。

研究团队在此采用积分,意味着理论可以在无限样本上整合损失项。

三、高效代理:ReCAP优化区域置信度几乎零成本

为了将“区域置信度”这一理论目标落地为可高效优化的形式,研究团队设计了两项关键技术创新:

区域概率建模机制:将特征空间中的局部区域视为一个高斯分布,动态建模预测概率的变化趋势,提取区域内的语义不确定性。

有限-无限近似理论推导:创新性地提出“区域置信代理损失”,无需采样、无额外前向传播,即可高效近似原始优化目标中难以计算的熵积分和KL散度项,大幅提升优化效率。

具体来说,给定一个特征 及其局部区域 ,该局部区域服从高斯分布 ,研究团队证明了两个重要结论:

整个分布上的熵损失期望具有上界:

输出概率与中心概率之间的 KL 散度的期望值具有上界:

因此只需要最小化 和 即可,此运算开销几乎可以忽略不计。

在样本过滤时,使用区域熵 来识别可靠的样本参与优化:

分母表示加权项, 表示区域熵的阈值, 是超参数。

四、ReCAP:重塑测试时训练范式的“加速引擎”

研究团队重磅推出的 ReCAP 框架,不仅给出了熵最小化训练困难的理论分析,也给出了区域内模型预测不确定性的度量方法。

更关键的是,ReCAP 拥有极强的模块兼容性与方法泛化性:它无需改变原有网络结构,可无缝集成到主流的 TTT 框架中,以替换原有的熵目标函数,轻松提升性能。

文章对多种数据偏移,多种测试场景做了综合实验分析,均取得显著的性能提升:

相较于传统熵最小化方法,ReCAP 在多个关键维度上实现突破:

  1. 强鲁棒性:数据限制和复杂偏移下更高效:在多种场景和数据集下,ReCAP 均显著优于现有SOTA方法,带来 2~5 个百分点的性能提升。

  2. 强兼容性:几行代码替代原有熵目标:ReCAP 可直接作为 drop-in 替代模块,嵌入到各种框架中,无需任何结构或训练流程修改,即可取得增益。

  3. 高效率:近零成本、无冗余操作的理论优化路径:借助推导出的上界代理损失,ReCAP 无需使用如扩散模型、数据增强、生成式补全等昂贵操作,显著降低测试时训练成本,适合部署在边缘设备和工业环境中。

五、结语:在更多场景和任务中积极探索区域置信度的效果

ReCAP 框架的提出是对测试时训练目标函数设计的一次重新审视与范式突破。它不仅揭示了传统熵最小化方法在复杂环境下的局限性,更通过区域置信代理优化,兼顾了不确定性抑制与局部预测稳定性,实现了理论优雅、实践高效的完美结合。

当前,ReCAP 已在图像分类领域多个高强度扰动数据集(如 ImageNet-C、ImageNet-R、VisDA)上展现出显著优势。而我们相信,这只是一个开始——

  1. 在目标检测、语义分割、视频理解等任务中,局部区域一致性同样扮演着关键角色;

  2. 在 3D 视觉、医学图像、工业缺陷检测等现实场景中,数据稀缺性与分布偏移问题尤为突出,ReCAP 的无监督适应潜力亟待释放;

  3. 在更大尺度、更高复杂度的模型体系中,ReCAP 所倡导的“区域视角”,或许正是提升稳健性与可解释性的关键。

研究团队也将持续开源和完善相关工具链,欢迎更多研究者和工程团队将“区域置信”理念扩展到更多测试时适应应用中,共同推动更稳健、更通用的视觉模型构建路径。

来源:公众号 【PaperWeekly】

llustration From IconScout By nanoagency

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
二孩非亲生后续!堂哥恶行曝光,律师有新证据,判决结果让人意外

二孩非亲生后续!堂哥恶行曝光,律师有新证据,判决结果让人意外

奇思妙想草叶君
2026-05-29 23:42:57
采访了100个娶了小三的男人,他们几乎都说了同一句话,让人恍然

采访了100个娶了小三的男人,他们几乎都说了同一句话,让人恍然

千秋文化
2026-04-15 20:18:32
奥利塞选梅西是阿根廷第一人!不选C罗当葡萄牙第一人!

奥利塞选梅西是阿根廷第一人!不选C罗当葡萄牙第一人!

历史第一人梅西
2026-05-28 20:19:45
“我爸十几年没换过微信头像,这是我小学二年级画完送他的”

“我爸十几年没换过微信头像,这是我小学二年级画完送他的”

环球网资讯
2026-05-27 17:51:27
徐帆回应离婚9个月后,冯小刚再陷争议,养女徐朵成导火索

徐帆回应离婚9个月后,冯小刚再陷争议,养女徐朵成导火索

枯蝶
2026-05-21 22:22:13
昨晚比亚迪开了发布会,有人都打瞌睡了,但友商连PPT都没法改了

昨晚比亚迪开了发布会,有人都打瞌睡了,但友商连PPT都没法改了

小李车评李建红
2026-05-29 08:00:07
谢宗恒发文自曝:张雪给我台湾代理,却不敢接!背后原因太心酸

谢宗恒发文自曝:张雪给我台湾代理,却不敢接!背后原因太心酸

猪小艳吖
2026-05-29 16:26:39
普通人有200万存款,最多可以支撑多久不上班?现在有了答案

普通人有200万存款,最多可以支撑多久不上班?现在有了答案

混沌录
2026-05-30 00:09:55
彭德怀临终前多次求见朱德未果,朱德怒斥:还有啥子可怕的

彭德怀临终前多次求见朱德未果,朱德怒斥:还有啥子可怕的

史之铭
2026-05-23 00:48:03
电视剧收视率排行榜,《主角》跌至第二,第一收视高达2.001%

电视剧收视率排行榜,《主角》跌至第二,第一收视高达2.001%

圆头讲电影
2026-05-26 11:38:10
“美国一炸,中亚找中国:苏联设备太老”

“美国一炸,中亚找中国:苏联设备太老”

观察者网
2026-05-28 10:02:13
小米澎湃OS4.0桌面新曝光 7.00.11.6507版细节全解

小米澎湃OS4.0桌面新曝光 7.00.11.6507版细节全解

小柱解说游戏
2026-05-30 00:39:51
快讯!面对菲律宾该出手了!

快讯!面对菲律宾该出手了!

故事终将光明磊落
2026-05-29 19:49:00
王曦雨赢球后自黑!更换本土教练助其完成蜕变,已经定下新目标

王曦雨赢球后自黑!更换本土教练助其完成蜕变,已经定下新目标

排球黄金眼
2026-05-30 00:07:05
刚被裁就有退路?专家:太阳队还有后手签回范·利斯

刚被裁就有退路?专家:太阳队还有后手签回范·利斯

甜份超标的我
2026-05-30 02:04:58
世界正在发生一个极其恶心的变化!最终印度或许会成为地球大患

世界正在发生一个极其恶心的变化!最终印度或许会成为地球大患

王二哥老搞笑
2026-05-29 19:48:20
“你的号我就是要毁”,游戏里损失“一个亿”,现实中能获赔吗?

“你的号我就是要毁”,游戏里损失“一个亿”,现实中能获赔吗?

新京报
2026-05-29 08:15:18
历史唯一没有农民起义的朝代,每任帝王都是明君,人口增长相当快

历史唯一没有农民起义的朝代,每任帝王都是明君,人口增长相当快

心中的麦田
2026-05-28 20:50:58
阿尔特塔:夺冠那刻我和小克视频,我们两人当时都潸然泪下

阿尔特塔:夺冠那刻我和小克视频,我们两人当时都潸然泪下

懂球帝
2026-05-30 03:06:08
中国最尴尬的5种早餐,除了本地人无人问津,看看你都吃过哪种?

中国最尴尬的5种早餐,除了本地人无人问津,看看你都吃过哪种?

洪洋美食日记
2026-04-03 08:39:47
2026-05-30 04:16:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2394文章数 596关注度
往期回顾 全部

科技要闻

Claude Opus 4.8凌晨突发上线

头条要闻

释永信被判24年 中国佛教协会:完全是咎由自取

头条要闻

释永信被判24年 中国佛教协会:完全是咎由自取

体育要闻

即使是文班亚马,也做不到这件事

娱乐要闻

奚梦瑶何猷君将于6月在法国举行婚礼

财经要闻

近3个月跌超20% 黄金"猴市"下的众生相

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

本地
游戏
旅游
家居
公开课

本地新闻

用剪纸的方式,打开江苏扬州

Sky&Infi领衔参赛!2026 GG全能王赛重磅开启,7月线下决战

旅游要闻

云南文旅数智升级,旅游小镇游客满意度提升超过30%

家居要闻

云栖 舒展如流云

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版