网易首页 > 网易号 > 正文 申请入驻

马普所&谷歌等提出AnyUp:无需再训练的通用特征上采样,推理即用,效果SOTA!

0
分享至


来源:我爱计算机视觉(ID:aicvml)

今天和大家聊一篇非常有意思的新工作,来自马克斯·普朗克计算机科学研究所、谷歌、苏黎世联邦理工学院和慕尼黑工业大学的研究者们联手打造的AnyUp

顾名思义,“AnyUp”就是“任意上采样”的意思。它的核心亮点在于,这是一个通用的特征上采样模型,能够处理来自任意视觉编码器(比如DINO、CLIP)的特征,在任意分辨率之间进行上采样,而且最关键的是——无需为特定的编码器进行重新训练这解决了现有方法一个很大的痛点。


一起来看看这项工作的基本信息:

  • 论文标题:AnyUp: Universal Feature Upsampling

  • 作者:Thomas Wimmer, Prune Truong, Marie-Julie Rakotosaona, Michael Oechsle, Federico Tombari, Bernt Schiele, Jan Eric Lenssen

  • 机构:马克斯·普朗克计算机科学研究所, 苏黎世联邦理工学院, 谷歌, 慕尼黑工业大学

  • 论文地址:https://arxiv.org/abs/2510.12764

  • 项目主页:https://wimmerth.github.io/anyup/

  • 代码仓库:https://github.com/wimmerth/anyup

研究背景

大家知道,像DINO、CLIP这类强大的预训练视觉模型,已经成为计算机视觉领域的基石。但它们通常基于Transformer架构,为了计算效率,输出的特征图分辨率往往比较低(比如16x16或32x32)。这对于需要像素级预测的下游任务,如语义分割、深度估计等,是一个天然的限制。


为了解决这个问题,学术界提出了不少特征上采样的方法。但现有方法,特别是那些基于学习的方法(如FeatUp, LoftUp, JAFAR),通常存在一个“绑定”问题:它们需要针对某一个特定的特征提取器(encoder)进行训练。如果你想换一个编码器,比如从DINOv2换到SigLIP,对不起,请重新训练你的上采样模型。这不仅耗时耗力,有时甚至不可行(比如最新的大模型没有开放训练接口)。


AnyUp的出现,就是为了打破这种“一对一”的束缚,目标是创建一个“万能”的上采样器,训练一次,就能服务于所有视觉模型。

AnyUp的核心方法

AnyUp的整体架构基于一个Attention机制,这和近期的JAFAR、LoftUp等工作思路相似。但它通过几个关键设计,实现了“编码器无关”(encoder-agnostic)的特性。


特征无关层 (Feature-Agnostic Layer)

这是实现通用性的核心。传统的上采样模型在处理输入特征时,通常会用一个卷积层,但这个卷积层的输入通道数是固定的,所以只能处理特定维度的特征。

AnyUp设计了一个巧妙的“特征无关层”。它的工作方式是:

  1. 对输入特征的每一个通道(channel) 都独立地与一组共享的、可学习的卷积核 (basis filters) 进行卷积。

  2. 对每个通道的卷积结果,在“卷积核维度”上进行Softmax归一化。

  3. 最后,将所有通道的结果进行平均,得到最终的输出。

通过这种方式,无论输入特征有多少个通道(维度),输出的维度都是固定的,并且模型能够学习到跨通道的通用结构信息,而不是绑定在特定特征的语义上。CV君认为这个设计非常简洁且有效。

局部窗口注意力 (Local Window Attention)

之前的方法(如JAFAR)使用全局注意力,即高分辨率图像中的每个像素可以关注到低分辨率特征图中的任何一个位置。作者发现,这有时会导致模型错误地关联上图像中距离很远且不相关的区域,产生伪影。


AnyUp对此进行了简化,将注意力计算限制在一个局部窗口内。这样做不仅提升了效率,也让模型的学习任务变得更简单,因为它只需要关注局部信息,从而避免了不必要的“远距离联想”,使得上采样结果更稳定。

基于图像块的训练策略

在训练中如何获得用于监督训练的“真值”高分辨率特征呢?直接用大尺寸图像输入编码器计算,成本太高。AnyUp采用了一种高效的策略:

  1. 从一张高分辨率图像I 中,随机裁剪出一个小块I'

  2. 将完整图像I缩放到与I'同样的分辨率,并提取低分辨率特征p

  3. p通过AnyUp上采样到目标分辨率,得到q

  4. 同时,直接从图像块I'提取“真值”特征ĝ

  5. 监督信号来自于上采样结果q中对应I'的区域q'ĝ之间的差异。

这个策略非常高效,因为它避免了对超大分辨率图像进行特征提取。

实验效果如何?

AnyUp在多个下游任务上都展示了卓越的性能和泛化能力。

视觉质量对比

从PCA可视化的特征图可以看出,相比之前的方法(如LoftUp、JAFAR、FeatUp),AnyUp生成的特征图边缘更锐利,细节保留得更好,并且没有出现明显的伪影或特征分布偏移。


下游任务性能

在语义分割、深度估计和表面法线估计等任务上,AnyUp全面超越了之前的SOTA方法。

  • 语义分割:在ADE20k数据集上取得了SOTA表现。

  • 深度和法线估计:同样达到了SOTA,这表明AnyUp很好地保留了特征的局部几何信息,而这正是LoftUp等方法所欠缺的。

下面是更多在语义分割和深度估计任务上的定性结果,可以看到AnyUp的结果在细节和边界上都非常出色。



强大的泛化能力

这是AnyUp最令人印象深刻的地方。

  • 跨模型泛化:一个仅在DINOv2特征上训练的AnyUp模型,可以直接用于上采样SigLIP、DINOv3等完全不同的编码器特征,并且性能依然强大,甚至接近或超过了为这些特定模型专门训练的上采样器。

  • 跨分辨率泛化:AnyUp支持从任意分辨率到任意分辨率的上采样,在各种分辨率组合下都保持了强大的性能。


  • 特征空间保持:实验证明,AnyUp上采样后的特征很好地保留了原始低分辨率特征的分布,这意味着一个在低分辨率特征上训练好的线性分类器(probe)可以直接用在高分辨率特征上,性能几乎无损,甚至有所提升。


消融实验

消融研究证实了AnyUp每个设计的重要性,无论是特征无关层、局部窗口注意力还是数据采样策略,都对最终性能有显著贡献。


总结

总而言之,AnyUp通过简洁而创新的设计,实现了一个真正意义上的“即插即用”的通用特征上采样器。它不仅性能达到了SOTA,更重要的是其出色的泛化能力,极大地提升了预训练视觉模型在下游任务中的易用性和灵活性。作者已经开源了代码,感兴趣的同学可以去试试看!

大家对这个“万能”上采样方法怎么看?欢迎在评论区留下你的看法!

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
CBA最新战报:三场冷门迭出,黑马惜败广州,榜首球队告负

CBA最新战报:三场冷门迭出,黑马惜败广州,榜首球队告负

无月可归辛
2026-01-25 21:39:08
中美差距太明显!美国游客实地体验后:中国比美国厉害多了

中美差距太明显!美国游客实地体验后:中国比美国厉害多了

比利
2026-01-19 23:57:03
山东医保调整通知

山东医保调整通知

济宁人
2026-01-25 20:19:52
新春优惠来了!苹果官网Apple Store开始维护:iPhone 16、Mac、iPad等降价

新春优惠来了!苹果官网Apple Store开始维护:iPhone 16、Mac、iPad等降价

快科技
2026-01-23 23:17:04
光速翻脸?6万吨菜籽油刚卖给中国,电车就遭针对,卡尼直摇头

光速翻脸?6万吨菜籽油刚卖给中国,电车就遭针对,卡尼直摇头

娱乐八卦木木子
2026-01-23 12:39:27
张本美和成功夺冠!4:3击败早田希娜,喜极而泣,登上最高领奖台

张本美和成功夺冠!4:3击败早田希娜,喜极而泣,登上最高领奖台

国乒二三事
2026-01-25 13:29:04
殷秀梅:程志不是我的前夫,我的法国丈夫今年75岁

殷秀梅:程志不是我的前夫,我的法国丈夫今年75岁

顾史
2026-01-20 13:54:43
“性萧条”才是这个时代真正的危机

“性萧条”才是这个时代真正的危机

深蓝夜读
2025-09-24 16:00:09
“安妮·海瑟薇”为艺术献身的6部电影,演技炸裂又养眼,强烈推荐

“安妮·海瑟薇”为艺术献身的6部电影,演技炸裂又养眼,强烈推荐

小微看电影
2026-01-23 07:25:03
3男3女出租屋性交易:价格曝光,被抓画面流出,事发全过程披露

3男3女出租屋性交易:价格曝光,被抓画面流出,事发全过程披露

博士观察
2026-01-25 21:18:06
人类对闲鱼的开发不足1%,一群神人把我笑发财了

人类对闲鱼的开发不足1%,一群神人把我笑发财了

另子维爱读史
2026-01-11 21:09:06
国家动真格了!封杀大批网红,原因全一致,网友:他们吃相太难看

国家动真格了!封杀大批网红,原因全一致,网友:他们吃相太难看

赵昉是个热血青年
2026-01-23 13:01:34
恭喜杨瀚森!将参加NBA全明星周末,成就比肩姚明易建联

恭喜杨瀚森!将参加NBA全明星周末,成就比肩姚明易建联

林子说事
2026-01-25 14:41:44
特朗普承认在委内瑞拉使用的秘密武器是啥?有多厉害?

特朗普承认在委内瑞拉使用的秘密武器是啥?有多厉害?

上游新闻
2026-01-24 17:00:05
胡春华发表署名文章

胡春华发表署名文章

社评
2025-10-31 10:11:37
足坛 10 大最可惜天才:天赋碾压巨星,第 1 名让全世界叹息

足坛 10 大最可惜天才:天赋碾压巨星,第 1 名让全世界叹息

澜归序
2025-12-20 11:27:20
男单冠军出炉!日本松岛辉空4:0大获全胜,击败新科世乒赛冠军

男单冠军出炉!日本松岛辉空4:0大获全胜,击败新科世乒赛冠军

国乒二三事
2026-01-25 14:49:56
官降超6万元,到手却涨几千?宝马新车“越降越贵”,销售:终端优惠也减少

官降超6万元,到手却涨几千?宝马新车“越降越贵”,销售:终端优惠也减少

时代周报
2026-01-25 18:32:07
徐彬:输日本坚定了我留洋的决心,邵指导一直给我们灌输“要走出去”

徐彬:输日本坚定了我留洋的决心,邵指导一直给我们灌输“要走出去”

懂球帝
2026-01-25 16:26:21
零关税,阿根廷为什么对中国电动汽车敞开大门?

零关税,阿根廷为什么对中国电动汽车敞开大门?

牲产队
2026-01-24 18:09:44
2026-01-26 00:27:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4502文章数 37400关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

央八开播 杨紫胡歌主演的40集大剧来了

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

教育
游戏
本地
健康
军事航空

教育要闻

教师投诉成功,成都锦江教育局发布情况通报

LPL春季赛:没有哥哥,也就没有叛忍之战!TES零封IG

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

耳石脱落为何让人天旋地转+恶心?

军事要闻

俄美乌三方首轮会谈细节披露

无障碍浏览 进入关怀版