网易首页 > 网易号 > 正文 申请入驻

马普所&谷歌等提出AnyUp:无需再训练的通用特征上采样,推理即用,效果SOTA!

0
分享至

文章来源:我爱计算机视觉(ID:aicvml)

今天和大家聊一篇非常有意思的新工作,来自马克斯·普朗克计算机科学研究所、谷歌、苏黎世联邦理工学院和慕尼黑工业大学的研究者们联手打造的 AnyUp

顾名思义,“AnyUp”就是“任意上采样”的意思。它的核心亮点在于,这是一个通用的特征上采样模型,能够处理来自任意视觉编码器(比如DINO、CLIP)的特征,在任意分辨率之间进行上采样,而且最关键的是——无需为特定的编码器进行重新训练。这解决了现有方法一个很大的痛点。


一起来看看这项工作的基本信息:

  • 论文标题 : AnyUp: Universal Feature Upsampling

  • 作者 : Thomas Wimmer, Prune Truong, Marie-Julie Rakotosaona, Michael Oechsle, Federico Tombari, Bernt Schiele, Jan Eric Lenssen

  • 机构 : 马克斯·普朗克计算机科学研究所, 苏黎世联邦理工学院, 谷歌, 慕尼黑工业大学

  • 论文地址 : https://arxiv.org/abs/2510.12764

  • 项目主页 : https://wimmerth.github.io/anyup/

  • 代码仓库 : https://github.com/wimmerth/anyup

研究背景

大家知道,像DINO、CLIP这类强大的预训练视觉模型,已经成为计算机视觉领域的基石。但它们通常基于Transformer架构,为了计算效率,输出的特征图分辨率往往比较低(比如16x16或32x32)。这对于需要像素级预测的下游任务,如语义分割、深度估计等,是一个天然的限制。


为了解决这个问题,学术界提出了不少特征上采样的方法。但现有方法,特别是那些基于学习的方法(如FeatUp, LoftUp, JAFAR),通常存在一个“绑定”问题:它们需要针对某一个特定的特征提取器(encoder)进行训练。如果你想换一个编码器,比如从DINOv2换到SigLIP,对不起,请重新训练你的上采样模型。这不仅耗时耗力,有时甚至不可行(比如最新的大模型没有开放训练接口)。


AnyUp的出现,就是为了打破这种“一对一”的束缚,目标是创建一个“万能”的上采样器,训练一次,就能服务于所有视觉模型。

AnyUp的核心方法

AnyUp的整体架构基于一个Attention机制,这和近期的JAFAR、LoftUp等工作思路相似。但它通过几个关键设计,实现了“编码器无关”(encoder-agnostic)的特性。


特征无关层 (Feature-Agnostic Layer)

这是实现通用性的核心。传统的上采样模型在处理输入特征时,通常会用一个卷积层,但这个卷积层的输入通道数是固定的,所以只能处理特定维度的特征。

AnyUp设计了一个巧妙的“特征无关层”。它的工作方式是:

  1. 对输入特征的 每一个通道 (channel) 都独立地与一组共享的、可学习的卷积核 (basis filters) 进行卷积。

  2. 对每个通道的卷积结果,在“卷积核维度”上进行Softmax归一化。

  3. 最后,将 所有通道 的结果进行平均,得到最终的输出。

通过这种方式,无论输入特征有多少个通道(维度),输出的维度都是固定的,并且模型能够学习到跨通道的通用结构信息,而不是绑定在特定特征的语义上。CV君认为这个设计非常简洁且有效。

局部窗口注意力 (Local Window Attention)

之前的方法(如JAFAR)使用全局注意力,即高分辨率图像中的每个像素可以关注到低分辨率特征图中的任何一个位置。作者发现,这有时会导致模型错误地关联上图像中距离很远且不相关的区域,产生伪影。


AnyUp对此进行了简化,将注意力计算限制在一个 局部窗口 内。这样做不仅提升了效率,也让模型的学习任务变得更简单,因为它只需要关注局部信息,从而避免了不必要的“远距离联想”,使得上采样结果更稳定。

基于图像块的训练策略

在训练中如何获得用于监督训练的“真值”高分辨率特征呢?直接用大尺寸图像输入编码器计算,成本太高。AnyUp采用了一种高效的策略:

  1. 从一张高分辨率图像 I 中,随机裁剪出一个小块 I'

  2. 将完整图像 I 缩放到与 I' 同样的分辨率,并提取低分辨率特征 p

  3. p 通过AnyUp上采样到目标分辨率,得到 q

  4. 同时,直接从图像块 I' 提取“真值”特征 ĝ

  5. 监督信号来自于上采样结果 q 中对应 I' 的区域 q'ĝ 之间的差异。

这个策略非常高效,因为它避免了对超大分辨率图像进行特征提取。

实验效果如何?

AnyUp在多个下游任务上都展示了卓越的性能和泛化能力。

视觉质量对比

从PCA可视化的特征图可以看出,相比之前的方法(如LoftUp、JAFAR、FeatUp),AnyUp生成的特征图边缘更锐利,细节保留得更好,并且没有出现明显的伪影或特征分布偏移。


下游任务性能

在语义分割、深度估计和表面法线估计等任务上,AnyUp全面超越了之前的SOTA方法。

  • 语义分割 : 在ADE20k数据集上取得了SOTA表现。

  • 深度和法线估计 : 同样达到了SOTA,这表明AnyUp很好地保留了特征的局部几何信息,而这正是LoftUp等方法所欠缺的。

下面是更多在语义分割和深度估计任务上的定性结果,可以看到AnyUp的结果在细节和边界上都非常出色。



强大的泛化能力

这是AnyUp最令人印象深刻的地方。

  • 跨模型泛化 : 一个仅在DINOv2特征上训练的AnyUp模型,可以直接用于上采样SigLIP、DINOv3等完全不同的编码器特征,并且性能依然强大,甚至接近或超过了为这些特定模型专门训练的上采样器。

  • 跨分辨率泛化 : AnyUp支持从任意分辨率到任意分辨率的上采样,在各种分辨率组合下都保持了强大的性能。

  • 特征空间保持 : 实验证明,AnyUp上采样后的特征很好地保留了原始低分辨率特征的分布,这意味着一个在低分辨率特征上训练好的线性分类器(probe)可以直接用在高分辨率特征上,性能几乎无损,甚至有所提升。

消融实验

消融研究证实了AnyUp每个设计的重要性,无论是特征无关层、局部窗口注意力还是数据采样策略,都对最终性能有显著贡献。


总结

总而言之,AnyUp通过简洁而创新的设计,实现了一个真正意义上的“即插即用”的通用特征上采样器。它不仅性能达到了SOTA,更重要的是其出色的泛化能力,极大地提升了预训练视觉模型在下游任务中的易用性和灵活性。作者已经开源了代码,感兴趣的同学可以去试试看!

大家对这个“万能”上采样方法怎么看?欢迎在评论区留下你的看法!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
军委副主席,过去四十年来人数上的变化

军委副主席,过去四十年来人数上的变化

深度财线
2025-10-21 13:06:54
日本为何禁肉1200年?乃是统治者“制度设计”,解禁后人均身高迅速上涨

日本为何禁肉1200年?乃是统治者“制度设计”,解禁后人均身高迅速上涨

齐天候
2026-01-25 23:29:25
美国放话:谁敢拦截军售,就是宣战!中国用实力划下红线!

美国放话:谁敢拦截军售,就是宣战!中国用实力划下红线!

华山穹剑
2026-01-23 20:19:29
格陵兰首府突然全市停电,市民用蜡烛照明!有人发起“丹麦买下加州”请愿,近30万网民参与

格陵兰首府突然全市停电,市民用蜡烛照明!有人发起“丹麦买下加州”请愿,近30万网民参与

每日经济新闻
2026-01-25 17:39:04
好消息!铁路新规:60岁以上老人乘坐高铁火车,可享受5大福利

好消息!铁路新规:60岁以上老人乘坐高铁火车,可享受5大福利

巢客HOME
2026-01-25 06:50:03
“牢A”说留学生私生活乱:澳洲女留学生说,她们交往三四个男友

“牢A”说留学生私生活乱:澳洲女留学生说,她们交往三四个男友

汉史趣闻
2026-01-24 18:33:30
五五分流为什么分不下去了?背后的真相

五五分流为什么分不下去了?背后的真相

枫冷慕诗
2026-01-24 13:09:19
中国共产党中央军事委员会副主席张升民简历

中国共产党中央军事委员会副主席张升民简历

上观新闻
2025-10-23 18:17:07
复仇失败!张本智和遭打脸:连续2年不敌日本天才 领奖时全程冷脸

复仇失败!张本智和遭打脸:连续2年不敌日本天才 领奖时全程冷脸

风过乡
2026-01-25 17:57:28
刺激!华为突然官宣:1月24日,开启全品降价!

刺激!华为突然官宣:1月24日,开启全品降价!

科技堡垒
2026-01-24 12:40:11
特朗普对8国加税25%,欧盟忍无可忍,27国打响“反击战”

特朗普对8国加税25%,欧盟忍无可忍,27国打响“反击战”

兵说
2026-01-24 22:14:22
不结婚怎么解决生理需求?56岁的歌唱家张也,用行动给出了答案

不结婚怎么解决生理需求?56岁的歌唱家张也,用行动给出了答案

秋姐居
2026-01-25 21:08:47
李湘的事儿大吗?

李湘的事儿大吗?

奖一罚十
2026-01-23 21:25:51
解放军报社论:坚决打赢军队反腐败斗争攻坚战持久战总体战

解放军报社论:坚决打赢军队反腐败斗争攻坚战持久战总体战

新华社
2026-01-24 23:03:04
俄美乌首次三方会谈结束

俄美乌首次三方会谈结束

澎湃新闻
2026-01-24 23:17:01
Lululemon新款瑜伽裤因易走光下架后重新上架,中国电商渠道暂未销售,创始人发声:公司已经完全迷失方向

Lululemon新款瑜伽裤因易走光下架后重新上架,中国电商渠道暂未销售,创始人发声:公司已经完全迷失方向

鲁中晨报
2026-01-24 21:59:13
又一款10001mAh新机官宣:1月29日,正式全球发布!

又一款10001mAh新机官宣:1月29日,正式全球发布!

科技堡垒
2026-01-25 12:32:51
雷军无奈宣布:全部下架!

雷军无奈宣布:全部下架!

电动知家
2026-01-25 15:31:25
李湘洗钱风波升级!曝王诗龄已休学,对王诗龄的3点爆料全对上了

李湘洗钱风波升级!曝王诗龄已休学,对王诗龄的3点爆料全对上了

古希腊掌管月桂的神
2026-01-25 21:01:05
军队高级官员被查,说明什么?

军队高级官员被查,说明什么?

钧言堂
2026-01-25 23:09:30
2026-01-26 00:43:00
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5320文章数 64599关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

央八开播 杨紫胡歌主演的40集大剧来了

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

游戏
健康
旅游
亲子
时尚

LCK春季赛:道心没有破碎,KT找回状态,三局战胜BRO

耳石脱落为何让人天旋地转+恶心?

旅游要闻

钢城“后花园”开出振兴之花,看聚源桥村如何玩转“三村联动”

亲子要闻

女子腹痛送医才知道自己怀孕,23分钟后......生了一个男孩

看了鲁豫对章小蕙的采访,最大感触是这一点

无障碍浏览 进入关怀版