网易首页 > 网易号 > 正文 申请入驻

香港大学提出无需数据标记的ViT密集表征增强方法

0
分享至



本文共同第一作者为陈寅杰、颜子鹏,相关研究工作于香港大学科研实习期间完成;通讯作者 Andrew F. Luo 为香港大学助理教授。该工作已经被 NeurIPS 2025 会议接受为 Spotlight。

在视觉处理任务中,Vision Transformers(ViTs)已发展成为主流架构。然而,近期研究表明,ViT 模型的密集特征中会出现部分与局部语义不一致的伪影(artifact),进而削弱模型在精细定位类任务中的性能表现。因此,如何在不耗费大量计算资源的前提下,保留 ViT 模型预训练核心信息并消除密集特征中的伪影?

香港大学团队提出一种无需数据标记的 ViT 密集表征增强方法 PH-Reg(Post Hoc Registers),为该挑战提供了全新且高效的解决方法。该方法融合测试时增强(test-time augmentation)的去噪策略,去除教师模型密集特征中的伪影;并通过自蒸馏方法,在无需额外数据标记的条件下,得到能够输出无伪影密集特征的学生模型。

PH-Reg 具备良好的架构适配性,可灵活应用于 CLIP、DINOv2 等不同模型架构,能够高效去除密集特征的伪影,以此显著提升模型在下游任务中的性能表现。



  • 论文标题:Vision Transformers with Self-Distilled Registers
  • 论文地址:https://arxiv.org/abs/2505.21501
  • 代码地址:https://github.com/0raiser0/PH-Reg

伪影破坏模型密集特征的语义一致性

尽管当前 ViT 模型基于数据驱动的注意力机制具备强大表示能力,但模型密集特征中存在的伪影往往会破坏其精细定位能力,而该能力对于语义分割等需高空间精度的任务而言至关重要。传统的优化方法,如在模型架构中添加 register tokens 并从头开始训练,需要消耗大量的计算资源,导致现有模型的性能提升既昂贵又耗时。

为解决上述问题,该论文提出一种高效的 PH-Reg 自蒸馏框架。该框架无需数据标记,且不再依赖 “从头开始” 的全量训练,而是通过巧妙结合测试时(test-time)密集特征增强和自蒸馏策略,仅优化学生模型中少量解锁的权重参数,即可实现无伪影的密集特征增强。



自蒸馏框架结合免训练实现去除伪影,无需数据标记实现无伪影的密集特征

1. 免训练去噪算法

研究发现,伪影并非相对于图像内容保持静态,因此当图像经过增强处理(如随机偏移、水平翻转等)时,密集特征中的伪影并不会以相同方式或幅度同步偏移。受此启发,此算法在无需梯度反向传播的情况下,能够生成去噪且无伪影的密集特征。

2. 自蒸馏框架

PH-Reg 采用自蒸馏策略,无需依赖数据标记,仅通过引入 register tokens,以最小侵入性方式对学生模型架构进行增强。在蒸馏过程中,仅对 register tokens、卷积层、位置嵌入(positional embeddings)及最后一个 Transformer 模块进行针对性更新,既最大限度保留了 ViT 模型预训练权重的核心信息,又显著节省了计算资源。

实验结果

本文应用该方法对多个 ViT 主干模型在多种密集特征预测任务上进行了系统验证,实现结果表明在不同模型与任务类型下均展现出一致且稳定的替身效果,体现了该方法的鲁棒性的广泛适用性。主要实验结果如下:

1. 开放词汇语义分割任务

  • 在 VOC、COCO、ADE20K 等八个开放词汇语义分割基准数据集上,PH-Reg 在其中七个数据集上的性能超越了 MaskCLIP、SCLIP、NACLIP、ClearCLIP 等主流方法。
  • 此外,与 DVT 这一相似去噪方法相比,PH-Reg 能为 MaskCLIP 与 NACLIP 带来更加显著的性能提升。



2. 线性探测任务

  • 在语义分割任务中,该方法为所有 ViT 骨干模型带来了实质性性能增益。特别对于 CLIP 模型,其在 VOC21 数据集上的 mIoU 显著提升 5.04%,在 ADE20k 数据集上的 mIoU 提升 3.64%。
  • 在深度估计任务中,该方法同样为预训练 ViT 骨干模型带来了稳定的性能提升,且仅通过引入 register tokens,便在参数量增加可忽略不计的前提下,取得了更优结果。



3. 高效的蒸馏过程

  • 该方法的核心优势在于无需依赖基于梯度的神经场学习,因此采用单阶段蒸馏方式训练学生模型,与 DVT 相比,训练时间节省超 58.9%。
  • 此外,DVT 在训练过程中需存储 1.4 TB 的神经场特征数据,而该方法可实时计算所有蒸馏目标,全程无需额外存储空间。



总结与展望

PH-Reg 框架包含了一种无需重训、即插即用的 ViT 模型去噪方案,在无需数据标记的条件下,通过自蒸馏能够高效修复 CLIP、DINOv2 等现有预训练模型中的伪影问题。

该研究不仅有效提升了 ViT 主干模型中密集特征的语义一致性,更为未来大规模视觉模型的快速微调与蒸馏机制探索提供了全新思路与研究方向。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“95后”留学女生遭遇“套路贷”陷阱:13万借款被恶意垒高至1260万,抵押近千万房产还债

“95后”留学女生遭遇“套路贷”陷阱:13万借款被恶意垒高至1260万,抵押近千万房产还债

红星新闻
2025-11-18 22:58:15
石破茂卸任后直言:中日若开战,日本百分之百会亡国

石破茂卸任后直言:中日若开战,日本百分之百会亡国

丹徒生
2025-11-12 05:53:54
够狂!贝森特给中国定十天期限,中国公告一出他懵了

够狂!贝森特给中国定十天期限,中国公告一出他懵了

李博世财经
2025-11-19 14:04:51
日官员结束对华磋商沉默离场,日本媒体称中方外交举动罕见

日官员结束对华磋商沉默离场,日本媒体称中方外交举动罕见

吃货的分享
2025-11-20 01:17:36
戏剧性,裁判如何冷静地制止湖人队东契奇对争议判罚的抱怨

戏剧性,裁判如何冷静地制止湖人队东契奇对争议判罚的抱怨

好火子
2025-11-20 00:35:12
知名平台人去楼空,涉案金额或超亿元,CEO被带走

知名平台人去楼空,涉案金额或超亿元,CEO被带走

21世纪经济报道
2025-11-18 09:57:42
高建民同志逝世,中央有关领导同志以不同方式表示哀悼

高建民同志逝世,中央有关领导同志以不同方式表示哀悼

新京报
2025-11-19 19:41:30
徐静雨:这一战是杨瀚森的立身之战,不会再被轻易下放了

徐静雨:这一战是杨瀚森的立身之战,不会再被轻易下放了

懂球帝
2025-11-19 15:17:09
美股三大指数再次转涨

美股三大指数再次转涨

财联社
2025-11-20 02:16:04
里子面子都丢了,森林北公布体检结果,把汪峰的体面撕个粉碎

里子面子都丢了,森林北公布体检结果,把汪峰的体面撕个粉碎

鋭娱之乐
2025-11-18 12:44:19
15号模特广东冠军续:身份被扒,曾参加多个国际比赛,主办方辟谣

15号模特广东冠军续:身份被扒,曾参加多个国际比赛,主办方辟谣

花心电影
2025-11-19 10:18:40
不装了,库里突爆争议发言!杜兰特很意外,球迷:难怪当年想走了

不装了,库里突爆争议发言!杜兰特很意外,球迷:难怪当年想走了

阿泰希特
2025-11-19 10:31:57
你的盗版Windows,可能一夜之间“失效”了!微软正式封杀KMS38,“白嫖时代”或将走向终点

你的盗版Windows,可能一夜之间“失效”了!微软正式封杀KMS38,“白嫖时代”或将走向终点

CSDN
2025-11-17 18:22:48
国台办:已收到上万封举报邮件

国台办:已收到上万封举报邮件

澎湃新闻
2025-11-19 15:00:03
归化了13人也没用!亚洲球队钻了国际足联漏洞,仍无缘世界杯

归化了13人也没用!亚洲球队钻了国际足联漏洞,仍无缘世界杯

星耀国际足坛
2025-11-19 23:23:03
你做过最疯狂的事是什么?网友:在公园亲了一小时

你做过最疯狂的事是什么?网友:在公园亲了一小时

解读热点事件
2025-10-11 00:20:03
山东女团夺冠现场观众大喊河北队,陈梦用手指做禁止出声手势回击

山东女团夺冠现场观众大喊河北队,陈梦用手指做禁止出声手势回击

阿废冷眼观察所
2025-11-20 01:18:59
俞敏洪南极邮轮被曝入住价在26万至148万元,坐一次要等两年;“内部信”风波后,其发视频称:应邀来南极,为青少年考察自然教育

俞敏洪南极邮轮被曝入住价在26万至148万元,坐一次要等两年;“内部信”风波后,其发视频称:应邀来南极,为青少年考察自然教育

极目新闻
2025-11-19 19:51:43
哇,这脸蛋极致又高级,这要是在古代,妥妥的贵妃

哇,这脸蛋极致又高级,这要是在古代,妥妥的贵妃

草莓解说体育
2025-11-16 00:45:56
狗主人赵某晖照片遭曝光:家住三层小洋房,不是差钱的人没法调解

狗主人赵某晖照片遭曝光:家住三层小洋房,不是差钱的人没法调解

汉史趣闻
2025-11-17 22:02:58
2025-11-20 03:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11756文章数 142508关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

数码
时尚
旅游
游戏
公开课

数码要闻

猫头鹰黑化版散热器风扇来袭

辛芷蕾的炸裂10分钟,让人大受震撼

旅游要闻

女性专属酒店好不好,还得由市场说了算

我的小众XP,在“玩法正确”面前一无是处?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版