网易首页 > 网易号 > 正文 申请入驻

香港大学提出无需数据标记的ViT密集表征增强方法

0
分享至



本文共同第一作者为陈寅杰、颜子鹏,相关研究工作于香港大学科研实习期间完成;通讯作者 Andrew F. Luo 为香港大学助理教授。该工作已经被 NeurIPS 2025 会议接受为 Spotlight。

在视觉处理任务中,Vision Transformers(ViTs)已发展成为主流架构。然而,近期研究表明,ViT 模型的密集特征中会出现部分与局部语义不一致的伪影(artifact),进而削弱模型在精细定位类任务中的性能表现。因此,如何在不耗费大量计算资源的前提下,保留 ViT 模型预训练核心信息并消除密集特征中的伪影?

香港大学团队提出一种无需数据标记的 ViT 密集表征增强方法 PH-Reg(Post Hoc Registers),为该挑战提供了全新且高效的解决方法。该方法融合测试时增强(test-time augmentation)的去噪策略,去除教师模型密集特征中的伪影;并通过自蒸馏方法,在无需额外数据标记的条件下,得到能够输出无伪影密集特征的学生模型。

PH-Reg 具备良好的架构适配性,可灵活应用于 CLIP、DINOv2 等不同模型架构,能够高效去除密集特征的伪影,以此显著提升模型在下游任务中的性能表现。



  • 论文标题:Vision Transformers with Self-Distilled Registers
  • 论文地址:https://arxiv.org/abs/2505.21501
  • 代码地址:https://github.com/0raiser0/PH-Reg

伪影破坏模型密集特征的语义一致性

尽管当前 ViT 模型基于数据驱动的注意力机制具备强大表示能力,但模型密集特征中存在的伪影往往会破坏其精细定位能力,而该能力对于语义分割等需高空间精度的任务而言至关重要。传统的优化方法,如在模型架构中添加 register tokens 并从头开始训练,需要消耗大量的计算资源,导致现有模型的性能提升既昂贵又耗时。

为解决上述问题,该论文提出一种高效的 PH-Reg 自蒸馏框架。该框架无需数据标记,且不再依赖 “从头开始” 的全量训练,而是通过巧妙结合测试时(test-time)密集特征增强和自蒸馏策略,仅优化学生模型中少量解锁的权重参数,即可实现无伪影的密集特征增强。



自蒸馏框架结合免训练实现去除伪影,无需数据标记实现无伪影的密集特征

1. 免训练去噪算法

研究发现,伪影并非相对于图像内容保持静态,因此当图像经过增强处理(如随机偏移、水平翻转等)时,密集特征中的伪影并不会以相同方式或幅度同步偏移。受此启发,此算法在无需梯度反向传播的情况下,能够生成去噪且无伪影的密集特征。

2. 自蒸馏框架

PH-Reg 采用自蒸馏策略,无需依赖数据标记,仅通过引入 register tokens,以最小侵入性方式对学生模型架构进行增强。在蒸馏过程中,仅对 register tokens、卷积层、位置嵌入(positional embeddings)及最后一个 Transformer 模块进行针对性更新,既最大限度保留了 ViT 模型预训练权重的核心信息,又显著节省了计算资源。

实验结果

本文应用该方法对多个 ViT 主干模型在多种密集特征预测任务上进行了系统验证,实现结果表明在不同模型与任务类型下均展现出一致且稳定的替身效果,体现了该方法的鲁棒性的广泛适用性。主要实验结果如下:

1. 开放词汇语义分割任务

  • 在 VOC、COCO、ADE20K 等八个开放词汇语义分割基准数据集上,PH-Reg 在其中七个数据集上的性能超越了 MaskCLIP、SCLIP、NACLIP、ClearCLIP 等主流方法。
  • 此外,与 DVT 这一相似去噪方法相比,PH-Reg 能为 MaskCLIP 与 NACLIP 带来更加显著的性能提升。



2. 线性探测任务

  • 在语义分割任务中,该方法为所有 ViT 骨干模型带来了实质性性能增益。特别对于 CLIP 模型,其在 VOC21 数据集上的 mIoU 显著提升 5.04%,在 ADE20k 数据集上的 mIoU 提升 3.64%。
  • 在深度估计任务中,该方法同样为预训练 ViT 骨干模型带来了稳定的性能提升,且仅通过引入 register tokens,便在参数量增加可忽略不计的前提下,取得了更优结果。



3. 高效的蒸馏过程

  • 该方法的核心优势在于无需依赖基于梯度的神经场学习,因此采用单阶段蒸馏方式训练学生模型,与 DVT 相比,训练时间节省超 58.9%。
  • 此外,DVT 在训练过程中需存储 1.4 TB 的神经场特征数据,而该方法可实时计算所有蒸馏目标,全程无需额外存储空间。



总结与展望

PH-Reg 框架包含了一种无需重训、即插即用的 ViT 模型去噪方案,在无需数据标记的条件下,通过自蒸馏能够高效修复 CLIP、DINOv2 等现有预训练模型中的伪影问题。

该研究不仅有效提升了 ViT 主干模型中密集特征的语义一致性,更为未来大规模视觉模型的快速微调与蒸馏机制探索提供了全新思路与研究方向。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
汉武帝为什么总选春天进攻匈奴?司马光:匈奴女子春天更容易怀孕

汉武帝为什么总选春天进攻匈奴?司马光:匈奴女子春天更容易怀孕

云霄纪史观
2026-05-08 00:57:48
小宝与王某雷,谁探访花的数量更多?

小宝与王某雷,谁探访花的数量更多?

挪威森林
2026-01-31 12:15:26
独“造”三球!国安外援拉莫斯单场送点+送礼+手球致进球无效

独“造”三球!国安外援拉莫斯单场送点+送礼+手球致进球无效

懂球帝
2026-05-10 21:53:09
拼多多在海外因“砍一刀”营销被处罚:每个用户赔偿45元

拼多多在海外因“砍一刀”营销被处罚:每个用户赔偿45元

识礁Farsight
2026-05-09 11:37:16
劝年纪不到50的女人,身体还行,公司不开除,就不要轻易放弃工作

劝年纪不到50的女人,身体还行,公司不开除,就不要轻易放弃工作

小马达情感故事
2026-05-09 19:50:03
国家一级女演员陈丽云被逮捕!

国家一级女演员陈丽云被逮捕!

许三岁
2026-03-28 09:24:30
桥本帆乃香本届世乒赛6战5胜,仅在小组赛2-3不敌温特

桥本帆乃香本届世乒赛6战5胜,仅在小组赛2-3不敌温特

懂球帝
2026-05-10 21:10:26
情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

新欧洲
2026-04-21 19:37:05
特朗普表示,已经击败伊朗,还可以再打2周,会得到伊朗的浓缩铀

特朗普表示,已经击败伊朗,还可以再打2周,会得到伊朗的浓缩铀

山河路口
2026-05-10 23:13:09
央视与国际足联谈崩,越南1500万购中国8000万嫌贵

央视与国际足联谈崩,越南1500万购中国8000万嫌贵

二大爷观世界
2026-05-10 14:59:35
“万人迷”豆包,这回踢到铁板上了

“万人迷”豆包,这回踢到铁板上了

金错刀
2026-05-08 09:40:44
“运动”和“不运动”的中年男人,看他的体态就知道了,差别太大

“运动”和“不运动”的中年男人,看他的体态就知道了,差别太大

马拉松跑步健身
2026-04-28 21:14:16
就算中产不装了,也不会买“保罗散步”

就算中产不装了,也不会买“保罗散步”

中国新闻周刊
2026-05-10 23:25:23
中超神剧情:第81分钟进球,补时点射绝平,王钰栋哑火:8场仅1球

中超神剧情:第81分钟进球,补时点射绝平,王钰栋哑火:8场仅1球

足球狗说
2026-05-10 21:38:44
比穆里尼奥还意外!皇马换帅突发反转,球迷看完集体炸锅

比穆里尼奥还意外!皇马换帅突发反转,球迷看完集体炸锅

澜归序
2026-05-10 03:03:26
美国突曝海量UFO文件!中国三大经典UFO事件:萧山机场真相颠覆!

美国突曝海量UFO文件!中国三大经典UFO事件:萧山机场真相颠覆!

大稻网络科技
2026-05-09 09:29:34
黄仁勋摊牌了!全球峰会直言中国不配顶级芯片。

黄仁勋摊牌了!全球峰会直言中国不配顶级芯片。

荆楚寰宇文枢
2026-05-10 23:19:41
排面直接拉满!小霖霖10岁生日全员奔赴湾湾,马筱梅格局彻底圈粉

排面直接拉满!小霖霖10岁生日全员奔赴湾湾,马筱梅格局彻底圈粉

喜欢历史的阿繁
2026-05-10 12:56:08
我穿便装到妻子家过年,被厅长大舅哥使唤,警卫员送来文件他愣了

我穿便装到妻子家过年,被厅长大舅哥使唤,警卫员送来文件他愣了

千秋文化
2026-05-08 10:29:06
邦本宜裕:换新教练后阵型有改变,上半场大家踢得不是很熟悉

邦本宜裕:换新教练后阵型有改变,上半场大家踢得不是很熟悉

懂球帝
2026-05-10 21:53:10
2026-05-11 00:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12957文章数 142647关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

本地
教育
亲子
手机
艺术

本地新闻

用苏绣的方式,打开江西婺源

教育要闻

请教会你的孩子有能力分辨和说不!

亲子要闻

“顺”还是“剖”?从成为母亲的选择说起

手机要闻

联想拯救者手机Y70新一代现身Geekbench

艺术要闻

31亿,207米!中国第一大民企的深圳总部,封顶!

无障碍浏览 进入关怀版