网易首页 > 网易号 > 正文 申请入驻

卷积网络又双叒叕行?OverLoCK:仿生的卷积神经网络视觉基础模型

0
分享至

作者是香港大学俞益洲教授与博士生娄蒙。

你是否注意过人类观察世界的独特方式?

当面对复杂场景时,我们往往先快速获得整体印象,再聚焦关键细节。这种「纵观全局 - 聚焦细节(Overview-first-Look-Closely-next)」的双阶段认知机制是人类视觉系统强大的主要原因之一,也被称为 Top-down Attention

虽然这种机制在许多视觉任务中得到应用,但是如何利用这种机制来构建强大的 Vision Backbone 却尚未得到充分研究。

近期,香港大学将这种认知模式引入到了 Vision Backbone 的设计中,从而构建了一种全新的基于动态卷积的视觉基础模型,称为OverLoCK(Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels)。该模型在 ImageNet、COCO、ADE20K 三个极具挑战性的数据集上展现出了强大的性能。例如,30M 的参数规模的 OverLoCK-Tiny 模型在 ImageNet-1K 达到了 84.2% 的 Top-1 准确率,相比于先前 ConvNet, Transformer 与 Mamba 模型具有明显的优势。


  • 论文标题:OverLoCK: An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels
  • 论文链接:https://arxiv.org/abs/2502.20087
  • 代码链接:https://github.com/LMMMEng/OverLoCK

动机

Top-down Attention 机制中的一个关键特性是利用大脑获得的反馈信号作为显式的信息指导,从而在场景中定位关键区域。然而,现有大多数 Vision Backbone 网络(例如 Swin, ConvNeXt, 和 VMamba)采用的仍然是经典的金字塔架构:从低层到高层逐步编码特征,每层的输入特征仅依赖于前一层的输出特征,导致这些方法缺乏显式的自上而下的语义指导。因此,开发一种既能实现 Top-down Attention 机制,又具有强大性能的卷积网络,仍然是一个悬而未决的问题。

通常情况下,Top-down Attention 首先会生成较为粗糙的全局信息作为先验知识,为了充分利用这种信息,token mixer 应该具备强大动态建模能力。具体而言,token mixer 应当既能形成大感受野来自适应地建立全局依赖关系,又能保持局部归纳偏置以捕捉精细的局部特征。然而我们发现,现有的卷积方法无法同时满足这些需求:不同于 Self-attention 和 SSM 能够在不同输入分辨率下自适应建模长距离依赖,大核卷积和动态卷积由于固定核尺寸的限制,即使面对高分辨率输入时仍局限于有限区域。此外,尽管 Deformable 卷积能在一定程度上缓解这个问题,但其可变的 kernel 形态会牺牲卷积固有的归纳偏置,从而会弱化局部感知能力。因此,如何在保持强归纳偏置的前提下,使纯卷积网络获得与 Transformer 和 Mamba 相媲美的动态全局建模能力,同样是亟待解决的关键问题。

方法


让 Vision Backbone 网络具备人类视觉的「两步走」机制

研究团队从神经科学获得关键启发:人类视觉皮层通过 Top-down Attention,先形成整体认知再指导细节分析(Overview-first-Look-Closely-next)。据此,研究团队摒弃了先前 Vision Backbone 网络中经典的金字塔策略,转而提出了一种新颖的深度阶段分解(DDS, Deep-stage Decomposition) 策略来构建 Vision Backbone 网络,该机制构建的 Vision Backbone 具有 3 个子模型:

  • Base-Net:聚焦于提取中低层特征,相当于视觉系统的「视网膜」,利用了 UniRepLKNet 中的 Dilated RepConv Layer 来作为 token mixer,从而实现高效的 low-level 信息感知。
  • Overview-Net:提取较为粗糙的高级语义信息,完成「第一眼认知」。同样基于 Dilated RepConv Layer 为 token mixer,快速获得 high-level 语义信息作为 Top-down Guidance。
  • Focus-Net:在全局先验知识的引导下进行精细分析,实现「凝视观察」。基于一种全新的动态卷积 ContMix 和一种 Gate 机制来构建基本 block,旨在充分利用 Top-down Guidance 信息。

来自 Overview-Net 的 Top-down Guidance 不仅会在特征和 kernel 权重两个层面对 Focus-Net 进行引导,还会沿着前向传播过程在每个 block 中持续更新。具体而言,Top-down Guidance 会同时参与计算 Gate 和生成动态卷积权重,还会整合到 feature map 中,从而全方位地将 high-level 语义信息注入到 Focus-Net 中,获得更为鲁棒的特征表示能力。

图 1 OverLoCK 模型整体框架和基本模块

图 2 ContMix 框架图

具有强大 Context-Mixing 能力的动态卷积 --- ContMix

为了能够更好地适应不同输入分辨率,同时保持强大的归纳偏置,进而充分利用 Overview-Net 提供的 Top-down Guidance,研究团队提出了一种新的动态卷积模块 --- ContMix。其核心创新在于通过计算特征图中每个 token 与多个区域的中心 token 的 affinity map 来表征该 token 与全局上下文的联系,进而以可学习方式将 affinity map 转换为动态卷积核,并将全局上下文信息注入到卷积核内部的每个权重。当动态卷积核通过滑动窗口作用于特征图时,每个 token 都会与全局信息发生调制。简言之,即便是在局部窗口进行操作,ContMix 仍然具备强大的全局建模能力。实验中,我们发现将当前输入的 feature map 作为 query,并将 Top-down Guidance 作为 key 来计算动态卷积核,相较于使用二者级联得到的特征生成的 query/key pairs 具有更好的性能。

实验结果


图像分类

OverLoCK 在大规模数据集 ImageNet-1K 上表现出了卓越的性能,相较于现有方法展现出更为出色的性能以及更加优秀的 tradeoff。例如,OverLoCK 在近似同等参数量的条件下大幅超越了先前的大核卷积网络 UniRepLKNet。同时,相较于基于 Gate 机制构建的卷积网络 MogaNet 也具有非常明显的优势。

表 1 ImageNet-1K 图像分类性能比较

目标检测和实例分割

如表 2 所示,在 COCO 2017 数据集上,OverLoCK 同样展示出了更优的性能。例如,使用 Mask R-CNN (1× Schedule) 为基本框架时,OverLoCK-S 在 APb 指标上相较于 BiFormer-B 和 MogaNet-B 分别提升了 0.8% 和 1.5%。在使用 Cascade Mask R-CNN 时,OverLoCK-S 分别比 PeLK-S 和 UniRepLKNet-S 提升了 1.4% 和 0.6% APb。值得注意的是,尽管基于卷积网络的方法在图像分类任务中与 Transformer 类方法表现相当,但在检测任务上却存在明显性能差距。以 MogaNet-B 和 BiFormer-B 为例,两者在 ImageNet-1K 上都达到 84.3% 的 Top-1 准确率,但在检测任务中前者性能明显落后于后者。这一发现有力印证了我们之前的论点 —卷积网络固定尺寸的卷积核导致有限感受野,当采用大分辨率输入时可能会性能下降。相比之下,我们提出的 OverLoCK 网络即使在大分辨率场景下也能有效捕捉长距离依赖关系,从而展现出卓越性能。

表 2 目标检测和实例分割性能比较

表 3 语义分割性能比较

语义分割

如表 3 所示,OverLoCK 在 ADE20K 上也进行了全面的评估,其性能在与一些强大的 Vision Backbone 的比较中脱颖而出,并且有着更优秀的 tradeoff。例如,OverLoCK-T 以 1.1% mIoU 的优势超越 MogaNet-S,较 UniRepLKNet-T 提升 1.7%。更值得一提的是,即便与强调全局建模能力的 VMamba-T 相比,OverLoCK-T 仍保持 2.3% mIoU 的显著优势。

消融研究

值得注意的是,所提出的 ContMix 是一种即插即用的模块。因此,我们基于不同的 token mixer 构建了类似的金字塔架构。如表 4 所示,我们的 ContMix 相较于其他 mixer 具有明显的优势,这种优势在更高分辨率的语义分割任务上尤为明显,这主要是因为 ContMix 具有强大的全局建模能力(更多实验请参见原文)。

表 4 不同 token mixer 的性能比较

可视化研究

不同 vision backbone 网络的有效感受野对比:如图 3 所示,OverLoCK 在具有最大感受野的同时还具备显著的局部敏感度,这是其他网络无法兼备的能力。

Top-down Guidance 可视化:为了直观呈现 Top-down Guidance 的效果,我们采用 Grad-CAM 对 OverLoCK 中 Overview-Net 与 Focus-Net 生成的特征图进行了对比分析。如图 4 所示,Overview-Net 首先生成目标物体的粗粒度定位,当该信号作为 Top-down Guidance 注入 Focus-Net 后,目标物体的空间定位和轮廓特征被显著精细化。这一现象和人类视觉中 Top-down Attention 机制极为相似,印证了 OverLoCK 的设计合理性。


图 3 有效感受野比较

图 4 Top-down guidance 可视化

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪:德比斯夺10冠就是年度总冠军!雅马哈怎么追也追不上我们

张雪:德比斯夺10冠就是年度总冠军!雅马哈怎么追也追不上我们

念洲
2026-05-27 09:04:41
段睿深夜悲痛发文:再也没有人等我回去了!

段睿深夜悲痛发文:再也没有人等我回去了!

原梦叁生
2026-04-22 20:06:36
被网友们“低成本防蚊大法”惊到了!不花啥钱,让蚊子不敢靠近

被网友们“低成本防蚊大法”惊到了!不花啥钱,让蚊子不敢靠近

抠搜侠
2026-05-25 14:33:50
两次卖出英伟达,少赚2500亿美元!孙正义抱着黄仁勋哭

两次卖出英伟达,少赚2500亿美元!孙正义抱着黄仁勋哭

科技专家
2026-05-27 14:42:47
炸裂!顶级豪门丑闻!继承人崩溃痛哭:被亲哥X侵12年,全家默许

炸裂!顶级豪门丑闻!继承人崩溃痛哭:被亲哥X侵12年,全家默许

北国向锡安
2026-05-19 11:38:24
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
中储粮集团西安分公司党委书记、总经理戴中文被查

中储粮集团西安分公司党委书记、总经理戴中文被查

新京报
2026-05-27 10:23:40
比亚迪13万混动新王炸!云辇C+大床房,友商睡不着

比亚迪13万混动新王炸!云辇C+大床房,友商睡不着

娱乐圈的笔娱君
2026-05-27 16:11:07
《主角》米兰回归,才知,胡三元迎娶花彩香,易青娥嫁给刘红兵

《主角》米兰回归,才知,胡三元迎娶花彩香,易青娥嫁给刘红兵

小陆搞笑日常
2026-05-27 21:11:50
许家印认罪!2.4万亿窟窿,家族只拿走500亿,其余真金白银去哪了

许家印认罪!2.4万亿窟窿,家族只拿走500亿,其余真金白银去哪了

蜉蝣说
2026-04-23 09:41:11
台湾“馆长”摸车摸到哽咽:流水线能造车,造不了这滴泪

台湾“馆长”摸车摸到哽咽:流水线能造车,造不了这滴泪

童叔不飙车
2026-05-27 12:05:34
2026年到底有多少人在失业啊?

2026年到底有多少人在失业啊?

黯泉
2026-05-27 20:45:07
杭州白嫖女视频火到国外:为白嫖一顿外卖,把精致利己演到极致

杭州白嫖女视频火到国外:为白嫖一顿外卖,把精致利己演到极致

十为先生
2026-05-27 10:46:27
外媒:中国已被得寸进尺的欧盟激怒,对欧洲“先兵后礼”十分罕见

外媒:中国已被得寸进尺的欧盟激怒,对欧洲“先兵后礼”十分罕见

一曲一场談
2026-05-27 15:35:08
不靠内马尔也不只靠维尼修斯,安切洛蒂这招真狠,巴西这次要玩命

不靠内马尔也不只靠维尼修斯,安切洛蒂这招真狠,巴西这次要玩命

叹为观止易
2026-05-27 15:22:31
豪门梦碎?奥运体操女神净身出户,前夫说"发福"撕开婚姻遮羞布?

豪门梦碎?奥运体操女神净身出户,前夫说"发福"撕开婚姻遮羞布?

杨仔述
2026-05-26 01:08:47
这4种鱼,可能含有甲醛和重金属,建议:还是少吃比较好!

这4种鱼,可能含有甲醛和重金属,建议:还是少吃比较好!

阿龙美食记
2026-03-24 21:52:23
打虎!江西省委常委、统战部部长李伟被查

打虎!江西省委常委、统战部部长李伟被查

观察者网
2026-05-27 18:32:07
92岁台湾老兵回重庆寻亲,下飞机后却怒斥子女:这不还是台北

92岁台湾老兵回重庆寻亲,下飞机后却怒斥子女:这不还是台北

莫地方
2026-05-26 01:30:03
五年后,王钰栋在国家队打不上主力

五年后,王钰栋在国家队打不上主力

中场阴谋家
2026-05-26 09:45:22
2026-05-27 23:52:50
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13097文章数 142653关注度
往期回顾 全部

科技要闻

韬定律:全球在卷纳米数 华为换了一把尺子

头条要闻

女子称车祸住院遭男医生侵犯 送检的纸巾检出医生精斑

头条要闻

女子称车祸住院遭男医生侵犯 送检的纸巾检出医生精斑

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

王鹤棣风波连累父亲炸串店遭差评?

财经要闻

中国半导体的阳谋

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

教育
家居
手机
时尚
房产

教育要闻

陕旅版三年级英语上册《Unit 3 Good morni..

家居要闻

古老而持久 石影扶手椅

手机要闻

苹果发布iOS 26.6 Beta及AirTag2新固件,新增屏蔽联系人上限提示

这几件单品太火了,今年流行的风格都离不开它

房产要闻

合生创展前总裁被查!直指房企违规放贷、利益输送等问题

无障碍浏览 进入关怀版