网易首页 > 网易号 > 正文 申请入驻

卷积网络又双叒叕行?OverLoCK:仿生的卷积神经网络视觉基础模型

0
分享至

作者是香港大学俞益洲教授与博士生娄蒙。

你是否注意过人类观察世界的独特方式?

当面对复杂场景时,我们往往先快速获得整体印象,再聚焦关键细节。这种「纵观全局 - 聚焦细节(Overview-first-Look-Closely-next)」的双阶段认知机制是人类视觉系统强大的主要原因之一,也被称为 Top-down Attention

虽然这种机制在许多视觉任务中得到应用,但是如何利用这种机制来构建强大的 Vision Backbone 却尚未得到充分研究。

近期,香港大学将这种认知模式引入到了 Vision Backbone 的设计中,从而构建了一种全新的基于动态卷积的视觉基础模型,称为OverLoCK(Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels)。该模型在 ImageNet、COCO、ADE20K 三个极具挑战性的数据集上展现出了强大的性能。例如,30M 的参数规模的 OverLoCK-Tiny 模型在 ImageNet-1K 达到了 84.2% 的 Top-1 准确率,相比于先前 ConvNet, Transformer 与 Mamba 模型具有明显的优势。


  • 论文标题:OverLoCK: An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels
  • 论文链接:https://arxiv.org/abs/2502.20087
  • 代码链接:https://github.com/LMMMEng/OverLoCK

动机

Top-down Attention 机制中的一个关键特性是利用大脑获得的反馈信号作为显式的信息指导,从而在场景中定位关键区域。然而,现有大多数 Vision Backbone 网络(例如 Swin, ConvNeXt, 和 VMamba)采用的仍然是经典的金字塔架构:从低层到高层逐步编码特征,每层的输入特征仅依赖于前一层的输出特征,导致这些方法缺乏显式的自上而下的语义指导。因此,开发一种既能实现 Top-down Attention 机制,又具有强大性能的卷积网络,仍然是一个悬而未决的问题。

通常情况下,Top-down Attention 首先会生成较为粗糙的全局信息作为先验知识,为了充分利用这种信息,token mixer 应该具备强大动态建模能力。具体而言,token mixer 应当既能形成大感受野来自适应地建立全局依赖关系,又能保持局部归纳偏置以捕捉精细的局部特征。然而我们发现,现有的卷积方法无法同时满足这些需求:不同于 Self-attention 和 SSM 能够在不同输入分辨率下自适应建模长距离依赖,大核卷积和动态卷积由于固定核尺寸的限制,即使面对高分辨率输入时仍局限于有限区域。此外,尽管 Deformable 卷积能在一定程度上缓解这个问题,但其可变的 kernel 形态会牺牲卷积固有的归纳偏置,从而会弱化局部感知能力。因此,如何在保持强归纳偏置的前提下,使纯卷积网络获得与 Transformer 和 Mamba 相媲美的动态全局建模能力,同样是亟待解决的关键问题。

方法


让 Vision Backbone 网络具备人类视觉的「两步走」机制

研究团队从神经科学获得关键启发:人类视觉皮层通过 Top-down Attention,先形成整体认知再指导细节分析(Overview-first-Look-Closely-next)。据此,研究团队摒弃了先前 Vision Backbone 网络中经典的金字塔策略,转而提出了一种新颖的深度阶段分解(DDS, Deep-stage Decomposition) 策略来构建 Vision Backbone 网络,该机制构建的 Vision Backbone 具有 3 个子模型:

  • Base-Net:聚焦于提取中低层特征,相当于视觉系统的「视网膜」,利用了 UniRepLKNet 中的 Dilated RepConv Layer 来作为 token mixer,从而实现高效的 low-level 信息感知。
  • Overview-Net:提取较为粗糙的高级语义信息,完成「第一眼认知」。同样基于 Dilated RepConv Layer 为 token mixer,快速获得 high-level 语义信息作为 Top-down Guidance。
  • Focus-Net:在全局先验知识的引导下进行精细分析,实现「凝视观察」。基于一种全新的动态卷积 ContMix 和一种 Gate 机制来构建基本 block,旨在充分利用 Top-down Guidance 信息。

来自 Overview-Net 的 Top-down Guidance 不仅会在特征和 kernel 权重两个层面对 Focus-Net 进行引导,还会沿着前向传播过程在每个 block 中持续更新。具体而言,Top-down Guidance 会同时参与计算 Gate 和生成动态卷积权重,还会整合到 feature map 中,从而全方位地将 high-level 语义信息注入到 Focus-Net 中,获得更为鲁棒的特征表示能力。

图 1 OverLoCK 模型整体框架和基本模块

图 2 ContMix 框架图

具有强大 Context-Mixing 能力的动态卷积 --- ContMix

为了能够更好地适应不同输入分辨率,同时保持强大的归纳偏置,进而充分利用 Overview-Net 提供的 Top-down Guidance,研究团队提出了一种新的动态卷积模块 --- ContMix。其核心创新在于通过计算特征图中每个 token 与多个区域的中心 token 的 affinity map 来表征该 token 与全局上下文的联系,进而以可学习方式将 affinity map 转换为动态卷积核,并将全局上下文信息注入到卷积核内部的每个权重。当动态卷积核通过滑动窗口作用于特征图时,每个 token 都会与全局信息发生调制。简言之,即便是在局部窗口进行操作,ContMix 仍然具备强大的全局建模能力。实验中,我们发现将当前输入的 feature map 作为 query,并将 Top-down Guidance 作为 key 来计算动态卷积核,相较于使用二者级联得到的特征生成的 query/key pairs 具有更好的性能。

实验结果


图像分类

OverLoCK 在大规模数据集 ImageNet-1K 上表现出了卓越的性能,相较于现有方法展现出更为出色的性能以及更加优秀的 tradeoff。例如,OverLoCK 在近似同等参数量的条件下大幅超越了先前的大核卷积网络 UniRepLKNet。同时,相较于基于 Gate 机制构建的卷积网络 MogaNet 也具有非常明显的优势。

表 1 ImageNet-1K 图像分类性能比较

目标检测和实例分割

如表 2 所示,在 COCO 2017 数据集上,OverLoCK 同样展示出了更优的性能。例如,使用 Mask R-CNN (1× Schedule) 为基本框架时,OverLoCK-S 在 APb 指标上相较于 BiFormer-B 和 MogaNet-B 分别提升了 0.8% 和 1.5%。在使用 Cascade Mask R-CNN 时,OverLoCK-S 分别比 PeLK-S 和 UniRepLKNet-S 提升了 1.4% 和 0.6% APb。值得注意的是,尽管基于卷积网络的方法在图像分类任务中与 Transformer 类方法表现相当,但在检测任务上却存在明显性能差距。以 MogaNet-B 和 BiFormer-B 为例,两者在 ImageNet-1K 上都达到 84.3% 的 Top-1 准确率,但在检测任务中前者性能明显落后于后者。这一发现有力印证了我们之前的论点 —卷积网络固定尺寸的卷积核导致有限感受野,当采用大分辨率输入时可能会性能下降。相比之下,我们提出的 OverLoCK 网络即使在大分辨率场景下也能有效捕捉长距离依赖关系,从而展现出卓越性能。

表 2 目标检测和实例分割性能比较

表 3 语义分割性能比较

语义分割

如表 3 所示,OverLoCK 在 ADE20K 上也进行了全面的评估,其性能在与一些强大的 Vision Backbone 的比较中脱颖而出,并且有着更优秀的 tradeoff。例如,OverLoCK-T 以 1.1% mIoU 的优势超越 MogaNet-S,较 UniRepLKNet-T 提升 1.7%。更值得一提的是,即便与强调全局建模能力的 VMamba-T 相比,OverLoCK-T 仍保持 2.3% mIoU 的显著优势。

消融研究

值得注意的是,所提出的 ContMix 是一种即插即用的模块。因此,我们基于不同的 token mixer 构建了类似的金字塔架构。如表 4 所示,我们的 ContMix 相较于其他 mixer 具有明显的优势,这种优势在更高分辨率的语义分割任务上尤为明显,这主要是因为 ContMix 具有强大的全局建模能力(更多实验请参见原文)。

表 4 不同 token mixer 的性能比较

可视化研究

不同 vision backbone 网络的有效感受野对比:如图 3 所示,OverLoCK 在具有最大感受野的同时还具备显著的局部敏感度,这是其他网络无法兼备的能力。

Top-down Guidance 可视化:为了直观呈现 Top-down Guidance 的效果,我们采用 Grad-CAM 对 OverLoCK 中 Overview-Net 与 Focus-Net 生成的特征图进行了对比分析。如图 4 所示,Overview-Net 首先生成目标物体的粗粒度定位,当该信号作为 Top-down Guidance 注入 Focus-Net 后,目标物体的空间定位和轮廓特征被显著精细化。这一现象和人类视觉中 Top-down Attention 机制极为相似,印证了 OverLoCK 的设计合理性。


图 3 有效感受野比较

图 4 Top-down guidance 可视化

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国衰落,就是一个巨大的谎言

美国衰落,就是一个巨大的谎言

枫冷慕诗
2026-01-06 12:28:30
他是著名演员,从发病到去世仅20分钟,主持人儿子比他更有名

他是著名演员,从发病到去世仅20分钟,主持人儿子比他更有名

削桐作琴
2026-03-21 15:03:45
赵心童:谢菲尔德已成为我在英国的家,很高兴将世锦赛留在这里

赵心童:谢菲尔德已成为我在英国的家,很高兴将世锦赛留在这里

懂球帝
2026-03-25 12:33:08
河北一网友称加完油才发现是“中园石化”,涉事加油站回应称名字是经过审批的;此前有加油站因与中国石化logo近似,被行政处罚10000元

河北一网友称加完油才发现是“中园石化”,涉事加油站回应称名字是经过审批的;此前有加油站因与中国石化logo近似,被行政处罚10000元

潇湘晨报
2026-03-24 12:09:32
66岁大妈喜欢睡前泡脚,不久脑梗去世,专家怒斥:太无知了

66岁大妈喜欢睡前泡脚,不久脑梗去世,专家怒斥:太无知了

比利
2026-03-21 13:00:22
高市早苗称愿与中方对话,然后北京提了要求,日本上下都沉默了

高市早苗称愿与中方对话,然后北京提了要求,日本上下都沉默了

安安说
2026-03-25 11:00:02
黄河壶口瀑布:你喊“妈”可以,但说她“要钱”就不行

黄河壶口瀑布:你喊“妈”可以,但说她“要钱”就不行

难得君
2026-03-23 09:27:50
张雪峰抢救医疗文件疑遭泄露?苏州市卫生健康委员会:已关注到此事并在处理

张雪峰抢救医疗文件疑遭泄露?苏州市卫生健康委员会:已关注到此事并在处理

大风新闻
2026-03-25 12:15:05
深夜利好,半导体龙头利润增3213%,8股高增5股暴雷,别踩雷

深夜利好,半导体龙头利润增3213%,8股高增5股暴雷,别踩雷

风风顺
2026-03-25 00:00:07
马立新已任青岛市委常委、统战部部长

马立新已任青岛市委常委、统战部部长

齐鲁壹点
2026-03-25 16:24:14
人民网观点:“儿童票”当与时俱进

人民网观点:“儿童票”当与时俱进

人民资讯
2026-03-25 13:22:41
一场125-123给湖人送上大礼!前3很稳,紫金军望迎最佳季后赛形势

一场125-123给湖人送上大礼!前3很稳,紫金军望迎最佳季后赛形势

杨仔述
2026-03-25 14:12:32
港圈传奇落幕,79岁郑少秋生日当天宣布退休

港圈传奇落幕,79岁郑少秋生日当天宣布退休

大象新闻
2026-03-25 20:09:04
不想血管“长满”斑块?做好这6件事让你的血管更健康

不想血管“长满”斑块?做好这6件事让你的血管更健康

大象新闻
2026-03-19 07:20:04
为什么整容一眼能看出来?网友:其实真的很硅胶

为什么整容一眼能看出来?网友:其实真的很硅胶

夜深爱杂谈
2026-03-25 20:59:12
美国人终于发现:中国的东风导弹,不用击沉我们航母,擦着即伤!

美国人终于发现:中国的东风导弹,不用击沉我们航母,擦着即伤!

触摸史迹
2026-03-24 12:32:06
清明前后,这6种水果要多吃,应季而食受益多,当季水分足口感好

清明前后,这6种水果要多吃,应季而食受益多,当季水分足口感好

Lily美食谈
2026-03-24 21:37:45
为啥说小孩子的话总是口无遮拦?网友:妈妈坐在爸爸身上拉屎!

为啥说小孩子的话总是口无遮拦?网友:妈妈坐在爸爸身上拉屎!

三年的老核桃
2026-03-18 07:20:03
前程尽毁!香港高级警司涉非礼女下属,庭审内情曝光...

前程尽毁!香港高级警司涉非礼女下属,庭审内情曝光...

港港地
2026-03-24 10:06:51
央视怒批!“绝望的文盲”丢脸到国外,冯远征的话终于有人信了

央视怒批!“绝望的文盲”丢脸到国外,冯远征的话终于有人信了

阿会情感
2026-03-10 12:05:03
2026-03-25 21:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12598文章数 142593关注度
往期回顾 全部

科技要闻

红极一时却草草收场,Sora宣布正式关停

头条要闻

伊朗放话愿意与"主和派"万斯谈 特朗普表态

头条要闻

伊朗放话愿意与"主和派"万斯谈 特朗普表态

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰经抢救无效不幸去世 年仅41岁

财经要闻

管涛:中东局势如何影响人民币汇率走势?

汽车要闻

智己LS8放大招 30万内8系旗舰+全线控底盘秀实力

态度原创

艺术
本地
时尚
公开课
军事航空

艺术要闻

《百花谱》,这个春天画花不用愁!

本地新闻

来永泰同安 赴一场春天的约会

今年春天最时髦的穿法:长外套+长裙、长针织+长裤,太高级了!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗重申非交战国家船只可安全通过霍尔木兹海峡

无障碍浏览 进入关怀版