网易首页 > 网易号 > 正文 申请入驻

ApdativeNN:建模类人自适应感知机制,突破机器视觉不可能三角

0
分享至



视觉是人类理解复杂物理世界的重要方式。让计算机具备视觉感知与认知的能力,是人工智能的主要研究问题之一,对多模态基础模型、具身智能、医疗 AI 等重要领域具有关键支撑作用。过去几十年间,计算机视觉取得了显著突破,已在图像识别、目标检测、多模态理解等多个任务上接近甚至超越人类专家水平。然而,当前的高精度模型在实际落地中常面临较大挑战:它们的推理过程往往需要激活上亿参数来处理高分辨率图像或视频、以解决复杂和挑战性的视觉问题,导致功耗、存储需求和响应时延急剧上升。这一瓶颈使得它们难以部署在算力、能耗、存储等资源高度受限的实际系统中(如机器人、自动驾驶、移动设备或边缘终端等),甚至在医疗、交通等场景下由于延迟决策危害生命安全。另一方面,大型模型庞大的推理能耗在也带来了大规模部署的环境可持续性问题。

上述挑战的一个重要原因在于现有视觉模型普遍采用了全局表征学习范式:一次性并行处理整幅图像或视频的所有像素、提取全部对应特征,再应用于具体任务。这种 “全局并行计算” 范式使得模型计算复杂度随输入尺寸呈至少平方或立方增长,逐渐形成了一个日益严峻的能效瓶颈:信息丰富的高分辨率时空输入、性能领先的大型模型、高效快速推理,三者难以同时满足。这一挑战正在成为制约视觉智能走向大规模、可部署落地、低碳环保的公认难题。



图1 当前计算机视觉范式所面临的能效瓶颈

人类视觉系统为突破上述瓶颈提供了重要启示:在观察复杂环境时,人眼不会一次性处理全部视觉信息,而是通过一系列 “注视” 动作主动、选择性地采样关键区域,以小范围高分辨率的感知逐步拼接出对物理世界中有用信息的认知。这种先进的机制能在庞杂的信息流中快速筛取要点,大幅降低计算开销,使得人类高度复杂的视觉系统即便在资源受限的前提下依然能够高效、快速运行。无论外界场景多么复杂,人类视觉的能耗主要取决于注视带宽与注视次数,而非全局像素量。早在 2015 年,LeCun, Bengio, Hinton 便在《Nature》综述论文 “Deep Learning” 中指出,未来的 AI 视觉系统应具备类人的、任务驱动的主动观察能力。然而近十年来,这一方向仍缺乏系统性研究。



图2 人类视觉系统的主动自适应感知策略

2025 年 11 月,清华大学自动化系宋士吉、黄高团队在《自然・机器智能》(Nature Machine Intelligence)上发表了论文《Emulating human-like adaptive vision for efficient and flexible machine visual perception》(模拟人类自适应视觉,实现高效灵活的机器视觉感知)。该研究提出了AdaptiveNN 架构,通过借鉴人类 “主动自适应视觉” 的机制,将视觉感知建模为由粗到精的最优序贯决策问题:逐步定位关键区域、累积多次注视信息,并在信息足够完成任务时主动终止观察。在理论上,该研究通过结合表征学习与自奖励强化学习,给出了 AdaptiveNN 所面临的离散 - 连续混合优化问题的无需额外监督的端到端求解方法。在涵盖 9 类任务的广泛实验中,AdaptiveNN 在保持精度的同时实现了最高 28 倍的推理成本降低,可在线动态调整其行为以适配不同任务需求与算力约束,同时,其基于注视路径的推理机制显著提升了可解释性。AdaptiveNN 展现出构建高效、灵活且可解释的计算机视觉新范式的潜力。另一方面,AdaptiveNN 的感知行为在多项测试中与人类接近,也为未来探索人类视觉认知机制的关键问题提供了新的见解和研究工具。



  • 论文标题:Emulating human-like adaptive vision for efficient and flexible machine visual perception
  • 论文链接:https://www.nature.com/articles/s42256-025-01130-7

AdaptiveNN:类人主动感知架构



借助这一机制,AdaptiveNN 能够在保证高精度的同时显著降低计算量,实现“看得清,也看得省”。它使神经网络具备了类人式的主动感知,从而突破了传统视觉模型在效率与效果之间的权衡瓶颈。

值得注意的是,AdaptiveNN 在设计上具有较强的兼容性和灵活性,适用于多种不同的深度神经网络基础架构(如卷积网络、Transformer等)和多种类型的任务(如纯视觉感知、视觉-语言多模态联合建模等)。



图3 AdaptiveNN的网络架构和推理过程

理论创新:自激励强化学习驱动的主动感知行为学习

AdaptiveNN 的训练过程同时涉及连续变量(如从注视区域中提取特征)与离散变量(如决定下一次注视位置)的优化,传统反向传播算法难以直接处理这一混合问题。为此,研究团队在理论上提出了面向离散 - 连续混合优化问题的端到端求解方法,使 AdaptiveNN 能够在统一框架下简单易行地完成整体训练。具体而言,从期望优化目标出发,对整体损失函数 L(θ) 进行分解,AdaptiveNN 的端到端优化过程可自然地分解为两部分



其中第一项为表征学习目标(representation learning),对应于从注视区域中提取任务相关的特征;第二项为自激励强化学习目标(self-rewarding reinforcement learning),对应于优化注视位置的分布,驱使模型的主动注视行为实现最大化的任务收益。这一理论结果揭示了 AdaptiveNN 的内在学习规律:主动感知的优化本质上是表征学习与强化学习的统一



图4 强化学习驱动的端到端主动视觉的理论框架

实验验证:高效视觉感知,类人视觉行为

  • 性能提升显著:在使用相同主干网络(如 DeiT-S、ResNet-50)的情况下,AdaptiveNN-DeiT-S 和 AdaptiveNN-ResNet-50 分别以2.86 GFLOPs 与 3.37 GFLOPs的平均计算量,取得与传统静态模型相当甚至更优的准确率(81.6% / 79.1%),实现了 5.4× 与 3.6× 的计算节省。
  • 可解释性增强:AdaptiveNN 的注视轨迹自动聚焦于类别判别性区域,例如动物的头部、乐器的关键结构、咖啡机的旋钮与喷嘴等。当目标较小或远离摄像机时,模型会自适应地延长观察序列,主动调整注视步数以获得更精确的判断。这种 “由粗到细、按需注视” 的策略,与人类视觉的逐步注视过程高度一致。



图5 ImageNet视觉感知实验结果

为了进一步验证 AdaptiveNN 的泛化与精细感知能力,研究团队在六个细粒度视觉识别任务(CUB-200、NABirds、Oxford-IIIT Pet、Stanford Dogs、Stanford Cars、FGVC-Aircraft)上进行了系统评估。

  • AdaptiveNN 在保持精度基本不变甚至略有提升的情况下,实现了5.8×–8.2× 的计算量节省,显著超越传统静态视觉模型的性能–能效上限。
  • 通过可视化(Fig. A1b–A1e),可以看到模型自发聚焦于任务判别性区域 —— 如鸟类的喙部、犬类的面部、汽车的灯组与航空器的螺旋桨 —— 而无需任何显式的定位监督。



图6 细粒度视觉识别任务实验结果

AdaptiveNN 在空间注视位置任务难度判断两个层面,都展现出与人类视觉高度一致的自适应行为。定量结果表明,无论是 “看哪里”、还是 “觉得什么难”,模型的感知策略都与人类极为相似。在 “视觉图灵测试” 中,人类受试者几乎无法区分模型与真实人类的凝视轨迹。

更值得关注的是,这一成果对认知科学的研究具有启发意义。AdaptiveNN 的结果不仅为理解人类视觉行为的关键认知科学问题(例如 “视觉能力的形成究竟源于先天机制还是后天学习”)提供了新的启发,也展示了其作为一种通用计算模型的潜力。未来,AdaptiveNN 有望用于模拟和检验人类的注意分配、感知学习、以及复杂任务中的视觉决策机制,为将来认知科学方面的研究提供了潜在的定量工具。



图7 AdaptiveNN与人类视觉感知行为的一致性测试

从视觉感知到迈向高效具身推理

在实验验证中,研究团队进一步将 AdaptiveNN 应用于具身智能的基础模型(视觉 - 语言 - 行为模型,VLA)上结果表明,该框架在复杂操作场景中显著提升了具身基础模型的推理与感知效率,在保持任务成功率的同时将计算开销大幅降低 4.4-5.9 倍。这一成果为解决具身智能系统长期面临的效率瓶颈提供了新的思路与技术路径。



图8 ApdativeNN应用于VLA具身任务的实验结果

清华大学自动化系博士生王语霖、乐洋、乐阳为论文共同第一作者,宋士吉教授与黄高副教授为共同通讯作者。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黄一鸣回应公开孩子父亲身份:你不给抚养费,我就用你的流量赚钱

黄一鸣回应公开孩子父亲身份:你不给抚养费,我就用你的流量赚钱

每一次点击
2026-02-22 12:02:41
一男子失业拿了50万赔偿回村里,逢人说欠了30万外债,谁料第二天叔伯兄弟,都上门来“送温暖”了

一男子失业拿了50万赔偿回村里,逢人说欠了30万外债,谁料第二天叔伯兄弟,都上门来“送温暖”了

不二大叔
2026-03-19 21:29:20
个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

中国能源网
2026-03-25 13:53:05
中美卫星导航用户数量悬殊:GPS用户数超60亿,中国北斗令人意外

中美卫星导航用户数量悬殊:GPS用户数超60亿,中国北斗令人意外

混沌录
2026-03-18 23:54:31
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
美军司令:一旦台海战争打响,6个航母战斗群2个陆战师将全都出动

美军司令:一旦台海战争打响,6个航母战斗群2个陆战师将全都出动

混沌录
2026-03-24 22:31:03
一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

阅毒君
2026-01-05 07:05:06
特写|“反霸权、反帝国主义”——委内瑞拉民众要求美国释放马杜罗

特写|“反霸权、反帝国主义”——委内瑞拉民众要求美国释放马杜罗

新华社
2026-03-26 17:09:03
新冠后遗症对人体的最大影响,很多人深受其害,有些人还不自知

新冠后遗症对人体的最大影响,很多人深受其害,有些人还不自知

呼吸科大夫胡洋
2026-02-22 11:39:12
公积金新调整!4月1日起,职工可自愿提高缴存比例

公积金新调整!4月1日起,职工可自愿提高缴存比例

另子维爱读史
2026-03-25 22:28:47
S家发威了!大S律师已报警,官方出手,张兰律师怒斥,牵连马筱梅

S家发威了!大S律师已报警,官方出手,张兰律师怒斥,牵连马筱梅

小舟谈历史
2026-03-26 15:44:38
杜月笙的识人术:只看对方的一个站姿,就能知道他是龙还是虫

杜月笙的识人术:只看对方的一个站姿,就能知道他是龙还是虫

千秋文化
2026-03-23 20:09:06
800亿!泉州首富家族,太可怕了

800亿!泉州首富家族,太可怕了

深蓝财经
2026-03-26 18:58:45
中美都在赌,美国赌中国不敢打日本,而中国则在赌美国不会下场

中美都在赌,美国赌中国不敢打日本,而中国则在赌美国不会下场

南权先生
2026-03-24 15:30:39
美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

爱吃醋的猫咪
2026-03-22 22:29:08
5月起生效!俄罗斯关闸,8000吨黄金不卖了,全球金市变天

5月起生效!俄罗斯关闸,8000吨黄金不卖了,全球金市变天

瑛派儿老黄
2026-03-26 10:43:45
国家规定可以配枪的十大执法部门

国家规定可以配枪的十大执法部门

微法官
2026-03-26 08:04:55
奇瑞回应48%热效率争议,顺带下战书:定会做成,油耗低至1L

奇瑞回应48%热效率争议,顺带下战书:定会做成,油耗低至1L

明镜pro
2026-03-26 09:22:44
1958年,江青前夫去世,临终前嘴里不断喊着:江青是什么人?

1958年,江青前夫去世,临终前嘴里不断喊着:江青是什么人?

明月清风阁
2026-03-25 16:30:09
突发 广州白云 番禺多家法务公司 法律咨询公司被一锅端,上百人被抓

突发 广州白云 番禺多家法务公司 法律咨询公司被一锅端,上百人被抓

石辰搞笑日常
2026-03-26 17:28:25
2026-03-27 01:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
数码
艺术
家居
军事航空

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

艺术要闻

都说乌克兰美女多,看完摄影师贝格玛 的作品我信了!

家居要闻

傍海而居 静观蝴蝶海

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版