网易首页 > 网易号 > 正文 申请入驻

ApdativeNN:建模类人自适应感知机制,突破机器视觉不可能三角

0
分享至



视觉是人类理解复杂物理世界的重要方式。让计算机具备视觉感知与认知的能力,是人工智能的主要研究问题之一,对多模态基础模型、具身智能、医疗 AI 等重要领域具有关键支撑作用。过去几十年间,计算机视觉取得了显著突破,已在图像识别、目标检测、多模态理解等多个任务上接近甚至超越人类专家水平。然而,当前的高精度模型在实际落地中常面临较大挑战:它们的推理过程往往需要激活上亿参数来处理高分辨率图像或视频、以解决复杂和挑战性的视觉问题,导致功耗、存储需求和响应时延急剧上升。这一瓶颈使得它们难以部署在算力、能耗、存储等资源高度受限的实际系统中(如机器人、自动驾驶、移动设备或边缘终端等),甚至在医疗、交通等场景下由于延迟决策危害生命安全。另一方面,大型模型庞大的推理能耗在也带来了大规模部署的环境可持续性问题。

上述挑战的一个重要原因在于现有视觉模型普遍采用了全局表征学习范式:一次性并行处理整幅图像或视频的所有像素、提取全部对应特征,再应用于具体任务。这种 “全局并行计算” 范式使得模型计算复杂度随输入尺寸呈至少平方或立方增长,逐渐形成了一个日益严峻的能效瓶颈:信息丰富的高分辨率时空输入、性能领先的大型模型、高效快速推理,三者难以同时满足。这一挑战正在成为制约视觉智能走向大规模、可部署落地、低碳环保的公认难题。



图1 当前计算机视觉范式所面临的能效瓶颈

人类视觉系统为突破上述瓶颈提供了重要启示:在观察复杂环境时,人眼不会一次性处理全部视觉信息,而是通过一系列 “注视” 动作主动、选择性地采样关键区域,以小范围高分辨率的感知逐步拼接出对物理世界中有用信息的认知。这种先进的机制能在庞杂的信息流中快速筛取要点,大幅降低计算开销,使得人类高度复杂的视觉系统即便在资源受限的前提下依然能够高效、快速运行。无论外界场景多么复杂,人类视觉的能耗主要取决于注视带宽与注视次数,而非全局像素量。早在 2015 年,LeCun, Bengio, Hinton 便在《Nature》综述论文 “Deep Learning” 中指出,未来的 AI 视觉系统应具备类人的、任务驱动的主动观察能力。然而近十年来,这一方向仍缺乏系统性研究。



图2 人类视觉系统的主动自适应感知策略

2025 年 11 月,清华大学自动化系宋士吉、黄高团队在《自然・机器智能》(Nature Machine Intelligence)上发表了论文《Emulating human-like adaptive vision for efficient and flexible machine visual perception》(模拟人类自适应视觉,实现高效灵活的机器视觉感知)。该研究提出了AdaptiveNN 架构,通过借鉴人类 “主动自适应视觉” 的机制,将视觉感知建模为由粗到精的最优序贯决策问题:逐步定位关键区域、累积多次注视信息,并在信息足够完成任务时主动终止观察。在理论上,该研究通过结合表征学习与自奖励强化学习,给出了 AdaptiveNN 所面临的离散 - 连续混合优化问题的无需额外监督的端到端求解方法。在涵盖 9 类任务的广泛实验中,AdaptiveNN 在保持精度的同时实现了最高 28 倍的推理成本降低,可在线动态调整其行为以适配不同任务需求与算力约束,同时,其基于注视路径的推理机制显著提升了可解释性。AdaptiveNN 展现出构建高效、灵活且可解释的计算机视觉新范式的潜力。另一方面,AdaptiveNN 的感知行为在多项测试中与人类接近,也为未来探索人类视觉认知机制的关键问题提供了新的见解和研究工具。



  • 论文标题:Emulating human-like adaptive vision for efficient and flexible machine visual perception
  • 论文链接:https://www.nature.com/articles/s42256-025-01130-7

AdaptiveNN:类人主动感知架构



借助这一机制,AdaptiveNN 能够在保证高精度的同时显著降低计算量,实现“看得清,也看得省”。它使神经网络具备了类人式的主动感知,从而突破了传统视觉模型在效率与效果之间的权衡瓶颈。

值得注意的是,AdaptiveNN 在设计上具有较强的兼容性和灵活性,适用于多种不同的深度神经网络基础架构(如卷积网络、Transformer等)和多种类型的任务(如纯视觉感知、视觉-语言多模态联合建模等)。



图3 AdaptiveNN的网络架构和推理过程

理论创新:自激励强化学习驱动的主动感知行为学习

AdaptiveNN 的训练过程同时涉及连续变量(如从注视区域中提取特征)与离散变量(如决定下一次注视位置)的优化,传统反向传播算法难以直接处理这一混合问题。为此,研究团队在理论上提出了面向离散 - 连续混合优化问题的端到端求解方法,使 AdaptiveNN 能够在统一框架下简单易行地完成整体训练。具体而言,从期望优化目标出发,对整体损失函数 L(θ) 进行分解,AdaptiveNN 的端到端优化过程可自然地分解为两部分



其中第一项为表征学习目标(representation learning),对应于从注视区域中提取任务相关的特征;第二项为自激励强化学习目标(self-rewarding reinforcement learning),对应于优化注视位置的分布,驱使模型的主动注视行为实现最大化的任务收益。这一理论结果揭示了 AdaptiveNN 的内在学习规律:主动感知的优化本质上是表征学习与强化学习的统一



图4 强化学习驱动的端到端主动视觉的理论框架

实验验证:高效视觉感知,类人视觉行为

  • 性能提升显著:在使用相同主干网络(如 DeiT-S、ResNet-50)的情况下,AdaptiveNN-DeiT-S 和 AdaptiveNN-ResNet-50 分别以2.86 GFLOPs 与 3.37 GFLOPs的平均计算量,取得与传统静态模型相当甚至更优的准确率(81.6% / 79.1%),实现了 5.4× 与 3.6× 的计算节省。
  • 可解释性增强:AdaptiveNN 的注视轨迹自动聚焦于类别判别性区域,例如动物的头部、乐器的关键结构、咖啡机的旋钮与喷嘴等。当目标较小或远离摄像机时,模型会自适应地延长观察序列,主动调整注视步数以获得更精确的判断。这种 “由粗到细、按需注视” 的策略,与人类视觉的逐步注视过程高度一致。



图5 ImageNet视觉感知实验结果

为了进一步验证 AdaptiveNN 的泛化与精细感知能力,研究团队在六个细粒度视觉识别任务(CUB-200、NABirds、Oxford-IIIT Pet、Stanford Dogs、Stanford Cars、FGVC-Aircraft)上进行了系统评估。

  • AdaptiveNN 在保持精度基本不变甚至略有提升的情况下,实现了5.8×–8.2× 的计算量节省,显著超越传统静态视觉模型的性能–能效上限。
  • 通过可视化(Fig. A1b–A1e),可以看到模型自发聚焦于任务判别性区域 —— 如鸟类的喙部、犬类的面部、汽车的灯组与航空器的螺旋桨 —— 而无需任何显式的定位监督。



图6 细粒度视觉识别任务实验结果

AdaptiveNN 在空间注视位置任务难度判断两个层面,都展现出与人类视觉高度一致的自适应行为。定量结果表明,无论是 “看哪里”、还是 “觉得什么难”,模型的感知策略都与人类极为相似。在 “视觉图灵测试” 中,人类受试者几乎无法区分模型与真实人类的凝视轨迹。

更值得关注的是,这一成果对认知科学的研究具有启发意义。AdaptiveNN 的结果不仅为理解人类视觉行为的关键认知科学问题(例如 “视觉能力的形成究竟源于先天机制还是后天学习”)提供了新的启发,也展示了其作为一种通用计算模型的潜力。未来,AdaptiveNN 有望用于模拟和检验人类的注意分配、感知学习、以及复杂任务中的视觉决策机制,为将来认知科学方面的研究提供了潜在的定量工具。



图7 AdaptiveNN与人类视觉感知行为的一致性测试

从视觉感知到迈向高效具身推理

在实验验证中,研究团队进一步将 AdaptiveNN 应用于具身智能的基础模型(视觉 - 语言 - 行为模型,VLA)上结果表明,该框架在复杂操作场景中显著提升了具身基础模型的推理与感知效率,在保持任务成功率的同时将计算开销大幅降低 4.4-5.9 倍。这一成果为解决具身智能系统长期面临的效率瓶颈提供了新的思路与技术路径。



图8 ApdativeNN应用于VLA具身任务的实验结果

清华大学自动化系博士生王语霖、乐洋、乐阳为论文共同第一作者,宋士吉教授与黄高副教授为共同通讯作者。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
权力的威风和丑陋!

权力的威风和丑陋!

深度报
2025-07-13 22:58:24
全新奔驰改款E300L上市!售价43.98万,外观很豪华,搭载2.0T轻混

全新奔驰改款E300L上市!售价43.98万,外观很豪华,搭载2.0T轻混

小史谈车
2026-03-05 14:07:01
原来刘烨当初没撒谎,多方曝谢娜夫妇猛料,网友担忧的事还是发生

原来刘烨当初没撒谎,多方曝谢娜夫妇猛料,网友担忧的事还是发生

小徐讲八卦
2026-03-04 13:58:42
卡塔尔首都遭导弹袭击 升级安全级别

卡塔尔首都遭导弹袭击 升级安全级别

财联社
2026-03-05 21:37:04
34岁东北姑娘拿下81岁全球首富,长的很漂亮,一年抱俩娃身价上亿

34岁东北姑娘拿下81岁全球首富,长的很漂亮,一年抱俩娃身价上亿

云舟史策
2025-09-13 07:37:04
3.5日金价:大家做好心理准备!黄金或将等来大风暴

3.5日金价:大家做好心理准备!黄金或将等来大风暴

花小猫的美食日常
2026-03-05 13:50:32
拒赔中国361亿违约金,转头抱日本大腿,这个国家最终下场如何?

拒赔中国361亿违约金,转头抱日本大腿,这个国家最终下场如何?

来科点谱
2026-02-17 11:00:15
“我恨不得丢了她”,宝妈公开承认厌恶10岁女儿,引数万网友共鸣

“我恨不得丢了她”,宝妈公开承认厌恶10岁女儿,引数万网友共鸣

温读史
2025-10-10 10:22:51
今年就业艰难的4个专业,还不如土木工程,26届学生和家长要知道

今年就业艰难的4个专业,还不如土木工程,26届学生和家长要知道

狐狸先森讲升学规划
2026-03-03 10:22:11
无滤镜后,王一博像大婶,黄景瑜满脸痦子,闫妮辛芷蕾把人看愣了

无滤镜后,王一博像大婶,黄景瑜满脸痦子,闫妮辛芷蕾把人看愣了

离离言几许
2026-03-05 14:55:25
世界现役最大军舰,确认被击毁!

世界现役最大军舰,确认被击毁!

航空知识
2026-03-04 19:09:03
2026年政府工作报告要点一览,券商首席把脉2026年A股投资方向

2026年政府工作报告要点一览,券商首席把脉2026年A股投资方向

界面新闻
2026-03-05 17:48:41
何洁哭穷,称自己当下处境艰难!前夫每月1.2万抚养费一分没给

何洁哭穷,称自己当下处境艰难!前夫每月1.2万抚养费一分没给

静若梨花
2026-03-05 13:03:08
神坛彻底崩塌!李莉被中情局盯上的谎言,该彻底戳穿了

神坛彻底崩塌!李莉被中情局盯上的谎言,该彻底戳穿了

老马拉车莫少装
2026-03-01 17:23:52
贵州44岁女子返岗途中突发心梗离世,老板派人千里吊唁,逝者丈夫:想当面向老板表示感谢,对方说都是兄弟姐妹不用太声张

贵州44岁女子返岗途中突发心梗离世,老板派人千里吊唁,逝者丈夫:想当面向老板表示感谢,对方说都是兄弟姐妹不用太声张

极目新闻
2026-03-05 16:19:29
当年举债120亿“吞”下沃尔沃!如今16年过去,李书福赚了多少?

当年举债120亿“吞”下沃尔沃!如今16年过去,李书福赚了多少?

牛锅巴小钒
2026-02-25 15:15:15
全国人大代表田轩:希望尽量不要调休,尽量扩大公共假期

全国人大代表田轩:希望尽量不要调休,尽量扩大公共假期

每日经济新闻
2026-03-05 17:26:59
不得不面对的事实?美司令首次承认:中国卫星太强,美军必须反击

不得不面对的事实?美司令首次承认:中国卫星太强,美军必须反击

阿搏体育
2026-03-04 23:48:52
惨烈!亚马逊阿联酋数据中心被炸,服务大面积中断

惨烈!亚马逊阿联酋数据中心被炸,服务大面积中断

跨境派Pro
2026-03-04 15:07:46
中国男篮重磅消息!主帅郭士强遭国际篮联审查,杨瀚森确认归队

中国男篮重磅消息!主帅郭士强遭国际篮联审查,杨瀚森确认归队

银河史记
2026-03-04 17:46:02
2026-03-05 23:32:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12418文章数 142578关注度
往期回顾 全部

科技要闻

独家|林俊旸辞职 我们和认识他的人聊了聊

头条要闻

伊朗外长:记住我的话 美国将为开创先例"后悔"

头条要闻

伊朗外长:记住我的话 美国将为开创先例"后悔"

体育要闻

不开玩笑,没人想在季后赛碰上黄蜂

娱乐要闻

谢娜下场撕薛之谦,张杰前女友爆猛料

财经要闻

“十五五”开局之年,这么干!

汽车要闻

15.98万元起 第三代领克03大尾翼版上市

态度原创

时尚
艺术
本地
健康
公开课

显白的奶茶色,穿出春日味道

艺术要闻

2026年“浩瀚草原 亮丽北疆”美展

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版