网易首页 > 网易号 > 正文 申请入驻

ApdativeNN:建模类人自适应感知机制,突破机器视觉不可能三角

0
分享至



视觉是人类理解复杂物理世界的重要方式。让计算机具备视觉感知与认知的能力,是人工智能的主要研究问题之一,对多模态基础模型、具身智能、医疗 AI 等重要领域具有关键支撑作用。过去几十年间,计算机视觉取得了显著突破,已在图像识别、目标检测、多模态理解等多个任务上接近甚至超越人类专家水平。然而,当前的高精度模型在实际落地中常面临较大挑战:它们的推理过程往往需要激活上亿参数来处理高分辨率图像或视频、以解决复杂和挑战性的视觉问题,导致功耗、存储需求和响应时延急剧上升。这一瓶颈使得它们难以部署在算力、能耗、存储等资源高度受限的实际系统中(如机器人、自动驾驶、移动设备或边缘终端等),甚至在医疗、交通等场景下由于延迟决策危害生命安全。另一方面,大型模型庞大的推理能耗在也带来了大规模部署的环境可持续性问题。

上述挑战的一个重要原因在于现有视觉模型普遍采用了全局表征学习范式:一次性并行处理整幅图像或视频的所有像素、提取全部对应特征,再应用于具体任务。这种 “全局并行计算” 范式使得模型计算复杂度随输入尺寸呈至少平方或立方增长,逐渐形成了一个日益严峻的能效瓶颈:信息丰富的高分辨率时空输入、性能领先的大型模型、高效快速推理,三者难以同时满足。这一挑战正在成为制约视觉智能走向大规模、可部署落地、低碳环保的公认难题。



图1 当前计算机视觉范式所面临的能效瓶颈

人类视觉系统为突破上述瓶颈提供了重要启示:在观察复杂环境时,人眼不会一次性处理全部视觉信息,而是通过一系列 “注视” 动作主动、选择性地采样关键区域,以小范围高分辨率的感知逐步拼接出对物理世界中有用信息的认知。这种先进的机制能在庞杂的信息流中快速筛取要点,大幅降低计算开销,使得人类高度复杂的视觉系统即便在资源受限的前提下依然能够高效、快速运行。无论外界场景多么复杂,人类视觉的能耗主要取决于注视带宽与注视次数,而非全局像素量。早在 2015 年,LeCun, Bengio, Hinton 便在《Nature》综述论文 “Deep Learning” 中指出,未来的 AI 视觉系统应具备类人的、任务驱动的主动观察能力。然而近十年来,这一方向仍缺乏系统性研究。



图2 人类视觉系统的主动自适应感知策略

2025 年 11 月,清华大学自动化系宋士吉、黄高团队在《自然・机器智能》(Nature Machine Intelligence)上发表了论文《Emulating human-like adaptive vision for efficient and flexible machine visual perception》(模拟人类自适应视觉,实现高效灵活的机器视觉感知)。该研究提出了AdaptiveNN 架构,通过借鉴人类 “主动自适应视觉” 的机制,将视觉感知建模为由粗到精的最优序贯决策问题:逐步定位关键区域、累积多次注视信息,并在信息足够完成任务时主动终止观察。在理论上,该研究通过结合表征学习与自奖励强化学习,给出了 AdaptiveNN 所面临的离散 - 连续混合优化问题的无需额外监督的端到端求解方法。在涵盖 9 类任务的广泛实验中,AdaptiveNN 在保持精度的同时实现了最高 28 倍的推理成本降低,可在线动态调整其行为以适配不同任务需求与算力约束,同时,其基于注视路径的推理机制显著提升了可解释性。AdaptiveNN 展现出构建高效、灵活且可解释的计算机视觉新范式的潜力。另一方面,AdaptiveNN 的感知行为在多项测试中与人类接近,也为未来探索人类视觉认知机制的关键问题提供了新的见解和研究工具。



  • 论文标题:Emulating human-like adaptive vision for efficient and flexible machine visual perception
  • 论文链接:https://www.nature.com/articles/s42256-025-01130-7

AdaptiveNN:类人主动感知架构



借助这一机制,AdaptiveNN 能够在保证高精度的同时显著降低计算量,实现“看得清,也看得省”。它使神经网络具备了类人式的主动感知,从而突破了传统视觉模型在效率与效果之间的权衡瓶颈。

值得注意的是,AdaptiveNN 在设计上具有较强的兼容性和灵活性,适用于多种不同的深度神经网络基础架构(如卷积网络、Transformer等)和多种类型的任务(如纯视觉感知、视觉-语言多模态联合建模等)。



图3 AdaptiveNN的网络架构和推理过程

理论创新:自激励强化学习驱动的主动感知行为学习

AdaptiveNN 的训练过程同时涉及连续变量(如从注视区域中提取特征)与离散变量(如决定下一次注视位置)的优化,传统反向传播算法难以直接处理这一混合问题。为此,研究团队在理论上提出了面向离散 - 连续混合优化问题的端到端求解方法,使 AdaptiveNN 能够在统一框架下简单易行地完成整体训练。具体而言,从期望优化目标出发,对整体损失函数 L(θ) 进行分解,AdaptiveNN 的端到端优化过程可自然地分解为两部分



其中第一项为表征学习目标(representation learning),对应于从注视区域中提取任务相关的特征;第二项为自激励强化学习目标(self-rewarding reinforcement learning),对应于优化注视位置的分布,驱使模型的主动注视行为实现最大化的任务收益。这一理论结果揭示了 AdaptiveNN 的内在学习规律:主动感知的优化本质上是表征学习与强化学习的统一



图4 强化学习驱动的端到端主动视觉的理论框架

实验验证:高效视觉感知,类人视觉行为

  • 性能提升显著:在使用相同主干网络(如 DeiT-S、ResNet-50)的情况下,AdaptiveNN-DeiT-S 和 AdaptiveNN-ResNet-50 分别以2.86 GFLOPs 与 3.37 GFLOPs的平均计算量,取得与传统静态模型相当甚至更优的准确率(81.6% / 79.1%),实现了 5.4× 与 3.6× 的计算节省。
  • 可解释性增强:AdaptiveNN 的注视轨迹自动聚焦于类别判别性区域,例如动物的头部、乐器的关键结构、咖啡机的旋钮与喷嘴等。当目标较小或远离摄像机时,模型会自适应地延长观察序列,主动调整注视步数以获得更精确的判断。这种 “由粗到细、按需注视” 的策略,与人类视觉的逐步注视过程高度一致。



图5 ImageNet视觉感知实验结果

为了进一步验证 AdaptiveNN 的泛化与精细感知能力,研究团队在六个细粒度视觉识别任务(CUB-200、NABirds、Oxford-IIIT Pet、Stanford Dogs、Stanford Cars、FGVC-Aircraft)上进行了系统评估。

  • AdaptiveNN 在保持精度基本不变甚至略有提升的情况下,实现了5.8×–8.2× 的计算量节省,显著超越传统静态视觉模型的性能–能效上限。
  • 通过可视化(Fig. A1b–A1e),可以看到模型自发聚焦于任务判别性区域 —— 如鸟类的喙部、犬类的面部、汽车的灯组与航空器的螺旋桨 —— 而无需任何显式的定位监督。



图6 细粒度视觉识别任务实验结果

AdaptiveNN 在空间注视位置任务难度判断两个层面,都展现出与人类视觉高度一致的自适应行为。定量结果表明,无论是 “看哪里”、还是 “觉得什么难”,模型的感知策略都与人类极为相似。在 “视觉图灵测试” 中,人类受试者几乎无法区分模型与真实人类的凝视轨迹。

更值得关注的是,这一成果对认知科学的研究具有启发意义。AdaptiveNN 的结果不仅为理解人类视觉行为的关键认知科学问题(例如 “视觉能力的形成究竟源于先天机制还是后天学习”)提供了新的启发,也展示了其作为一种通用计算模型的潜力。未来,AdaptiveNN 有望用于模拟和检验人类的注意分配、感知学习、以及复杂任务中的视觉决策机制,为将来认知科学方面的研究提供了潜在的定量工具。



图7 AdaptiveNN与人类视觉感知行为的一致性测试

从视觉感知到迈向高效具身推理

在实验验证中,研究团队进一步将 AdaptiveNN 应用于具身智能的基础模型(视觉 - 语言 - 行为模型,VLA)上结果表明,该框架在复杂操作场景中显著提升了具身基础模型的推理与感知效率,在保持任务成功率的同时将计算开销大幅降低 4.4-5.9 倍。这一成果为解决具身智能系统长期面临的效率瓶颈提供了新的思路与技术路径。



图8 ApdativeNN应用于VLA具身任务的实验结果

清华大学自动化系博士生王语霖、乐洋、乐阳为论文共同第一作者,宋士吉教授与黄高副教授为共同通讯作者。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
是谁在偷换了世界杯转播权之争的逻辑?

是谁在偷换了世界杯转播权之争的逻辑?

鲁先生的笔
2026-05-10 21:12:47
7万亿砸向“六张网”!旧基建落幕,新一轮造富机会在哪里?

7万亿砸向“六张网”!旧基建落幕,新一轮造富机会在哪里?

柏年说政经
2026-05-10 18:00:03
致武汉大学李小曼副教授:大学的败坏就是从您这种知识分子做帮凶开始的

致武汉大学李小曼副教授:大学的败坏就是从您这种知识分子做帮凶开始的

熊太行
2026-05-11 00:06:25
安徽巨星夜崩盘,穷到欠薪却敢办大型演唱会,粉丝沦为韭菜太扎心

安徽巨星夜崩盘,穷到欠薪却敢办大型演唱会,粉丝沦为韭菜太扎心

法老不说教
2026-05-09 15:11:16
特朗普:伊朗的回应“完全不可接受”

特朗普:伊朗的回应“完全不可接受”

国际在线
2026-05-11 06:07:05
王曼昱负蒯曼,孙颖莎挽颜面,日本教练评价更显分量

王曼昱负蒯曼,孙颖莎挽颜面,日本教练评价更显分量

七七自驾游
2026-05-10 22:01:08
一问到底丨世界杯转播费谈判为何陷入僵局,中国球迷还能愉快地看球吗?

一问到底丨世界杯转播费谈判为何陷入僵局,中国球迷还能愉快地看球吗?

上游新闻
2026-05-10 15:45:20
普京表态引发关注,双方启动交换战俘,俄乌冲突“正走向结束”?

普京表态引发关注,双方启动交换战俘,俄乌冲突“正走向结束”?

环球网资讯
2026-05-11 07:00:15
颁奖全程黑脸!松岛辉空被王楚钦打崩溃:自己扇自己+仰天摇头吼

颁奖全程黑脸!松岛辉空被王楚钦打崩溃:自己扇自己+仰天摇头吼

颜小白的篮球梦
2026-05-11 07:11:15
震惊!小马云18岁成年首播,在线人数破7万,与女生接吻刷爆网络

震惊!小马云18岁成年首播,在线人数破7万,与女生接吻刷爆网络

火山詩话
2026-05-09 16:02:57
三亚皮皮虾再升级!老板身亡仍被追责,游客曝猛料,不止是为了钱

三亚皮皮虾再升级!老板身亡仍被追责,游客曝猛料,不止是为了钱

北纬的咖啡豆
2026-05-10 11:43:20
张本智和:输球责任在我!林诗栋站球台庆祝,陈玘直言完了不能站

张本智和:输球责任在我!林诗栋站球台庆祝,陈玘直言完了不能站

排球黄金眼
2026-05-11 06:12:53
香港拿下世界杯转播仅1天,炸出一堆牛鬼蛇神,李嘉诚恐进退两难

香港拿下世界杯转播仅1天,炸出一堆牛鬼蛇神,李嘉诚恐进退两难

混沌录
2026-05-10 19:42:39
曼城别幻想了!阿森纳1-0后争冠已无对手,后3场全胜=创一神迹

曼城别幻想了!阿森纳1-0后争冠已无对手,后3场全胜=创一神迹

体育知多少
2026-05-11 07:22:34
红场阅兵结束!普京感谢中国,特朗普最不愿意看到的一幕发生

红场阅兵结束!普京感谢中国,特朗普最不愿意看到的一幕发生

书纪文谭
2026-05-10 21:14:35
华盛顿奇才抽中2026年NBA状元签!

华盛顿奇才抽中2026年NBA状元签!

五星体育
2026-05-11 08:00:43
国乒男团3-0横扫日本男团,实现世乒赛12连冠

国乒男团3-0横扫日本男团,实现世乒赛12连冠

懂球帝
2026-05-11 01:33:16
惨遭国乒男团3:0横扫!张本智和赛后与赛前采访对比,狠狠被打脸

惨遭国乒男团3:0横扫!张本智和赛后与赛前采访对比,狠狠被打脸

田先生篮球
2026-05-11 06:20:39
内维尔:阿森纳22年来的首个联赛冠军很可能就取决于这次判罚

内维尔:阿森纳22年来的首个联赛冠军很可能就取决于这次判罚

懂球帝
2026-05-11 05:06:32
张本智和输到脸变形!2-0领先连丢三局 赛后沮丧发声:金牌仍遥远

张本智和输到脸变形!2-0领先连丢三局 赛后沮丧发声:金牌仍遥远

颜小白的篮球梦
2026-05-11 06:15:47
2026-05-11 08:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12957文章数 142646关注度
往期回顾 全部

科技要闻

OPPO们永远学不会的年轻化

头条要闻

特朗普:伊朗的回应“完全不可接受”

头条要闻

特朗普:伊朗的回应“完全不可接受”

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

教育
房产
游戏
时尚
军事航空

教育要闻

女孩分享初中生毁掉前途的五个坏习惯

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

IGN10分新游玩法太迷!玩家称其“纯看动画通关”

真爱大牌|| 用了4年都不舍得换,终于把小贵的价格也磨下来了

军事要闻

伊朗革命卫队深夜警告

无障碍浏览 进入关怀版