网易首页 > 网易号 > 正文 申请入驻

大模型首次拥有“脖子”!纽大团队实现360度类人视觉搜索

0
分享至

henry 发自 凹非寺
量子位 | 公众号

终于有人要给大模型安“脖子”了!

在最新的论文Thinking in 360°: Humanoid Visual Search in the Wild中,来自纽约大学的研究团队让大模型能够环顾四周,进行360度的全方位思考。



他们通过定义一套全新的数据集和基础测试H*,让模型可以在火车站、购物中心等真实环境中,进行像人类一样的视觉搜索。

谢赛宁(也参与了这篇论文)在转发中,直接表示:这不就是给模型安了个脖子吗?



这是怎么回事?

类人视觉搜索

整体而言,研究团队首先提出了一项在360度空间中实现人类主动空间推理的新任务——

类人视觉搜索(Humanoid Visual Search),这项任务能让类人智能体在全景图像构建的沉浸式环境中,通过自主旋转头部搜索目标物体或路径。

为进一步评估智能体在视觉拥挤的真实场景中的搜索能力,研究团队还构建了全新的针对性基准测试 ——H*Bench

这一基准突破了传统测试多聚焦简单家庭场景的局限,涵盖交通枢纽、大型零售场所、城市街道、公共机构等真实世界复杂环境,对智能体的高级视觉 -空间推理能力提出了更严苛的考验。

该研究的推进,为视觉空间推理从 “脱离身体的被动范式” 向 “具身的主动范式” 转型奠定了重要基础。

接下来,我们具体来看。

在论文的开头,研究提出了一个非常直觉的问题——如何开发出既能像人类一样高效,又能绕过硬件限制在复杂现实场景中进行主动视觉搜索的具身智能体?

众所周知,相比于脑袋、手腕、身体各处“长眼”的机器人,人类仅凭转动脖子和眼睛,就能高效地搜索360°范围内的视觉信息,从而完成视觉搜索任务(比如在地铁站中寻找下一个出口)。



而现在的大模型,不但只能处理单张、静态、低分辨率的图像,而且在后续的操作中,也局限于将图像放大、裁剪的计算操作。

这就意味着与生物视觉相比,大模型既无法改变初始视角以获取视野以外的信息,同时也由于缺乏物理实体,不能移步换景,将视觉推理和物理行动结合起来。

基于此,研究提出了类人视觉搜索(Humanoid Visual Search,HVS)将主动的头部转动融入智能体在复杂环境中的视觉推理,其具备以下特性:

  • 交互性:智能体从窄视角开始,在360度的全景图中行动,每次头部旋转都会改变其视觉输入。
  • 具身性:将视觉推理与物理动作结合在一起,要求智能体有意识地协调头部运动,将其作为思维过程的一部分。

具体地,类人视觉搜索进一步将研究聚焦于以下两类搜索问题:

类人物体搜索(Humanoid Object Search,HOS):定位并将视线聚焦于目标物体,作为操作的先决条件。在基准中,难度根据初始可见度比率分为简单、中等和困难三个等级。



类人路径搜索(Humanoid Path Search,HPS):识别通往目的地的可通行路径并调整身体朝向,作为移动的先决条件。在基准中,难度分为四个级别,由场景中文本线索的存在以及视觉/文本线索与实际路径方向的一致性决定。



为了将搜索问题形式化,研究将其构建为一个多模态的推理任务

简单来说,多模态大模型通过一个策略网络来实现工具使用与头部旋转,其将时间步、当前观测、语言指令和历史状态作为输入,输出文本思维链和动作。

值得一提的是,由于人类的推理是间歇性的,仅在关键决策点才会被调用,所以研究仅利用在决策点采集的单个360°全景图构建闭环搜索环境,而无需使用3D模拟器或硬件。



知道了找什么,去哪,和怎么走之后,为了找到最佳的测试环境,研究又构建了一个数据集、基准测试和基线——H*,旨在实现真实360度环境中类人的视觉搜索。



具体来说,H包含约3000个带标注的任务实例,这些实例来源于多样化的高分辨率全景视频。

研究通过为每个任务实例设置四个不同的起始方向来初始化智能体,总共获得了个搜索回合。

H*Bench 的数据来源于全球大都市地区(纽约、巴黎、阿姆斯特丹、法兰克福)自行采集的素材以及开放平台(YouTube和360+x数据集),从而提供了广泛的地理覆盖范围。



具体的场景主要包含6个主要类别——零售环境、交通枢纽、城市街道、公共机构、办公室和娱乐场所。



此外,由于多模态大模型是在静态、非具身的互联网数据上训练的,它们本质上缺乏拟人化视觉搜索所需的空间常识和主动 3D 规划能力。



因此,研究又通过上面pipeline将多模态大模型转化为有效的视觉搜索智能体:

  • 监督微调:首先在一个精选的多轮数据集上执行SFT,以灌输基本的任务导向推理和工具使用能力。这教会模型从多模态输入中生成结构化的动作计划,建立了强大的行为先验。
  • 多轮强化学习:使用GRPO算法来精炼策略。根据以往的发现,这一 RL 阶段鼓励长程推理,对于开发超越模仿学习基线的鲁棒、可泛化的搜索策略至关重要。

实验验证

在部署环节,研究基于Qwen2.5-VL-3B-Instruct模型展开上述pipeline,

  • 微调:利用GPT-4o生成结构化的思维链解释,并通过人工审核修正,构建高质量的多轮对话轨迹 。
  • 多轮强化学习:使用GRPO,对于HPS任务,额外增加了“距离目标的角度距离”作为奖励项。

测试表明,经训练后,Qwen2.5-VL-3B-Instruc在目标搜索(14.83%→47.38%)和路径搜索(6.44%→24.94%)上的搜索准确率均有所提高。



其中,路径搜索的上限较低,表明其难度在于需要复杂的空间常识。

而在其他多模态大模型的测试中, 谷歌的Gemini 2.5 Pro是整体表现最强的模型,在HOS任务中达到31.96%,在HPS任务中达到33%。



此外,研究发现,更大的模型尺寸并不一定能保证更好的性能。

无论是Gemma-3还是Qwen2.5-VL系列,较小的4B/3B模型在HOS任务中均超越了其较大的12B/7B对应模型,并在 HPS 任务中表现持平。

通过分析错误类型,研究发现

  • HOS错误主要源于感知能力不足(无法在杂乱环境中识别目标)和感知-动作差距(检测到目标但无法精细对齐)。
  • HPS错误则更为复杂,包括缺乏物理常识(如试图穿墙)、缺乏社会空间常识(如不懂排队区或员工通道规则)以及视觉-动作不匹配 。
  • 主动 vs. 被动:主动视觉搜索(在全景图中旋转)优于被动分析(直接输入全景图),因为前者更符合人类直觉且避免了全景图的畸变

总的来说,研究通过引入H*Bench基准和利用后训练技术,探讨了由 MLLM 驱动的in wild类人视觉搜索。

研究表明尽管后训练能够有效地提高低级感知-运动能力(例如视觉定位和探索),但它也暴露了高级推理方面的根本瓶颈,这些推理需要物理、空间和社会常识。

One more thing

这篇研究出自纽约大学的李一鸣团队,在推文中,他感谢了谢赛宁chen feng的指导。



李一鸣目前在英伟达就职,担任研究科学家,与Marco Pavone教授合作,研究物理人工智能和自动驾驶。



他于2025年在纽约大学取得博士学位,师从chen feng教授,研究机器人感知。

值得一提的是,在他的简介中,他还表明自己将于2026年入职清华大学人工智能学院,担任助理教授。




[1]https://yimingli-page.github.io/
[2]https://x.com/YimingLi9702/status/1993676992303268142
[3]https://x.com/sainingxie/status/1993776740154610084?s=20
[4]https://arxiv.org/pdf/2511.20351

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
贝克汉姆14岁女儿家庭风波中首次发声,大布被曝,只想跟妹妹联系

贝克汉姆14岁女儿家庭风波中首次发声,大布被曝,只想跟妹妹联系

译言
2026-01-25 06:53:17
就在刚刚!26号早上,广东宏远传来徐杰、徐昕和杜锋的最新消息

就在刚刚!26号早上,广东宏远传来徐杰、徐昕和杜锋的最新消息

多特体育说
2026-01-26 07:40:03
牢A能这么火,是有原因的!

牢A能这么火,是有原因的!

走读新生
2026-01-23 14:09:59
白宫发布“特朗普和企鹅漫步格陵兰岛”图,遭群嘲

白宫发布“特朗普和企鹅漫步格陵兰岛”图,遭群嘲

新华社
2026-01-25 16:55:04
童锦程不配合,孩子还没办出生证明,女方自曝美照后,舆论反转了

童锦程不配合,孩子还没办出生证明,女方自曝美照后,舆论反转了

非常先生看娱乐
2026-01-23 17:54:48
2-1惊险逆转!王欣瑜再进决赛冲冠:中国莎娃又美又能打

2-1惊险逆转!王欣瑜再进决赛冲冠:中国莎娃又美又能打

李喜林篮球绝杀
2026-01-10 17:21:22
澳大利亚总理力挺卡尼

澳大利亚总理力挺卡尼

上观新闻
2026-01-25 14:57:12
常规赛总得分升至第19,库里18中7得26分7助4断,正负值+16

常规赛总得分升至第19,库里18中7得26分7助4断,正负值+16

懂球帝
2026-01-26 09:09:07
集体倒戈!特朗普,彻底演砸了!

集体倒戈!特朗普,彻底演砸了!

大嘴说天下
2026-01-25 20:34:37
官媒亲证:韦东奕33岁再创巅峰,学术圈为之震撼

官媒亲证:韦东奕33岁再创巅峰,学术圈为之震撼

悠悠说世界
2026-01-24 02:11:00
广州人注意!阳性率上升,传染性强!目前暂无疫苗或者特效药!

广州人注意!阳性率上升,传染性强!目前暂无疫苗或者特效药!

羊城攻略
2026-01-24 22:58:42
枪打出头鸟!特朗普通告全球:加征200%关税,第一个牺牲国出现了

枪打出头鸟!特朗普通告全球:加征200%关税,第一个牺牲国出现了

议纪史
2026-01-25 09:45:03
何超琼没想到,倒贴嫁东北小伙的何超盈,如今竟给她狠狠长脸

何超琼没想到,倒贴嫁东北小伙的何超盈,如今竟给她狠狠长脸

白面书誏
2026-01-25 14:44:04
李亚鹏曝光捐赠名单,向太发声:我捐了几百万,王菲默默支持了几千万,也是不够的……

李亚鹏曝光捐赠名单,向太发声:我捐了几百万,王菲默默支持了几千万,也是不够的……

都市快报橙柿互动
2026-01-24 19:48:42
梅洛尼:强烈愤慨,决定召回大使

梅洛尼:强烈愤慨,决定召回大使

上观新闻
2026-01-25 20:27:05
NBA官方:掘金vs灰熊、独行侠vs雄鹿均因恶劣天气原因延期进行

NBA官方:掘金vs灰熊、独行侠vs雄鹿均因恶劣天气原因延期进行

罗说NBA
2026-01-26 06:01:31
印度爆发尼帕病毒疫情 死亡率高达40%到75%

印度爆发尼帕病毒疫情 死亡率高达40%到75%

看看新闻Knews
2026-01-25 17:57:08
2026年是一个大坎,有些地方要尽量少去

2026年是一个大坎,有些地方要尽量少去

郁郁乎文
2026-01-21 13:15:54
房东慌了!身份被实锤,真实目的被扒,嫣然医院新址确定后着急了

房东慌了!身份被实锤,真实目的被扒,嫣然医院新址确定后着急了

有范又有料
2026-01-24 16:26:39
独家调查|加拿大医生携幼女来沪求医,花16万元“保脾”!中国医疗不止性价比

独家调查|加拿大医生携幼女来沪求医,花16万元“保脾”!中国医疗不止性价比

第一财经资讯
2026-01-25 19:04:21
2026-01-26 10:15:00
量子位 incentive-icons
量子位
追踪人工智能动态
12060文章数 176361关注度
往期回顾 全部

科技要闻

三星闪存,涨价100%

头条要闻

牛弹琴:特朗普非常难过 发文祈祷"中国别接管加拿大"

头条要闻

牛弹琴:特朗普非常难过 发文祈祷"中国别接管加拿大"

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

央八开播 杨紫胡歌主演的40集大剧来了

财经要闻

现货黄金历史首次突破5000美元

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

教育
亲子
房产
旅游
游戏

教育要闻

旋转作图第1讲,一个视频学明白!

亲子要闻

小孩哥:我的天真还是被无鞋打败了!

房产要闻

正式官宣!三亚又一所名校要来了!

旅游要闻

来无锡旅游可领8888元消费大礼包!2026“乐享新春”太湖购物节启动

为什么在穿越火线里面,马来剑的口碑能好到那个程度?

无障碍浏览 进入关怀版