网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

大模型首次拥有“脖子”！纽大团队实现360度类人视觉搜索

2025-11-27 16:25:28　来源: 量子位

北京举报

0

分享至

henry 发自凹非寺
量子位 | 公众号

终于有人要给大模型安“脖子”了！

在最新的论文Thinking in 360°: Humanoid Visual Search in the Wild中，来自纽约大学的研究团队让大模型能够环顾四周，进行360度的全方位思考。

他们通过定义一套全新的数据集和基础测试H*，让模型可以在火车站、购物中心等真实环境中，进行像人类一样的视觉搜索。

谢赛宁（也参与了这篇论文）在转发中，直接表示：这不就是给模型安了个脖子吗？

这是怎么回事？

类人视觉搜索

整体而言，研究团队首先提出了一项在360度空间中实现人类主动空间推理的新任务——

类人视觉搜索（Humanoid Visual Search），这项任务能让类人智能体在全景图像构建的沉浸式环境中，通过自主旋转头部搜索目标物体或路径。

为进一步评估智能体在视觉拥挤的真实场景中的搜索能力，研究团队还构建了全新的针对性基准测试 ——H*Bench

这一基准突破了传统测试多聚焦简单家庭场景的局限，涵盖交通枢纽、大型零售场所、城市街道、公共机构等真实世界复杂环境，对智能体的高级视觉 -空间推理能力提出了更严苛的考验。

该研究的推进，为视觉空间推理从 “脱离身体的被动范式” 向 “具身的主动范式” 转型奠定了重要基础。

接下来，我们具体来看。

在论文的开头，研究提出了一个非常直觉的问题——如何开发出既能像人类一样高效，又能绕过硬件限制在复杂现实场景中进行主动视觉搜索的具身智能体？

众所周知，相比于脑袋、手腕、身体各处“长眼”的机器人，人类仅凭转动脖子和眼睛，就能高效地搜索360°范围内的视觉信息，从而完成视觉搜索任务（比如在地铁站中寻找下一个出口）。

而现在的大模型，不但只能处理单张、静态、低分辨率的图像，而且在后续的操作中，也局限于将图像放大、裁剪的计算操作。

这就意味着与生物视觉相比，大模型既无法改变初始视角以获取视野以外的信息，同时也由于缺乏物理实体，不能移步换景，将视觉推理和物理行动结合起来。

基于此，研究提出了类人视觉搜索（Humanoid Visual Search，HVS）将主动的头部转动融入智能体在复杂环境中的视觉推理，其具备以下特性：

交互性：智能体从窄视角开始，在360度的全景图中行动，每次头部旋转都会改变其视觉输入。
具身性：将视觉推理与物理动作结合在一起，要求智能体有意识地协调头部运动，将其作为思维过程的一部分。

具体地，类人视觉搜索进一步将研究聚焦于以下两类搜索问题：

类人物体搜索（Humanoid Object Search，HOS）：定位并将视线聚焦于目标物体，作为操作的先决条件。在基准中，难度根据初始可见度比率分为简单、中等和困难三个等级。

类人路径搜索（Humanoid Path Search，HPS）：识别通往目的地的可通行路径并调整身体朝向，作为移动的先决条件。在基准中，难度分为四个级别，由场景中文本线索的存在以及视觉/文本线索与实际路径方向的一致性决定。

为了将搜索问题形式化，研究将其构建为一个多模态的推理任务

简单来说，多模态大模型通过一个策略网络来实现工具使用与头部旋转，其将时间步、当前观测、语言指令和历史状态作为输入，输出文本思维链和动作。

值得一提的是，由于人类的推理是间歇性的，仅在关键决策点才会被调用，所以研究仅利用在决策点采集的单个360°全景图构建闭环搜索环境，而无需使用3D模拟器或硬件。

知道了找什么，去哪，和怎么走之后，为了找到最佳的测试环境，研究又构建了一个数据集、基准测试和基线——H*，旨在实现真实360度环境中类人的视觉搜索。

具体来说，H包含约3000个带标注的任务实例，这些实例来源于多样化的高分辨率全景视频。

研究通过为每个任务实例设置四个不同的起始方向来初始化智能体，总共获得了个搜索回合。

H*Bench 的数据来源于全球大都市地区（纽约、巴黎、阿姆斯特丹、法兰克福）自行采集的素材以及开放平台（YouTube和360+x数据集），从而提供了广泛的地理覆盖范围。

具体的场景主要包含6个主要类别——零售环境、交通枢纽、城市街道、公共机构、办公室和娱乐场所。

此外，由于多模态大模型是在静态、非具身的互联网数据上训练的，它们本质上缺乏拟人化视觉搜索所需的空间常识和主动 3D 规划能力。

因此，研究又通过上面pipeline将多模态大模型转化为有效的视觉搜索智能体：

监督微调：首先在一个精选的多轮数据集上执行SFT，以灌输基本的任务导向推理和工具使用能力。这教会模型从多模态输入中生成结构化的动作计划，建立了强大的行为先验。
多轮强化学习：使用GRPO算法来精炼策略。根据以往的发现，这一 RL 阶段鼓励长程推理，对于开发超越模仿学习基线的鲁棒、可泛化的搜索策略至关重要。

实验验证

在部署环节，研究基于Qwen2.5-VL-3B-Instruct模型展开上述pipeline，

微调：利用GPT-4o生成结构化的思维链解释，并通过人工审核修正，构建高质量的多轮对话轨迹。
多轮强化学习：使用GRPO，对于HPS任务，额外增加了“距离目标的角度距离”作为奖励项。

测试表明，经训练后，Qwen2.5-VL-3B-Instruc在目标搜索（14.83%→47.38%）和路径搜索（6.44%→24.94%）上的搜索准确率均有所提高。

其中，路径搜索的上限较低，表明其难度在于需要复杂的空间常识。

而在其他多模态大模型的测试中，谷歌的Gemini 2.5 Pro是整体表现最强的模型，在HOS任务中达到31.96%，在HPS任务中达到33%。

此外，研究发现，更大的模型尺寸并不一定能保证更好的性能。

无论是Gemma-3还是Qwen2.5-VL系列，较小的4B/3B模型在HOS任务中均超越了其较大的12B/7B对应模型，并在 HPS 任务中表现持平。

通过分析错误类型，研究发现

HOS错误主要源于感知能力不足（无法在杂乱环境中识别目标）和感知-动作差距（检测到目标但无法精细对齐）。
HPS错误则更为复杂，包括缺乏物理常识（如试图穿墙）、缺乏社会空间常识（如不懂排队区或员工通道规则）以及视觉-动作不匹配。
主动 vs. 被动：主动视觉搜索（在全景图中旋转）优于被动分析（直接输入全景图），因为前者更符合人类直觉且避免了全景图的畸变

总的来说，研究通过引入H*Bench基准和利用后训练技术，探讨了由 MLLM 驱动的in wild类人视觉搜索。

研究表明尽管后训练能够有效地提高低级感知-运动能力（例如视觉定位和探索），但它也暴露了高级推理方面的根本瓶颈，这些推理需要物理、空间和社会常识。

One more thing

这篇研究出自纽约大学的李一鸣团队，在推文中，他感谢了谢赛宁chen feng的指导。

李一鸣目前在英伟达就职，担任研究科学家，与Marco Pavone教授合作，研究物理人工智能和自动驾驶。

他于2025年在纽约大学取得博士学位，师从chen feng教授，研究机器人感知。

值得一提的是，在他的简介中，他还表明自己将于2026年入职清华大学人工智能学院，担任助理教授。

[1]https://yimingli-page.github.io/
[2]https://x.com/YimingLi9702/status/1993676992303268142
[3]https://x.com/sainingxie/status/1993776740154610084?s=20
[4]https://arxiv.org/pdf/2511.20351

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

国内首台！永磁材料检测，迎国产超导新装备

每日经济新闻 2026-01-25 11:21:04
0 跟贴 0
要把智能体消灭在萌芽状态

芳芳爱剪辑 2026-01-24 15:19:06
31 跟贴 31

一文速通「机器人3D场景表示」发展史

机器之心Pro 2026-01-23 13:01:05
0 跟贴 0

斯坦福×英伟达发布AI推理新范式，刷新了多领域SOTA

新智元 2026-01-25 19:58:42
0 跟贴 0
2025，AI行业发生了什么？

经济观察报 2026-01-10 16:57:53
1 跟贴 1

2026年，大模型训练的下半场属于「强化学习云」

机器之心Pro 2026-01-12 14:03:47
0 跟贴 0

“陈小群”概念股炒作利益链曝光；2026春晚指定具身大模型机器人；腾讯宣布春节发10亿现金！贾国龙发声：不再打造个人IP丨每经早参

每日经济新闻 2026-01-26 05:57:11
1 跟贴 1
周鸿祎预言颠覆认知 2026年全世界或将突破100亿个智能体百亿级公司在AI领域都算小公司

快科技 2026-01-25 04:10:27
0 跟贴 0

20+ 鱼皮原创项目教程，春招有救了！

程序员鱼皮 2026-01-25 11:08:04
0 跟贴 0
智能体基础设施是AI时代操作系统，真正的智能体要能思考、能分析，能行动

量子位 2025-12-11 03:38:22
0 跟贴 0
MiniMax来承包你的桌面了-4

机器之心Pro 2026-01-20 20:19:42
0 跟贴 0
从碎片化学习到系统化实战——主流经方教育大模型横向测评

生活微看点 2026-01-23 18:08:45
0 跟贴 0
视锥细胞与生存需求：生物视觉多样性解析

六六冷知识 2026-01-23 16:52:10
9 跟贴 9
专家：已有欧洲国家开始考虑"联合中国对抗美国"

澎湃新闻 2026-01-25 11:23:52
28480 跟贴 28480
晚期肺癌降期手术实例分享

郑于臻医生 2026-01-25 13:06:27
0 跟贴 0
死磕机器人大脑的北大副教授，和我们聊了聊具身领域最大的“偏见”

36氪 2026-01-24 21:41:08
0 跟贴 0
整墙鱼瞬间位移，震撼视觉效果！

科学大搜索 2026-01-25 12:04:13
2 跟贴 2
U23国足主帅即将成为国奥主帅 2年后将挑战40年"魔咒"

澎湃新闻 2026-01-25 14:07:05
1723 跟贴 1723
微软发布医疗时序基座模型：4540亿数据预训练，解决不规则采样

量子位 2026-01-24 13:16:13
0 跟贴 0
美国运动员霍诺德成功徒手攀爬508米高台北101，耗时约1小时31分钟

潇湘晨报 2026-01-25 12:00:17
7517 跟贴 7517
视觉盛宴：全球22处最不可思议奇石

鸿运齐天9 2026-01-24 09:08:37
8 跟贴 8
李飞飞世界模型公司一年估值暴涨5倍！正洽谈新一轮5亿美元融资

量子位 2026-01-25 20:08:59
1 跟贴 1
商业航天抢滩2026：蓝箭航天、星河动力、中科宇航三大总工程师同台披露最新时间表

财联社 2026-01-26 00:00:13
10 跟贴 10
厨房接连“下小雨”，贵阳一业主苦不堪言！想要维修？楼上邻居开出“条件清单”

扬子晚报 2026-01-25 23:06:19
1 跟贴 1
已有6地将器官捐献纳入"见义勇为"评定专家提醒

看看新闻Knews 2026-01-25 13:21:04
10548 跟贴 10548
投篮偏差解密：视觉校正提升命中率

清衣渡a 2026-01-25 08:00:16
1 跟贴 1
新车买来6天，4S店销售员一个没注意撞了！车主协商未果把车卖了，贬值3.5万

都市快报橙柿互动 2026-01-25 11:35:05
1776 跟贴 1776
以为家里摆的羊驼模型，直到和萌娃抢吃的，看到后颠覆三观！

搞笑鸭大妈 2026-01-24 09:42:55
1 跟贴 1
华为推出软工代码智能体SWE-Lego，解锁SFT训练极致性能

机器之心Pro 2026-01-13 14:54:45
0 跟贴 0
这座曾见证大唐盛世的中国国宝，日本该还了！

新民周刊 2026-01-26 09:10:05
1 跟贴 1
澳网｜不战而胜“保送”男单八强，德约科维奇真的要拿第25座大满贯？

文汇报 2026-01-26 04:09:13
50 跟贴 50
这个“小呆子”火爆硅谷，五行代码压榨大模型替你007

量子位 2026-01-19 07:16:14
0 跟贴 0
学霸思维训练：用一半模型求面积

公考客栈店小二 2026-01-26 08:00:00
0 跟贴 0
中国大陆最北端宜家即将闭店，清仓商品遭大量顾客争抢，官方客服：人流量很大

齐鲁壹点 2026-01-25 20:14:24
222 跟贴 222
热闻|世界波，绝杀，胜利！曼联客场3-2逆转阿森纳，英超最新积分榜出炉

齐鲁壹点 2026-01-26 06:39:38
137 跟贴 137
算力租赁概念震荡拉升优刻得、大位科技双双涨停

财联社 2026-01-26 09:38:22
0 跟贴 0
无人机吊猪下山挂电线上致村庄停电10小时，知情人：本有十余头，第一头就挂上了

潇湘晨报 2026-01-25 11:50:16
417 跟贴 417
众擎 800 人形机器人，竟与自家对战，江湖事江湖了

趣味加工厂 2026-01-23 00:00:00
4 跟贴 4
打破纪录！苹果突然宣布大降价

鲁中晨报 2026-01-25 11:07:12
470 跟贴 470
追逐西半球主导地位，要求众盟友承担责任，美国防战略报告引多方担忧

环球网资讯 2026-01-26 06:59:07
15 跟贴 15

贝克汉姆14岁女儿家庭风波中首次发声，大布被曝，只想跟妹妹联系

贝克汉姆14岁女儿家庭风波中首次发声，大布被曝，只想跟妹妹联系

译言

2026-01-25 06:53:17

就在刚刚！26号早上，广东宏远传来徐杰、徐昕和杜锋的最新消息

就在刚刚！26号早上，广东宏远传来徐杰、徐昕和杜锋的最新消息

多特体育说

2026-01-26 07:40:03

牢A能这么火，是有原因的！

走读新生

2026-01-23 14:09:59

白宫发布“特朗普和企鹅漫步格陵兰岛”图，遭群嘲

白宫发布“特朗普和企鹅漫步格陵兰岛”图，遭群嘲

新华社

2026-01-25 16:55:04

童锦程不配合，孩子还没办出生证明，女方自曝美照后，舆论反转了

童锦程不配合，孩子还没办出生证明，女方自曝美照后，舆论反转了

非常先生看娱乐

2026-01-23 17:54:48

2-1惊险逆转！王欣瑜再进决赛冲冠：中国莎娃又美又能打

2-1惊险逆转！王欣瑜再进决赛冲冠：中国莎娃又美又能打

李喜林篮球绝杀

2026-01-10 17:21:22

澳大利亚总理力挺卡尼

上观新闻

2026-01-25 14:57:12

常规赛总得分升至第19，库里18中7得26分7助4断，正负值+16

常规赛总得分升至第19，库里18中7得26分7助4断，正负值+16

懂球帝

2026-01-26 09:09:07

集体倒戈！特朗普，彻底演砸了！

集体倒戈！特朗普，彻底演砸了！

大嘴说天下

2026-01-25 20:34:37

官媒亲证：韦东奕33岁再创巅峰，学术圈为之震撼

官媒亲证：韦东奕33岁再创巅峰，学术圈为之震撼

悠悠说世界

2026-01-24 02:11:00

广州人注意！阳性率上升，传染性强！目前暂无疫苗或者特效药！

广州人注意！阳性率上升，传染性强！目前暂无疫苗或者特效药！

羊城攻略

2026-01-24 22:58:42

枪打出头鸟！特朗普通告全球：加征200%关税，第一个牺牲国出现了

枪打出头鸟！特朗普通告全球：加征200%关税，第一个牺牲国出现了

议纪史

2026-01-25 09:45:03

何超琼没想到，倒贴嫁东北小伙的何超盈，如今竟给她狠狠长脸

何超琼没想到，倒贴嫁东北小伙的何超盈，如今竟给她狠狠长脸

白面书誏

2026-01-25 14:44:04

李亚鹏曝光捐赠名单，向太发声：我捐了几百万，王菲默默支持了几千万，也是不够的……

李亚鹏曝光捐赠名单，向太发声：我捐了几百万，王菲默默支持了几千万，也是不够的……

都市快报橙柿互动

2026-01-24 19:48:42

梅洛尼：强烈愤慨，决定召回大使

梅洛尼：强烈愤慨，决定召回大使

上观新闻

2026-01-25 20:27:05

NBA官方：掘金vs灰熊、独行侠vs雄鹿均因恶劣天气原因延期进行

NBA官方：掘金vs灰熊、独行侠vs雄鹿均因恶劣天气原因延期进行

罗说NBA

2026-01-26 06:01:31

印度爆发尼帕病毒疫情死亡率高达40%到75%

印度爆发尼帕病毒疫情死亡率高达40%到75%

看看新闻Knews

2026-01-25 17:57:08

2026年是一个大坎，有些地方要尽量少去

2026年是一个大坎，有些地方要尽量少去

郁郁乎文

2026-01-21 13:15:54

房东慌了！身份被实锤，真实目的被扒，嫣然医院新址确定后着急了

房东慌了！身份被实锤，真实目的被扒，嫣然医院新址确定后着急了

有范又有料

2026-01-24 16:26:39

独家调查｜加拿大医生携幼女来沪求医，花16万元“保脾”！中国医疗不止性价比

独家调查｜加拿大医生携幼女来沪求医，花16万元“保脾”！中国医疗不止性价比

第一财经资讯

2026-01-25 19:04:21

追踪人工智能动态

12060文章数 176361关注度

往期回顾全部

科技要闻

三星闪存，涨价100%

头条要闻

牛弹琴：特朗普非常难过发文祈祷"中国别接管加拿大"

头条要闻

牛弹琴：特朗普非常难过发文祈祷"中国别接管加拿大"

体育要闻

中国足球不会一夜变强，但他们已经创造历史

娱乐要闻

央八开播杨紫胡歌主演的40集大剧来了

财经要闻

现货黄金历史首次突破5000美元

汽车要闻

别克至境E7内饰图曝光新车将于一季度正式发布

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

亲子

房产

旅游

游戏

教育要闻

旋转作图第1讲，一个视频学明白！

亲子要闻

小孩哥：我的天真还是被无鞋打败了！

房产要闻

正式官宣！三亚又一所名校要来了！

旅游要闻

来无锡旅游可领8888元消费大礼包！2026“乐享新春”太湖购物节启动

为什么在穿越火线里面，马来剑的口碑能好到那个程度？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版