网易首页 > 网易号 > 正文 申请入驻

谢赛宁:Thinking in Space

0
分享至

视频理解被视为人工智能领域的新前沿,但你是否想过,并非所有视频都是一样的?纽约大学谢赛宁(Saining Xie)在最新研究中提出了一个令人耳目一新的视角:我们的日常空间——那些我们与未来的AI助手共同体验和探索的地方——是否也能被人工智能真正理解?答案或许隐藏在他们的最新研究 “Thinking in Space”

空间智能:人类的天赋,AI的短板

在视觉领域,人工智能已经能够“处理”空间,但它们很少“推理”。而多模态大语言模型(MLLMs)虽然善于推理,却常常忽略了空间逻辑。相比之下,人类在日常生活中无时无刻不依赖空间和视觉思维:从旋转脑海中的家具布局到为新家挑选合适的沙发,这种能力是我们天生的本领,但对于AI来说却是一个未解的谜题

打造新基准:用视频重新定义空间推理

为了探索这一难题,谢赛宁团队构建了一个全新的基准,涵盖多种视觉-空间智能任务,包括关系推理和测量推理。他们选择视频作为研究媒介,因为视频最贴近人类感知世界的方式,同时也对AI提出了更高的长时推理和世界建模要求

数据从何而来?研究团队别出心裁地利用现有的空间扫描视频(原用于3D重建),并通过这些视频的真实标注数据自动生成视觉问答(VQA)问题。尽管生成过程自动化程度高,研究者仍引入人工质检,确保问题的质量。最终,他们获得了超过5000对问答数据,为AI模型提供了一个全新的挑战

AI的表现如何?

测试结果显示,尽管当前的MLLMs在视觉-空间智能上表现出色,但仍未达到人类水平。其中,Gemini Pro模型表现最佳,但与人类的能力仍有明显差距。这并不意外:即便是人类,在面对复杂空间任务时也可能迷失方向,但我们能够通过调整心智模型来克服这些挑战,而AI目前还做不到

AI的短板:空间推理的瓶颈

研究的一大亮点是分析AI在空间任务中的具体弱点。实验表明,空间推理而非物体识别或语言能力,才是MLLMs的主要瓶颈。例如,模型在处理视角转换、从自我视角到全局视角的转变,以及长时间跟踪物体时表现不佳

此外,常见的语言提示技术(如链式推理或多数投票)在这些任务中反而适得其反, 进一步证明了语言智能与视觉-空间智能的本质区别


空间记忆的挑战:局部模型与整体认知的断层

团队还通过一个创新实验让模型在笛卡尔网格上“可视化”其记忆,结果显示,MLLMs在处理空间信息时,会构建一系列局部化的世界模型,而非一个连贯的整体模型。当问题涉及距离较远的物体时,模型的表现迅速下降。这一发现揭示了未来研究的关键方向:开发更有效的空间记忆机制

参考:

https://vision-x-nyu.github.io/thinking-in-space.github.io/

https://arxiv.org/abs/2412.14171

https://github.com/vision-x-nyu/thinking-in-space

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一觉醒来,美航母调头狂奔,伊朗没想到,这个邻国比自己还敢打

一觉醒来,美航母调头狂奔,伊朗没想到,这个邻国比自己还敢打

书纪文谭
2026-03-04 23:10:51
中央宣传部命名第十一批全国岗位学雷锋标兵

中央宣传部命名第十一批全国岗位学雷锋标兵

环球网资讯
2026-03-05 11:01:42
委员建议,取消在居民身份证上印刷“住址”信息

委员建议,取消在居民身份证上印刷“住址”信息

中国新闻周刊
2026-03-04 14:03:06
霍尔木兹海峡GPS遭强干扰 商船切换北斗正常工作3小时 船员发声:为中国北斗点赞

霍尔木兹海峡GPS遭强干扰 商船切换北斗正常工作3小时 船员发声:为中国北斗点赞

快科技
2026-03-04 08:36:31
保联盟第一!雷霆险胜尼克斯 亚历山大26+8创纪录切特28+8

保联盟第一!雷霆险胜尼克斯 亚历山大26+8创纪录切特28+8

醉卧浮生
2026-03-05 10:43:30
乌军重新打回红军城,以色列对伊朗新当选精神领袖发出诛杀令

乌军重新打回红军城,以色列对伊朗新当选精神领袖发出诛杀令

史政先锋
2026-03-04 19:54:52
锦江饭店被收归国有后,创始人董竹君惨遭除名,96岁时仍在奔走

锦江饭店被收归国有后,创始人董竹君惨遭除名,96岁时仍在奔走

史之铭
2026-03-03 22:44:25
之前某大V在油管上自爆:他在油管(youtube)2年挣了460-470万

之前某大V在油管上自爆:他在油管(youtube)2年挣了460-470万

岁月有情1314
2026-03-05 08:44:43
看完14个关于伊朗的事实,基本盘会沉默吗?

看完14个关于伊朗的事实,基本盘会沉默吗?

黔有虎
2026-03-03 15:54:09
美国务卿要“放蒋出笼”对付伊朗

美国务卿要“放蒋出笼”对付伊朗

远方青木
2026-03-05 00:13:22
还能撑8天,之后台湾去哪搞天然气?

还能撑8天,之后台湾去哪搞天然气?

枢密院十号
2026-03-04 19:30:15
斯里兰卡外长:已打捞出87具伊朗遇袭军舰人员遗体

斯里兰卡外长:已打捞出87具伊朗遇袭军舰人员遗体

新华社
2026-03-05 00:03:02
在自然与文明的交响中,解码斯里兰卡的旅游瑰宝

在自然与文明的交响中,解码斯里兰卡的旅游瑰宝

品橙旅游
2026-03-04 13:08:20
Unity官宣:全球商店移除中国开发者资源!

Unity官宣:全球商店移除中国开发者资源!

3DM游戏
2026-03-04 09:18:05
英超大结局?阿森纳夺冠概率超9成!遭对手炮轰:拖时间+投机取巧

英超大结局?阿森纳夺冠概率超9成!遭对手炮轰:拖时间+投机取巧

我爱英超
2026-03-05 07:55:40
离谱!网上出现Steam上门安装服务 开价1000元一次

离谱!网上出现Steam上门安装服务 开价1000元一次

游民星空
2026-03-04 20:03:32
海军未被全灭:刚刚,伊朗最先进军舰被击中起火!

海军未被全灭:刚刚,伊朗最先进军舰被击中起火!

胜研集
2026-03-04 21:47:41
灵魂人物离职,成员向高层要解释!阿里CEO向千问员工致歉……

灵魂人物离职,成员向高层要解释!阿里CEO向千问员工致歉……

柴狗夫斯基
2026-03-05 08:36:31
广东阳光何时回归? 近期气温变化快,适时添减衣物防感冒

广东阳光何时回归? 近期气温变化快,适时添减衣物防感冒

广东天气
2026-03-04 12:45:48
伊朗战争最新进展。。。

伊朗战争最新进展。。。

西楼饮月
2026-03-04 22:21:36
2026-03-05 11:52:49
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1035文章数 396关注度
往期回顾 全部

科技要闻

阿里内部邮件回应:批准林俊旸辞职

头条要闻

牛弹琴:美国开始借刀杀人 找到了颠覆伊朗的"马前卒"

头条要闻

牛弹琴:美国开始借刀杀人 找到了颠覆伊朗的"马前卒"

体育要闻

2026年中超,为什么值得你多看一眼?

娱乐要闻

谢娜下场撕薛之谦,张杰前女友爆猛料

财经要闻

政府工作报告:2025年国内生产总值增长5%

汽车要闻

鸿蒙智行首款猎装车 尚界Z7/Z7T首发

态度原创

亲子
艺术
游戏
公开课
军事航空

亲子要闻

山口一直生活在日本农村,第一次在中国过年,看到这么多烟花!

艺术要闻

2026年“浩瀚草原 亮丽北疆”美展

育碧官宣 Netflix《刺客信条》真人剧将迎重大消息

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗首次使用"哈迪德110"高速无人机

无障碍浏览 进入关怀版