网易首页 > 网易号 > 正文 申请入驻

大模型觉醒空间意识?李飞飞、谢赛宁再叙空间智能

0
分享至

《科创板日报》12月23日讯(编辑 宋子乔) 有着“AI教母”之称的斯坦福大学教授李飞飞又有新发现——尽管空间推理能力依然薄弱,但多模态大模型已经能够记住和回忆空间,甚至内部已经形成了局部世界模型,表现出了空间意识。

来自纽约大学、耶鲁大学、斯坦福大学的研究者引入了VSI-Bench,这是一个用于评估多模态大模型视觉空间智能能力的工具。VSI-Bench包含了超过5000个问答对,这些问答对来源于288个真实视频。这些视频包括居住空间、专业场所(例如,办公室、实验室)和工业场所(例如,工厂)——以及多个地理区域。VSI-Bench的质量很高,经过迭代审查以最小化问题的歧义,并移除了从源数据集中传播的错误注释。

通过5000多个问答对,研究人员发现多模态大模型表现出了有竞争性的视觉空间智能(尽管仍然低于人类)——人类评估者的平均准确率达到79%,比最佳模型高出33%,在配置和时空任务上的表现接近完美(94%-100%)。

哪些模型的空间智能能力更强?

在专有模型中,Gemini-1.5 Pro脱颖而出,尽管只在2D数字数据上进行训练,但它大大超过了机会基线,并在绝对距离和房间大小估计等任务中接近人类表现;表现最佳的开源模型,如LLaVA-NeXT-Video-72B和LLaVA-OneVision-72B,取得了有竞争力的结果,仅落后Gemini-1.5 Pro 4%-5%。然而,大多数开源模型(7/12)都低于机会基线,暴露出视觉空间智能的明显缺陷。

在最新研究中,研究人员还给出了提升大模型空间智能能力的潜在路径。

这项研究系统评估了多模态大模型的视觉空间智能后发现,思维链、思维树、自洽性等常用的语言提示技术不仅没有提升模型在空间任务上的表现,反而会使性能下降,而问答过程中明确生成认知地图则会增强多模态大模型的空间距离能力——使用认知地图辅助空间推理,可使模型在空间任务上的准确率提升了10个百分点。

相关论文已发布,合著作者中不仅有李飞飞,还有纽约大学计算机科学助理教授、CV大牛谢赛宁。

谢赛宁表示,视觉空间智能在现实世界中的应用,比以往任何时候都更近了。比如AI眼镜,它可以向我们显示去过的地方,还能定位、导航。

李飞飞也表示,在2025年,空间智能的界限很可能会再次突破,“这项名为“Thinking in Space”的研究,是对大模型在空间推理方面表现的评估,而空间推理对人类智能至关重要。”

视频理解能力无疑是AI大模型的下一个待攻关高地。当前的多模态大模型在2D空间的推理能力不断增强,可以较好地处理语言对话任务和视频图像任务,但在空间认知和理解方面的能力仍未得到充分研究。

空间智能对于模型理解物理世界而言至关重要

李飞飞对空间智能的定义是:空间智能是机器在3D空间和时间中感知、推理和行动的能力。

在她看来,空间智能是AI领域的下一个前沿技术方向,是她的下一个“北极星”。

李飞飞此前表示,实现AGI(通用人工智能)的关键一环是“空间智能”,尽管OpenAI的Sora模型可以文生视频,但就本质而言,它仍属平面二维模型,没有三维立体理解能力,只有通过空间智能,才能看到世界、感知世界、理解世界并让机器人做事,从而形成良性闭环。

今年9月份,在成功融资2.3亿美元后,李飞飞创办的空间智能公司World Labs正式启动。据介绍,World Labs的目标是开发一种能够理解实体世界的模型。今年7月,有消息称在完成两轮融资后,World Labs的估值已超过10亿美元,该公司的投资机构可以说是耳熟能详,包括安德森•霍罗威茨(Andreessen Horowitz,又名a16z)、Adobe、AMD、Databricks、英伟达、AI基金Radical Ventures等。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
轰21+7+7,老詹预定一项历史第一!湖人22战17胜2年1100万捡到宝

轰21+7+7,老詹预定一项历史第一!湖人22战17胜2年1100万捡到宝

锅子篮球
2026-03-04 15:15:07
红色资本家荣毅仁89岁在北京逝世,留下的5个子女,今现状如何?

红色资本家荣毅仁89岁在北京逝世,留下的5个子女,今现状如何?

南书房
2026-02-05 19:25:03
内蒙古草兔为何泛滥成灾?就连吃货都无能为力,牧民直言:不敢碰

内蒙古草兔为何泛滥成灾?就连吃货都无能为力,牧民直言:不敢碰

一曲一场談
2026-02-25 03:42:27
一只苍蝇困死整个大陆?无法种地不能养马,这才是非洲的穷根!

一只苍蝇困死整个大陆?无法种地不能养马,这才是非洲的穷根!

你是我心中最美星空
2026-02-27 07:53:59
从概念走向现实,中国量子手机将进入寻常百姓家

从概念走向现实,中国量子手机将进入寻常百姓家

经济观察报
2026-03-03 17:17:06
女生主动起来有多黏人?网友:这些女的太开放了

女生主动起来有多黏人?网友:这些女的太开放了

带你感受人间冷暖
2026-01-27 00:20:06
2026年,第一个“撑不住”的车企出现了,巨亏1780亿!

2026年,第一个“撑不住”的车企出现了,巨亏1780亿!

i王石头
2026-03-04 15:21:36
年薪60万!一企业招聘985应届生,入职满12个月发放,每月发5000

年薪60万!一企业招聘985应届生,入职满12个月发放,每月发5000

火山詩话
2026-03-04 11:48:25
谁斩杀了程序员高广辉?

谁斩杀了程序员高广辉?

洒家君泽
2026-01-26 13:57:01
李雨桐再锤薛之谦!指控他滥杀无辜,恐怕要坐牢,张杰无辜受牵连

李雨桐再锤薛之谦!指控他滥杀无辜,恐怕要坐牢,张杰无辜受牵连

离离言几许
2026-03-03 11:09:30
沉默整整9天,毛宁一锤定音,中美战机已交手,美方要见中国代表

沉默整整9天,毛宁一锤定音,中美战机已交手,美方要见中国代表

古事寻踪记
2026-03-01 07:04:32
美国精英想不通:为什么每次要打压中国时,总有意外发生?

美国精英想不通:为什么每次要打压中国时,总有意外发生?

聚焦真实瞬间
2026-01-26 10:19:09
《鹅鸭杀》霸榜两个月的奇迹背后,是游戏发行的一次革命。

《鹅鸭杀》霸榜两个月的奇迹背后,是游戏发行的一次革命。

差评XPIN
2026-03-05 00:08:59
越南副主席黄文欢,因不满反华被判死刑,投奔中国后,结局如何?

越南副主席黄文欢,因不满反华被判死刑,投奔中国后,结局如何?

近史谈
2026-02-15 07:41:48
明日惊蛰,不论多忙,记得:1要打,2要吃,忌3事,平安过春天

明日惊蛰,不论多忙,记得:1要打,2要吃,忌3事,平安过春天

阿龙美食记
2026-03-04 13:41:25
美媒:卫星图像等显示,伊朗袭击对至少7座美军基地通信雷达系统造成破坏

美媒:卫星图像等显示,伊朗袭击对至少7座美军基地通信雷达系统造成破坏

环球网资讯
2026-03-04 20:22:43
揭秘IF椰子水关联公司

揭秘IF椰子水关联公司

雷达财经
2026-03-04 19:24:13
单场15+10+6+2,近25年仅7人做到,这便是火箭拒绝引进琼斯的原因

单场15+10+6+2,近25年仅7人做到,这便是火箭拒绝引进琼斯的原因

移动挡拆
2026-03-05 06:26:09
伊朗遇袭身亡高层官员分布一览

伊朗遇袭身亡高层官员分布一览

网易新闻出品
2026-03-03 11:58:56
以媒:库尔德武装开始在伊朗境内开展地面活动

以媒:库尔德武装开始在伊朗境内开展地面活动

界面新闻
2026-03-05 07:20:13
2026-03-05 09:51:00
财联社 incentive-icons
财联社
以“准确、快速、权威、专业”为新闻准则,为投资者提供专业的投资资讯。
691164文章数 1018278关注度
往期回顾 全部

科技要闻

4599元起!MacBook Neo发布:搭载A18 Pro

头条要闻

速览"十四五"时期经济社会发展成就:GDP年均增长5.4%

头条要闻

速览"十四五"时期经济社会发展成就:GDP年均增长5.4%

体育要闻

2026年中超,为什么值得你多看一眼?

娱乐要闻

谢谢谢娜 贡献出26年内娱的第一个笑话

财经要闻

李强正在作政府工作报告

汽车要闻

鸿蒙智行首款猎装车 尚界Z7/Z7T首发

态度原创

游戏
时尚
本地
亲子
健康

《使命召唤:现代战争2》概念艺术图曝光 经典永不过时!

打底衫,条纹的最适合春天!

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

亲子要闻

京东幼儿园投入试运行,在京东总部对面,首批迎50名新生

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版