网易首页 > 网易号 > 正文 申请入驻

为机器人赋予空间智能,UIUC团队构建多模态具身智能的3D推理系统

0
分享至

能够在三维场景中进行空间感知和推理决策是机器人和具身 AI 区别于二维图像智能的重要能力,也是现有人工智能模型的严重局限之一。

基于这个观察,美国伊利诺伊大学厄巴纳-香槟分校(UIUC,University of Illinois Urbana-Champaign)团队研究并证明了空间感知在三维多模态推理中的重要性,并结合大视觉语言模型提出了强化空间智能的新方法。

相关论文发表在 2024 年 IEEE 国际计算机视觉与模式识别会议(CVPR,Conference on Computer Vision and Pattern Recognition)上。

论文的第一作者满运泽,本硕博先后就读于浙江大学、美国卡内基梅隆大学和 UIUC。他曾在 Adobe 实习过,如今又在 NVIDIA 从事科研实习工作,目前主要研究多模态大模型和具身智能。

图丨满运泽(来源:满运泽)

他表示,本次工作在很大程度上基于对人类智能的观察。

具体来说:

他和团队发现相比于机器学习模型,人类在回答三维空间中的复杂感知、规划任务和推理任务的时候,会自然而然地从自身所处的情景出发,来做第一人称的理解和判断。

这种智能使得人们可以很轻易地理解“左右”“远近”“上下”等空间相对概念,并能在复杂的多物体多模态环境中工作。

他和同事把这种智能叫做情景感知。它是空间智能的其中一种,代表着一个具身智能体能够理解自身所处环境,并能依此进行空间推理的能力。

这也和美国斯坦福大学李飞飞教授所强调的 Spatial Intelligence 有着密切相关性。

研究中,该团队通过初步实验证明:现有的人工智能模型并不具备情景感知能力。

首先,在情景估计任务中,现有模型的表现仅仅比随机猜测高出一点点而已。

其次,他们还发现有无情景输入,对于情境相关的问答效果完全没有任何区别,这一点其实与人类直觉是完全相悖的。

而在本次研究伊始,他们注意到了 SQA3D 这个数据集,这是一个鲜少有人注意但却非常独特和重要的数据集。

此前通过使用这个数据集,人们一般用来研究 3D 问答效果。但是,很少有人将这个数据集用于研究情景估计和基于情景的问答效果。

而通过分析领域内的已有工作,并通过与人类智能对比,他们将研究方向定为情景感知。

随后,课题组开始针对现有模型的步骤进行分析和可视化,借此找出导致效果变差的成因。

随后发现问题主要出现在两方面:

其一,当采用端到端直接估计的架构时,会导致模型无法利用估计出来的情景,来辅助问答任务和推理任务。

其二,采用回归估计(Regression Estimation)的方法,会导致模型无法在巨大的三维空间中准确定位到某一位置和某一方向向量。

为此,该团队设计出一款名为 SIG3D 的模型,针对上述两方面问题进行优化,这不仅能让三维搜索空间变小,也能显著提升准确度。

同时,课题组尽可能多地寻找合适的数据集来验证猜想,并再次通过最终结果和中间结果的可视化,来验证所优化模块的效果。

最终,相关论文以《情境意识在三维视觉语言推理中的重要性》(Situational Awareness Matters in 3D Vision Language Reasoning)为题发在 CVPR 2024 上 [1]。

图丨相关论文(来源:CVPR)

对于相关论文审稿人一致认为:

首先,本次论文研究动机十分明确,并解决了帮助智能体理解三维环境这一问题,在方法上具有一定创新性。

其次,研究人员进行了充分的实验和广泛的消融研究,在两个问答任务和一个情景估计任务进行了评估。

并在所有三个任务上均展示出最优越的性能,尤其在情境估计任务上取得了显著提升。

最后,研究中对于鸟眼(BEV,Bird's-Eye Vie)俯视角和情境理解的探讨,为 3D 推理和具身 AI 等应用做出了一定贡献。

对于游戏、居家机器人、自动驾驶车辆、以及增强现实/虚拟现实等混合现实产品的智能体系统,本次成果将能带来一定的潜在帮助。

而拥有一个更好的情景感知能力,意味着模型将能拥有更好的 3D 空间理解能力。

它将能明白自己在空间中的位置和方向,因此会天然地拥有更强的避障能力、导航能力、推理能力、交流能力以及多模态问答,从而催生更安全、更智能的 AI。

(来源:CVPR)

另据满运泽介绍,这是他的第一篇正式向视觉语言多模态方向转型的论文。

“论文定题的初期曾经历一些阵痛。由于脱离了自己之前熟悉的领域,所以交流方式也要进行更新,还有无数的相关文献要等着阅读,因此精神压力一直比较大。”他说。

但是,研究途中满运泽逐渐体会到豁然开朗的感觉,也让他产生了很多关于视觉语言模型的其他想法。

他说:“从对这个方向产生兴趣、追随兴趣、摸黑探索、以及豁然开朗,很像《桃花源记》中的一句话‘山有小口,仿佛若有光(新的方向)。便舍船,从口入。初极狭,才通人(转型的阵痛)。复行数十步,豁然开朗’。”

而基于本次成果:

首先,他希望可以继续拓展模型的研究情景感知能力在 7B 模型、13B 模型、乃至 40B 模型中,是否仍会带来推理效果的提升。

其次,他打算研究场景从室内拓展到室外,在更空旷和更复杂的交互中验证模型。

最后,他还会研究视觉模型对于 3D 多模态推理的重要性,尤其是探究图像和视频中的 2D 基础模型的泛化能力,能否被拓展到 3D 模型中。而这个工作的相关论文,已经在 arXiv 预印本平台上发表。

图丨相关论文(来源:arXiv )

满运泽的长期研究目标是:希望开发一个视觉感知优先的多模态信息系统,从而为具身 AI 和机器人构建一个能够准确表示周围世界的动态三维世界模型,并能在进行复杂推理和决策的同时,与人类和环境产生交互。

参考资料:

1.https://arxiv.org/pdf/2406.07544

排版:刘雅坤

01/

02/

03/

04/

05/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
GX上市即爆单 交付已破万台!小鹏6月交付40,126台 大涨15.9%

GX上市即爆单 交付已破万台!小鹏6月交付40,126台 大涨15.9%

快科技
2026-07-01 14:56:16
一连串!6000w、5200万、1900w湖人连签三人!

一连串!6000w、5200万、1900w湖人连签三人!

运筹帷幄的篮球
2026-07-02 00:51:02
女孩吃席“抢狮子头”,面目狰狞,终于理解了什么叫上不了台面!

女孩吃席“抢狮子头”,面目狰狞,终于理解了什么叫上不了台面!

世界圈
2026-06-12 17:03:53
烧了5000亿,用时4年,仅修建2.4公里,沙特未来城大概是要烂尾了

烧了5000亿,用时4年,仅修建2.4公里,沙特未来城大概是要烂尾了

史笔似尘钩
2025-06-17 20:48:06
他是上将里最早进政治局的,没怎么发挥作用,解放后早早止步军队

他是上将里最早进政治局的,没怎么发挥作用,解放后早早止步军队

雍亲王府
2026-07-01 10:15:04
存储芯片股高位“踩刹车”:盘中闪迪跌超10%、美光跌近9%

存储芯片股高位“踩刹车”:盘中闪迪跌超10%、美光跌近9%

华尔街见闻官方
2026-07-02 00:09:50
Hulu的新剧,太敢拍了

Hulu的新剧,太敢拍了

来看美剧
2026-06-29 19:06:47
吃不起!天津出现1380元煎饼果子,商家回应:合理,长期售卖

吃不起!天津出现1380元煎饼果子,商家回应:合理,长期售卖

西昆仑Bruce
2026-07-01 20:21:38
菲律宾游行第2天,人数飙至10万,马科斯怕了?一大早跑去军营

菲律宾游行第2天,人数飙至10万,马科斯怕了?一大早跑去军营

观察者小海风
2026-07-01 16:44:46
最恐怖的“年度印钞机”,来了

最恐怖的“年度印钞机”,来了

中国新闻周刊
2026-06-30 23:13:06
天呢!为应对大规模失业,马斯克开出了惊人药方…

天呢!为应对大规模失业,马斯克开出了惊人药方…

慧翔百科
2026-06-25 12:29:09
一夜之间局势疯转,莱昂纳德哈登逐梦,同时改写命运

一夜之间局势疯转,莱昂纳德哈登逐梦,同时改写命运

林子说事
2026-07-01 09:44:54
失去才懂什么叫珍惜!乌克兰人民怀念亚努科维奇!伊拉克:我懂!

失去才懂什么叫珍惜!乌克兰人民怀念亚努科维奇!伊拉克:我懂!

探源历史
2026-06-24 15:15:06
火箭将以3年合同报价斯玛特!队记曝酝酿交易:范乔丹+芬尼成筹码

火箭将以3年合同报价斯玛特!队记曝酝酿交易:范乔丹+芬尼成筹码

生活新鲜市
2026-07-02 00:03:31
女子大闹奶茶店后续:人被拘留,学校停了她的课,正脸曝光已社死

女子大闹奶茶店后续:人被拘留,学校停了她的课,正脸曝光已社死

江山挥笔
2026-05-26 09:32:15
收的是20块避雨费,丢的是一座城市的温度

收的是20块避雨费,丢的是一座城市的温度

清哲木观察
2026-06-30 16:25:33
女人最容易出轨的4个地方:不是渣,是渴得慌

女人最容易出轨的4个地方:不是渣,是渴得慌

艺鉴在线
2026-07-01 18:42:41
性感蓝衣女神:那不是暴露,是自信的另一种写法

性感蓝衣女神:那不是暴露,是自信的另一种写法

疾跑的小蜗牛
2026-07-01 19:35:01
重庆谈判结束后主席突发不适,众人疑下毒,苏联医生诊断出人意料

重庆谈判结束后主席突发不适,众人疑下毒,苏联医生诊断出人意料

唠叨说历史
2026-05-29 15:55:55
江苏17岁女孩溺水,被救后苦寻恩人10年,结婚时才知恩人竟是丈夫

江苏17岁女孩溺水,被救后苦寻恩人10年,结婚时才知恩人竟是丈夫

嘉琪Feel
2025-05-31 11:19:30
2026-07-02 01:59:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16911文章数 515067关注度
往期回顾 全部

科技要闻

Claude Code被曝“植入木马”识别中国用户

头条要闻

许家印英国豪宅被指遭流浪汉“霸占” 真相披露

头条要闻

许家印英国豪宅被指遭流浪汉“霸占” 真相披露

体育要闻

卖球衣救子的门将,把德国扑出了世界杯

娱乐要闻

77岁牛群公证裸捐全部财产,清贫独居坚持月捐

财经要闻

新氧贷款:宣传年化15%,实际顶格24%

汽车要闻

同比暴涨188.4% 方程豹6月热销35607台

态度原创

本地
房产
时尚
公开课
军事航空

本地新闻

强烈建议,全国高校都向这所大学看齐!

房产要闻

洞察新局 | 2026年天河置业红盘图鉴

月入3万,时代红利砸向文科生

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美伊代表前往多哈 谈判方式出现"重大倒退"

无障碍浏览 进入关怀版