网易首页 > 网易号 > 正文 申请入驻

全自动组装家具! 斯坦福发布IKEA Video Manuals数据集:首次实现「组装指令」真实场景4D对齐

0
分享至

新智元报道

编辑:LRST 好困

【新智元导读】斯坦福大学推出的IKEA Video Manuals数据集,通过4D对齐组装视频和说明书,为AI理解和执行复杂空间任务提供了新的挑战和研究基准,让机器人或AR眼镜指导家具组装不再是梦。

随着人工智能技术的快速发展,让机器理解并执行复杂的空间任务成为一个重要研究方向。

在复杂的3D结构组装中,理解和执行说明书是一个多层次的挑战:从高层的任务规划,到中层的视觉对应,再到底层的动作执行,每一步都需要精确的空间理解能力。

斯坦福Vision Lab最新推出的IKEA Video Manuals数据集,首次实现了组装指令在真实场景中的4D对齐,为研究这一复杂问题提供了重要基准。

论文地址:https://arxiv.org/pdf/2411.11409

项目主页:https://yunongliu1.github.io/ikea-video-manual/

开源代码: https://github.com/yunongLiu1/IKEA-Manuals-at-Work

合作者指出了这项工作在空间智能研究中的重要地位:「这项工作将组装规划从2D推进到3D空间,通过理解底层视觉细节(如部件如何连接),解决了空间智能研究中的一个主要瓶颈。这是首个全面评估模型在真实场景中对精细3D细节理解能力的基准。」

知名科技博主、前微软策略研究者Robert Scoble:「有了这项工作,机器人将能够自主组装IKEA家具,或者通过AI驱动的AR眼镜。」

突破性的多模态对齐

组装一件IKEA家具需要理解多种形式的指令:说明书提供了任务的整体分解和关键步骤;视频展示了详细的组装过程;而3D模型则定义了部件之间的精确空间关系。

IKEA Video Manuals首次将这三种模态进行了细粒度的对齐:

  • 137个手册步骤被根据安装视频细分为1120个具体子步骤,捕捉了完整的组装过程;

  • 通过6D Pose追踪,精确记录每个部件的空间轨迹;

  • 在视频帧、家具组装说明书和3D模型之间建立密集对应关系。

丰富的家具类型与场景

数据集涵盖了6大类36种IKEA家具,从简单的凳子到复杂的柜子,呈现了不同难度的组装任务。每种家具都包含完整的3D模型、组装说明书和实际组装视频。

这些视频来自90多个不同的环境,包括室内外场景、不同光照条件,真实反映了家具组装的多样性。

真实世界的复杂性

与在实验室环境下采集的数据相比,来自互联网的真实视频呈现了更丰富的挑战:

  • 部件经常被手或其他物体遮挡

  • 相似部件识别(想象一下四条一模一样的桌子腿!)

  • 摄像机频繁移动、变焦,带来参数估计的困难

  • 室内外场景、不同光照条件下的多样性

这些真实场景下的复杂性,让数据集更能反映实际应用中的难点。

‍有趣的是,研究团队发现25%的家具存在多种有效的组装顺序。比如Laiva架子就有8种不同的组装方式!这种多样性真实地反映了现实世界中组装任务的灵活性。

系统的标注流程

为了获得高质量的标注, 应对真实视频带来的挑战,研究团队建立了一套可靠的标注系统:

  • 识别并标注相机参数变化的关键帧,确保片段内的一致性

  • 结合2D-3D对应点和RANSAC算法进行相机参数估计

  • 通过多视角验证和时序约束保证标注质量

核心任务实验评估

基于IKEA Video Manuals数据集,团队设计了多个核心任务来评估当前AI系统在理解和执行家具组装,以及空间推理(spatial reasoning)方面的能力:

1. 在基于3D模型的分割(Segmentation)与姿态估计 (Pose Estimation)

输入3D模型和视频帧,要求AI完成两个任务:准确分割出特定部件区域,并估计其在视频中的6自由度姿态。实验测试了最新的分割模型(CNOS, SAM-6D)和姿态估计模型(MegaPose)。

基于3D模型的分割

基于3D模型的姿态估计

分析发现它们在以下场景表现不佳:

- 遮挡问题:手部遮挡、近距离拍摄导致部分可见、遮挡引起的深度估计误差

- 特征缺失:缺乏纹理的部件难以分割、对称部件的方向难以判断

- 特殊拍摄角度(如俯视)导致的尺度误判

2. 视频目标分割Mask Trackin

评估了SAM2和Cutie两个最新的视频追踪模型。与其他基准数据集相比,它们在IKEA Video Manuals数据集上表现显著下降:

• SAM2: 从其他数据集的85-90%降至73.6%

• Cutie: 从85-87%降至54.7%

主要挑战包括:

- 相机运动导致目标丢失

- 难以区分外观相似的部件(如多个相同的桌腿)

- 长时间追踪的准确度难以保持

3. 基于视频的形状组装

团队提出了一个创新的组装系统,包含关键帧检测、部件识别、姿态估计和迭代组装四个步骤。实验采用两种设置:

使用GPT-4V自动检测关键帧:结果不理想,Chamfer Distance达0.55,且1/3的测试视频未能完成组装,反映GPT-4V对组装关键时刻的识别能力有限;

使用人工标注的关键帧:即便如此,由于姿态估计模型的局限性,最终Chamfer Distance仍达0.33

这些实验结果揭示了当前AI模型的两个关键局限:

1、视频理解能力不足:当前的视频模型对时序信息的分析仍然较弱,往往停留在单帧图像分析的层面

2、空间推理受限:在真实场景的复杂条件下(如光照变化、视角改变、部件遮挡等),现有模型的空间推理能力仍显不足

未来展望

IKEA Video Manuals的推出,通过研究如何将组装指令对齐到真实场景,为空间智能研究提供了一个重要的评估基准。

想象一下,未来你戴上AR眼镜,就能看到IKEA家具的每个组装步骤被清晰地投影在眼前,系统还能实时提醒你是否安装正确;;或者,机器人能够像人类一样,仅通过观看视频就学会组装复杂的家具。IKEA Video Manuals的推出让这些设想离现实更近了一步。

通过提供真实场景下的多模态数据,这个数据集为空间智能研究提供了重要的评估基准。我们期待看到更多突破性的进展,让AI系统真正理解和执行复杂的空间任务。

作者介绍

第一作者刘雨浓,斯坦福大学计算机科学硕士生,隶属于斯坦福SVL实验室(Vision and Learning Lab),由吴佳俊教授指导。本科毕业于爱丁堡大学电子与计算机科学专业(荣誉学位)。曾在德克萨斯大学奥斯汀分校从事研究实习。目前正在寻找2025年秋季入学的博士机会。

吴佳俊,斯坦福大学助理教授,隶属于SVL和SAIL实验室。麻省理工博士,清华姚班本科。作为项目指导教授。

Juan Carlos Niebles,Salesforce AI Research研究主任,斯坦福大学计算机科学系兼职教授,斯坦福视觉与学习实验室(SVL)联合主任。在计算机视觉和机器学习领域有杰出贡献,曾获多项重要奖项

刘蔚宇,斯坦福大学博士后研究员,在CogAI组和SVL实验室从事研究。专注于机器人感知、建模和交互领域,致力于开发能通过简单语言命令完成长期任务的机器人系统。作为项目共同指导。

李曼玲,西北大学计算机科学系助理教授,曾为斯坦福大学博士后,现为斯坦福访问学者。研究兴趣集中在语言、视觉、机器人及其社会影响等交叉领域,致力于开发可信且真实的多模态系统。

参考资料:

https://yunongliu1.github.io/ikea-video-manual/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
韩国一夜撤换7名四星上将,尹锡悦嫡系全军覆没,李在明简直疯了

韩国一夜撤换7名四星上将,尹锡悦嫡系全军覆没,李在明简直疯了

碳基生物关怀组织
2025-09-06 20:40:50
连续8个涨停板!股民:妖股涨得令人羡慕!

连续8个涨停板!股民:妖股涨得令人羡慕!

数据挖掘分析
2025-09-17 15:14:11
1小时热度登顶榜一!全网0差评,连追5集我敢打包票:此剧必爆

1小时热度登顶榜一!全网0差评,连追5集我敢打包票:此剧必爆

崽下愚乐圈
2025-09-17 17:25:05
历史最快、最年轻达成!38岁梅西1122场攻入880球,比C罗快92场

历史最快、最年轻达成!38岁梅西1122场攻入880球,比C罗快92场

直播吧
2025-09-17 10:06:02
“他们逼我说台湾是中国的,不然就不救我!”一石激起千层浪

“他们逼我说台湾是中国的,不然就不救我!”一石激起千层浪

壹知眠羊
2025-08-10 07:29:29
美联储降息可能会十分夸张

美联储降息可能会十分夸张

睿知睿见
2025-09-17 07:33:39
为何我们总是演习,却迟迟不进攻台湾?看看金门岛战役就知道了!

为何我们总是演习,却迟迟不进攻台湾?看看金门岛战役就知道了!

壹知眠羊
2025-07-10 08:09:51
凯特出席葬礼优雅亮相,戒指叠戴从4枚升级为5枚暗藏巧思

凯特出席葬礼优雅亮相,戒指叠戴从4枚升级为5枚暗藏巧思

述家娱记
2025-09-17 15:44:26
外媒:美印贸易谈判之际,特朗普致电莫迪祝贺其75岁生日

外媒:美印贸易谈判之际,特朗普致电莫迪祝贺其75岁生日

环球网资讯
2025-09-17 17:37:17
父亲是前外交部部长,妻子是阎维文女儿,他却拒绝父辈光环靠自己

父亲是前外交部部长,妻子是阎维文女儿,他却拒绝父辈光环靠自己

揽星河的笔记
2025-09-15 12:03:42
“老人味”祸首被揪出!医生提醒:55岁后要少碰,老了或也没味

“老人味”祸首被揪出!医生提醒:55岁后要少碰,老了或也没味

刘哥谈体育
2025-09-17 16:19:44
最矮奥运冠军官宣怀孕!身高1米37无人追,退役后二次发育遇真爱

最矮奥运冠军官宣怀孕!身高1米37无人追,退役后二次发育遇真爱

法老不说教
2025-09-15 23:00:46
最担心的事发生了!小鹏汇天两架飞行汽车,相撞坠机

最担心的事发生了!小鹏汇天两架飞行汽车,相撞坠机

说财猫
2025-09-16 21:13:15
五十年代杀了多少地主恶霸?难道五六十年代还不如解放前吗?

五十年代杀了多少地主恶霸?难道五六十年代还不如解放前吗?

芳芳历史烩
2025-09-16 17:18:59
桑乔维拉首秀球迷褒贬不一:他整场消失&他是一个出色的球员

桑乔维拉首秀球迷褒贬不一:他整场消失&他是一个出色的球员

雷速体育
2025-09-17 16:11:44
65岁大爷退休金被人冒领半年,老头没找麻烦直接贷款,对方急眼了

65岁大爷退休金被人冒领半年,老头没找麻烦直接贷款,对方急眼了

涛哥讲堂
2025-09-08 10:36:08
因空管员睡着,法国航班在空中滞留一小时

因空管员睡着,法国航班在空中滞留一小时

参考消息
2025-09-17 11:10:53
中美贸易战掀桌子了!9月17日,深夜爆出的三大消息已全面出炉?

中美贸易战掀桌子了!9月17日,深夜爆出的三大消息已全面出炉?

诗意世界
2025-09-17 13:33:55
太惨了!湖南一985研究生赤手阻止持刀行凶歹徒身亡,引发争议

太惨了!湖南一985研究生赤手阻止持刀行凶歹徒身亡,引发争议

明月杂谈
2025-09-17 05:11:36
记者:橡树资本准备考虑出售国米,目前对俱乐部估价15亿欧元

记者:橡树资本准备考虑出售国米,目前对俱乐部估价15亿欧元

懂球帝
2025-09-17 02:18:16
2025-09-17 18:59:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13464文章数 66156关注度
往期回顾 全部

科技要闻

港股大涨:百度涨近20%,阿里涨超5%

头条要闻

46年来首次 埃及总统首次将以色列称为"敌人"

头条要闻

46年来首次 埃及总统首次将以色列称为"敌人"

体育要闻

什么小火龙?申京已经是MVP水平!

娱乐要闻

第六代导演为什么没办法成为市场主流?

财经要闻

宗馥莉,放弃娃哈哈?

汽车要闻

以用户为锚,“听劝”的岚图一路狂飙

态度原创

时尚
教育
旅游
本地
艺术

辛芷蕾飞升独一档,85花格局变了!

教育要闻

目录丨《当代教育家(上半月)》2025年第9期(总第365期)

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

本地新闻

云游忻州 | 慢时光!老街逛吃,烟火气超上头~

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

无障碍浏览 进入关怀版