复旦大学：让AI机器人拥有"想象力"，规划任务效率提升33%|动作|自动化|人工智能|超级智能|ai机器人

分享至

复旦大学：让AI机器人拥有"想象力"，规划任务效率提升33%

至顶科技

这项由复旦大学计算机科学技术学院邱锡鹏教授团队领导的研究发表于2025年3月的arXiv预印本平台，论文标题为"World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning"。研究团队还包括来自上海创新研究院、新加坡国立大学和上海交通大学的研究人员。有兴趣深入了解的读者可以通过arXiv:2503.10480v1访问完整论文。

当我们让机器人去厨房拿个苹果时，听起来很简单，但对机器人来说却是个巨大挑战。它需要知道先找到苹果在哪里，然后走过去，伸手去拿，还要避免把其他东西撞倒。更复杂的是，如果要求机器人"把一个冷苹果放进冰箱"，它就需要理解一系列连续动作：找苹果、拿苹果、找冰箱、打开冰箱、把苹果放进去、关上冰箱门。每一步都必须按正确顺序进行，就像做菜必须按食谱步骤一样。

目前的AI机器人在执行这类任务时经常出错，就像一个健忘的助手，可能会先去开冰箱却忘记拿苹果，或者重复做同一个动作。问题的根源在于，这些机器人缺乏对周围世界的"想象力"——它们不能预测自己的行动会产生什么后果，就像下棋时只看当前一步而不考虑后续几步的棋手。

复旦大学的研究团队提出了一个革命性的解决方案：给机器人装上"想象力"。他们开发了一套名为"双重偏好优化"（D?PO）的新方法，让机器人在执行动作前先在"脑海"中模拟一遍，预测每个动作会带来什么结果。这就像让机器人变成了一个会思考的厨师，不仅知道要做什么，还能想象每一步操作后厨房会变成什么样子。

一、让机器人学会"脑内彩排"

传统的机器人训练方法就像教一个学生背标准答案——遇到情况A就执行动作B，遇到情况C就执行动作D。但现实世界充满变数，背答案的方法往往行不通。复旦团队的创新之处在于，他们不仅教机器人"该做什么"，更重要的是教它"这样做会发生什么"。

研究团队把这个过程比作训练一个优秀的象棋选手。优秀的棋手不会只看当前棋局，而是会在脑海中演练："如果我走这一步，对手可能会那样应对，然后我可以这样反击……"机器人的"双重偏好优化"方法正是基于同样的思路。

具体来说，这套系统包含两个相互配合的学习过程。第一个过程叫"动作选择优化"，教机器人在特定情况下选择最合适的动作，就像教一个新手厨师学会在什么时候该切菜、什么时候该开火。第二个过程叫"状态预测优化"，教机器人预测每个动作的后果，就像让厨师能够想象"如果我现在把这个锅放到火上，5分钟后会是什么样子"。

这两个过程不是分开进行的，而是同时学习、相互促进。当机器人预测动作后果的能力提高时，它选择动作的能力也会随之改善。反过来，当它学会做出更好的动作选择时，对世界的理解也会更加深入。这种相互促进的学习模式让机器人的整体能力实现了显著提升。

二、通过"试错游戏"自动收集训练数据

传统的机器人训练需要大量人工标注的数据，就像需要老师手把手教学生每一个步骤。这不仅耗时耗力，还限制了训练数据的多样性。复旦团队开发了一套自动化的数据收集系统，让机器人通过"试错游戏"自己学习。

这套系统的工作原理类似于探索迷宫的过程。机器人面对一个任务时，会系统性地尝试不同的动作路径，就像在迷宫中探索所有可能的路线。每次尝试后，系统会评估这条路径的效果：是否达成了目标？用了多少步？是否有更高效的方法？

评估过程采用了双重标准。首先是"语义评分"，由GPT-4o这样的大语言模型来判断每个动作是否符合任务逻辑，就像有一个智能助教在旁边指导；其次是"环境可行性评分"，检查这个动作在当前环境中是否真的能够执行，比如不能在没有苹果的桌子上"拿苹果"。

通过这种方式，系统能够自动生成大量高质量的训练样本。每个成功的任务执行路径都会被分解成许多个"好选择"和"坏选择"的对比样本。比如，在"把苹果放进冰箱"的任务中，"先找苹果再打开冰箱"就是一个好选择，而"先打开冰箱再找苹果"就是一个相对较差的选择。

这种自动化的数据收集方法不仅大大减少了人工工作量，还能产生比人工标注更加丰富多样的训练数据。机器人可以探索人类专家可能没有想到的动作组合，从而学到更全面的任务执行策略。

三、建立全新的视觉任务测试平台

为了验证新方法的效果，研究团队构建了一个名为VoTa-Bench的全新测试平台。这个平台基于AI2-THOR模拟环境，就像为机器人搭建了一个虚拟的家庭环境，包括厨房、客厅、卧室和浴室等场景。

VoTa-Bench的独特之处在于，它要求机器人完全依靠视觉信息来理解环境和规划动作，就像人类在陌生房间里需要用眼睛观察一样。机器人看到的是第一人称视角的图像，需要从这些图像中识别物体、理解空间关系，然后决定下一步行动。

测试平台包含六种不同类型的任务，难度递增。最简单的是"检查和照明"任务，比如"用台灯照亮花瓶然后观察"，平均需要4个步骤。最复杂的是"加热和放置"任务，比如"把土豆片加热后放到餐桌上勺子旁边"，平均需要18个步骤。这些任务涵盖了日常生活中常见的各种物品操作场景。

特别值得注意的是，测试平台不仅包含训练时见过的"熟悉场景"，还专门设计了"陌生场景"来测试机器人的泛化能力。这就像让一个学会在自己家做饭的人去朋友家厨房做同样的菜，考验的是在新环境中应用已学知识的能力。

四、实验结果证明显著优势

实验结果令人震撼。在熟悉场景的测试中，使用双重偏好优化方法的7B参数模型在任务成功率上比传统方法提高了31.4%，在规划效率上提高了33.0%。更令人惊讶的是，这个相对较小的模型甚至超越了GPT-4o的表现，尽管GPT-4o在参数规模上大得多。

在陌生场景的测试中，新方法同样表现出色。这证明了机器人不仅能够在训练环境中执行任务，还能将学到的知识成功应用到全新的环境中，这种泛化能力对于实际应用至关重要。

研究团队还进行了详细的错误分析，发现双重偏好优化方法显著减少了三种主要错误类型。依赖性错误（比如没拿到苹果就想放进冰箱）从212个减少到141个，交互错误（比如用错误的方式操作物品）从144个减少到128个，低效错误（比如重复执行不必要的动作）从141个减少到78个。

特别有趣的是，研究团队比较了两种不同的"想象"方式。一种是"基于动作的想象"，机器人在执行动作前预测结果；另一种是"基于目标的想象"，机器人直接从当前状态想象达成目标后的状态。结果发现，在熟悉环境中，基于动作的想象效果更好，但在陌生环境中，基于目标的想象展现出更强的适应性。

五、技术创新的深层意义

这项研究的技术创新主要体现在几个方面。首先是"偏好学习"思想的巧妙应用。传统方法通常需要明确的奖励信号来指导学习，但现实世界中很难定义完美的奖励函数。偏好学习则通过比较"这样做更好还是那样做更好"来进行优化，更符合人类的认知方式。

其次是"世界建模"概念的具体实现。让机器人学会预测行动后果听起来简单，但在技术上极具挑战性。研究团队巧妙地使用自然语言来描述世界状态的变化，比如"苹果在桌子上，机器人空着手"变成了"苹果在机器人手中，桌子是空的"。这种方法既充分利用了大语言模型的先验知识，又保持了足够的灵活性。

第三个创新是双重优化的协同设计。动作选择和状态预测两个任务相互促进，形成了一个良性循环。当机器人更好地理解世界时，它就能做出更好的动作选择；而当它学会更好的动作选择时，对世界的理解也会更加深入。

最后是自动化数据收集系统的设计。这套系统不仅解决了训练数据稀缺的问题，还能生成比人工标注更加丰富的学习样本。机器人可以探索各种可能的动作序列，从成功和失败中学习，就像人类通过反复练习掌握技能一样。

六、实用前景与未来展望

这项研究的实用价值不容小觑。在家庭服务机器人领域，这种技术能让机器人更好地理解和执行复杂的家务任务。例如，当你要求机器人"准备一顿简单的晚餐"时，它能理解这需要一系列协调的动作：检查冰箱里有什么食材、决定做什么菜、按正确顺序准备食材、控制烹饪过程等等。

在工业自动化领域，这种"有预见性"的机器人能更好地处理复杂的装配任务。它们不仅知道要做什么，还能预测每个步骤的结果，从而避免错误操作导致的生产线停顿。

在医疗护理领域，具备"想象力"的机器人助手能更安全地协助医护人员。它们能预测每个动作的后果，避免可能导致危险的操作序列。

当然，这项技术目前还面临一些挑战。最主要的是"仿真到现实"的转移问题。虽然在虚拟环境中表现出色，但现实世界的复杂性和不确定性仍然是巨大考验。研究团队也坦诚地承认了这个局限性，并指出他们设计的算法具有环境无关性，为未来在真实环境中的应用奠定了基础。

另一个挑战是计算资源的需求。目前的数据收集过程需要GPT-4o作为评判标准，这增加了计算成本。不过，随着视觉语言模型能力的快速提升，这个问题有望在不久的将来得到解决。

七、对AI发展的更广泛影响

这项研究的意义远超机器人领域本身，它为人工智能的发展提供了重要启示。传统的AI系统往往专注于模式识别和分类任务，而这项研究展示了如何让AI系统具备"前瞻性思维"的能力。

这种"想象力"不仅适用于物理世界的任务规划，也可能应用到其他需要序列决策的领域。比如，在自动驾驶中，车辆不仅需要识别当前的交通状况，还需要预测其他车辆和行人的行为；在金融投资中，AI系统需要预测不同投资决策的长期后果。

更深层的启示是，这项研究展示了如何让AI系统从"被动响应"转向"主动规划"。传统AI更像是一个条件反射系统，遇到特定输入就产生特定输出。而具备世界建模能力的AI系统更像是一个会思考的代理，能够权衡不同选择的后果，制定更优的行动策略。

这种能力的发展可能推动AI向着更高层次的智能演进。当AI系统不仅能够处理当前信息，还能模拟未来可能的情况时，它们就具备了类似人类的规划和决策能力。这为实现更通用的人工智能奠定了重要基础。

说到底，这项研究最吸引人的地方在于它让冰冷的机器具备了一种近似"直觉"的能力。就像一个有经验的厨师能够预见每个烹饪步骤的结果，这些AI机器人也开始学会在行动前"想一想"。这不仅提高了它们完成任务的成功率，更重要的是让它们的行为变得更加智能和可预测。当然，我们距离真正智能的机器人助手还有很长的路要走，但这项研究无疑为我们指明了一个充满希望的方向。对于那些关心AI技术发展的读者，这项研究展现了人工智能正在从简单的模式匹配向真正的智能规划演进的可能性。

Q&A

Q1：什么是"双重偏好优化"？它是如何工作的？ A：双重偏好优化是一种新的AI训练方法，包含两个部分：教AI选择正确动作，同时教它预测动作后果。就像训练一个厨师不仅要知道先放什么调料，还要能想象放了调料后菜会变成什么味道。这两种能力相互促进，让AI变得更聪明。

Q2：这种技术会不会很快应用到家庭机器人中？ A：目前还处于实验室阶段，主要在虚拟环境中测试。要应用到真实家庭环境还需要解决很多技术挑战，比如处理现实世界的复杂性和不确定性。不过这项研究为未来的家庭机器人指明了方向，预计几年内会有更多实际应用。

Q3：为什么说这种AI机器人有"想象力"？ A：传统机器人只能对当前情况做出反应，而这种新方法让机器人能够在执行动作前预测结果，就像人类会想象"如果我这样做会发生什么"。这种预测未来状态的能力被研究者比作"想象力"，让机器人的行为更加智能和高效。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.