浙江大学团队开发LEO-RobotAgent：让聊天机器人拥有"身体"|编程|智能体|人机交互|世界人工智能大会

分享至

这项由浙江大学陈立煌、罗向宇和孟军领导的研究发表于2025年12月，论文编号为arXiv:2512.10605v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

把大型语言模型比作一个非常聪明的大脑，那么机器人就像是这个大脑的身体。现在的问题是，这个聪明的大脑虽然能理解人类的语言，能进行复杂的推理，但它缺少一个能够在现实世界中行动的身体。浙江大学的研究团队开发了一个名为LEO-RobotAgent的系统，就像是给这个聪明的大脑装上了一套通用的"身体控制系统"，让它能够同时操控无人机、机械臂、轮式机器人等各种不同类型的机器人。

这项研究的核心创新在于打破了传统机器人编程的限制。过去，每种机器人都需要针对特定任务编写专门的程序，就像每做一道菜都需要一个完全不同的食谱。而LEO-RobotAgent就像是一位经验丰富的厨师，不仅能理解你想要什么菜，还能根据现有的食材和工具，灵活地调整做菜方法，最终做出你想要的美食。

研究团队面临的最大挑战是如何让一个原本只存在于虚拟世界的语言模型，能够理解和操控现实世界中的各种机器人。传统的机器人控制系统往往专门针对单一机器人类型和特定任务设计，结构复杂且缺乏通用性。当任务变得复杂时，程序架构会变得极其繁琐。而大型语言模型的出现让研究人员意识到，这种具有强大推理能力的实体可以有效替代过去需要手动嵌入程序中的各种复杂逻辑。

一、让机器人像人一样思考和行动

LEO-RobotAgent的工作原理可以用一个简单的比喻来理解：它就像一个经验丰富的项目经理，能够理解老板的要求，制定详细的执行计划，分配任务给不同的团队成员，并根据实时反馈调整策略。

当用户向系统输入任务描述时，大型语言模型首先像一个深思熟虑的策划者一样，根据预设的提示词生成推理和规划内容。它必须将输出内容严格按照JSON格式组织，包含三个核心组件：消息（Message）、行动（Action）和行动输入（Action Input）。消息部分传达语言模型对当前情况的评估和推理过程，而后两个部分则明确指定当前步骤要执行的具体行动及其参数。

系统的工具集模块就像一个装备齐全的工具箱，包含了机器人执行各种任务所需的所有基础功能。研究团队可以根据任务需求实现特定的工具，并将其注册到这个模块中。这些工具覆盖了机器人的核心能力，包括基本控制、感知和环境交互功能。这个模块甚至可以调用其他语言模型来构建多智能体架构。每个工具都必须提供工具名称、对应功能名称、工具描述和可用性状态等基本信息。

整个系统采用循环结构运行，语言模型持续进行推理并调用工具，然后根据接收到的反馈继续下一步。在这个过程中，历史记录逐渐累积，包括用户任务、每步的语言模型输出、每次迭代的工具观察结果，以及用户的临时输入。当语言模型判断任务已完成或无法继续进行时，循环终止并生成最终响应。

二、人机协作的智能伙伴

LEO-RobotAgent最有趣的特点之一是它的人机交互机制。传统的机器人系统一旦开始执行任务，人类就只能在一旁观看，无法进行干预。而这个系统就像一个愿意接受建议的合作伙伴，允许用户在任务执行过程中随时插话。

用户输入的任务指令必须至少包含任务内容、关键初始状态和场景描述。当任务允许人机协作时，用户可以在智能体运行过程中中断任务执行，纠正框架的现有错误并提供指导，临时修改任务内容，为下一阶段的任务发布指令等。基于这种机制，框架作为智能代理具备了完整的双向人机交互能力。

这种交互方式的设计理念是让机器人成为人类的协作伙伴，而不是简单的执行工具。当系统遇到意外情况或需要人类专业判断时，它会主动寻求帮助，就像一个负责任的助手会在遇到问题时及时汇报一样。

三、完整的应用生态系统

为了让这个智能代理框架能够真正投入使用，研究团队围绕LEO-RobotAgent构建了一个完整的、交互式的基于ROS（机器人操作系统）的应用系统。在这个系统中，语言模型和工具集作为代理节点深度集成到ROS系统中。

工具模块可以有效对接各种工具，比如机器人控制节点、视觉感知节点、检索增强生成、仿真环境等，都可以在实现功能后注册到工具集中并由代理节点调用。整个框架的对话消息、机器人控制、感知功能甚至工具反馈都依赖ROS的话题机制进行稳定的长期通信。

对用户来说，与ROS系统的交互通过研究团队基于Web应用构建的可视化界面实现，使得与代理框架的对话和沟通与传统语言模型平台上的交互没有区别。话题通过RosBridge传输，视频流通过VideoServer传输和显示。系统还基于WebSocket完善了工具注册、节点启动关闭、任务预配置等操作，使得整个系统的调试和操作几乎完全可以在这个应用界面内完成。

四、真实世界的验证实验

研究团队通过一系列精心设计的实验来验证LEO-RobotAgent框架的可行性和价值。他们选择了无人机作为主要测试平台，因为无人机集成了控制、感知和交互能力，代表了机器人的通用能力。

在一个中等复杂度的物体搜索任务中，配备深度相机的无人机需要在小型场景中搜索指定的附近物体，使用目标检测技术，然后在接收到用户的二次指令后飞到目标物体上方完成任务。这个任务采用无人机的位置保持飞行控制和目标检测作为核心工具。在真实实验中，无人机还需要额外投放一个电磁吸附的铁球到目标容器中。

实验结果显示，在仿真和真实世界实验中分别进行了10次试验，成功率分别为90%和70%，两者接近且都保持了较高的成功率，证明了算法的稳定性。值得注意的是，真实世界实验中的部分失败主要归因于飞行控制工具精度限制和物体定位误差，这些问题阻止了无人机精确悬停在垃圾桶上方。

这个实验验证了框架可以有效部署在无人机上，算法实现了直接的仿真到现实转移，证明了工程实施的可行性。由于语言模型本身的推理逻辑不会因为任务是在虚拟环境还是物理环境中执行而受到影响，所以这个框架的仿真到现实差距很大程度上取决于机器人和已实现工具的仿真到现实差距。

五、提示词技术的威力

为了探索如何最大化发挥语言模型在机器人任务规划中的能力，研究团队专门研究了不同提示词技术对框架性能的影响。他们重点验证了思维链（Chain-of-Thought）和单样本学习（one-shot）这两种技术。

思维链要求提示词引导智能体进行推理或提供推理过程，而单样本学习则通过提供示例来帮助语言模型理解任务。实验任务分为两个子任务：室内小场景搜索和城市大场景搜索。前者要求无人机使用目标检测尽可能定位室内所有可识别物体，后者只需要在大型城市场景中使用视觉语言模型作为感知工具找到目标建筑（亭子）。

实验结果表明，两种方法都能有效提升任务规划性能，最佳结果是将它们结合使用。单样本学习在成功案例中实现了最快的任务执行，因为它能够基于现有示例进行相对稳健的操作，确保了较高的性能下限。相比之下，思维链会产生大量的令牌和时间开销，因为它需要语言模型进行大量的逐步推理和规划。

通过分析无人机在室内搜索任务中的视野覆盖情况，研究人员发现，没有提示词指导时，无人机经常执行无效搜索，比如到达边界并将相机指向外部。单样本学习导致的探索模式与提供的示例非常相似，但无法有效覆盖角落细节。思维链促使语言模型进行更加发散的推理，生成可行且创新的搜索路径。组合方法产生的搜索路径既全面又高效，在城市搜索场景中也观察到了类似趋势。

六、不同智能体架构的比较

为了更好地理解LEO-RobotAgent的优势，研究团队将其与其他几种具有不同核心原理和架构的智能体方案进行了比较。他们抽象出了四种其他架构：直接动作序列智能体、代码生成执行智能体、双语言模型规划评估智能体和三语言模型规划行动评估智能体。

直接动作序列智能体让语言模型直接基于任务文本和可用工具集生成完整的动作序列，系统以完全开环的方式逐步执行该序列。代码生成执行智能体让语言模型输出可执行的Python代码，其中的动作语句仍不超出工具集的范围，代码经过审查后直接执行。

双语言模型架构依赖两个语言模型的协作：规划者负责规划、推理和执行动作，评估者对规划内容和执行反馈进行评估，然后为前者的输出提出建议。过程以这种方式循环并累积历史记录。三语言模型架构将智能体功能分解为三个语言模型：规划者生成高级推理和任务计划，执行者将计划转换为具体的工具调用，评估者基于观察结果分析执行性能并提供新输入。

实验使用了配备机械臂的轮式移动机器人，设计了三个不同复杂度的任务。第一个任务只需要以非固定顺序完成物体运送，第二个任务需要基于相对距离关系区分同类别的不同物体，第三个任务涉及嵌套的主任务和子任务，需要理解自然语言呈现的子任务并进行二次规划。

实验结果显示，对于简单且定义明确的任务，像直接动作序列和代码生成这样的一次性生成方法表现出强大的稳定性，而且在它们能够执行的任务中产生极低的令牌和时间开销。相比之下，具有多语言模型分工的框架出人意料地产生了较低的分数，主要是因为框架中的多个角色需要用相应的预设提示词进行调优，而且多个语言模型之间的协调导致令牌消耗快速激增和更高的幻觉倾向。

LEO-RobotAgent不仅在简单任务中取得了良好性能，还在相对具有挑战性的复杂任务中产生较少的幻觉，保持稳定的长期记忆，并产生合理的时间和令牌成本。这个实验表明，凭借更简化的智能体架构，LEO-RobotAgent实现了更低的调试开销和卓越的任务规划性能以及增强的鲁棒性，验证了"少即是多"的原则。

七、系统的局限性和未来展望

研究团队也坦诚地指出了当前方法的局限性。由于当前语言模型对空间常识理解较弱，有必要用处理策略引导它们理解三维空间，使智能体能够执行正确的控制操作。比如调整角度以直接面对物体。因此，增强语言模型的现实世界空间认知是推进机器人智能体框架的关键方向，也是未来实现通用人工智能的关键主题。

尽管存在这些挑战，LEO-RobotAgent代表了机器人智能体技术的重要进步。它成功地将语言模型的强大推理能力与机器人的物理执行能力结合起来，创造了一个真正通用的机器人操作框架。这项工作为未来的机器人技术发展奠定了坚实基础，让我们距离拥有能够理解人类语言并在现实世界中灵活行动的智能机器人又近了一步。

说到底，这项研究最重要的意义在于它证明了语言模型可以成为连接人类意图和机器人行动的桥梁。通过LEO-RobotAgent，我们不再需要为每个任务编写复杂的专门程序，而是可以像与人对话一样直接告诉机器人我们想要什么。这种技术的普及将彻底改变人机交互的方式，让机器人真正成为我们日常生活和工作中的智能助手。

Q&A

Q1：LEO-RobotAgent能控制什么类型的机器人？

A：LEO-RobotAgent是一个通用框架，可以控制多种类型的机器人，包括无人机、机械臂、轮式机器人等。研究团队已经在这些不同平台上验证了其有效性，证明了框架的通用性和高泛化能力。

Q2：这个系统与传统机器人编程有什么区别？

A：传统机器人编程需要为每种机器人和每个任务编写专门的程序，结构复杂且缺乏通用性。而LEO-RobotAgent允许用户直接用自然语言与机器人对话，系统会自动理解意图并生成执行计划，就像与智能助手交流一样简单。

Q3：普通用户可以使用LEO-RobotAgent吗？

A：是的，LEO-RobotAgent的设计目标就是大大降低人机交互的门槛。系统提供了基于Web的可视化界面，用户可以像使用聊天软件一样与机器人进行交互，无需专业的编程知识或机器人操作经验。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.