文章来源:鼓捣AI
当救灾机器人团队进入坍塌的厂房,如何快速划分探索区域、避免重复路径?当工业巡检机器人需寻找隐藏的设备故障,如何通过人类一句“故障大概率在东北角落”的提示精准定位?传统多机器人系统(MRS)往往困于“局部决策冗余”“无法理解语义指令”的难题。近期投稿至ICRA 2026的论文《LLM-MCoX: Large Language Model-based Multi-robot Coordinated Exploration and Search》,提出了一套基于大语言模型(LLM)的集中式协同框架,用于解决这些痛点。
论文网址:
https://arxiv.org/pdf/2509.26324
论文摘要
机器人系统(MRS)在未知室内环境中的自主探索与目标搜索仍是一大挑战。传统方法通常依赖贪心前沿分配策略,机器人间的协调能力有限。本研究提出LLM-MCoX(基于大语言模型的多机器人协同探索与搜索框架),这是一种新型框架,利用大语言模型(LLM)实现同构与异构机器人团队的智能协调,使其能够高效完成探索与目标搜索任务。该方法将用于前沿聚类提取与门口检测的实时激光雷达(LiDAR)扫描处理,与多模态LLM推理(如GPT-4o)相结合,基于共享环境地图与机器人状态生成协同路径点分配方案。相较于贪心规划器、基于沃罗诺伊(Voronoi)的规划器等现有方法,LLM-MCoX展现出更优性能:在包含6台机器人的大型环境中,探索速度提升22.7%,搜索效率提高50%。值得注意的是,LLM-MCoX具备基于自然语言的目标搜索能力,使操作人员能够提供传统算法无法解读的高层语义指导。
多机器人探索的核心困境
在未知环境(如灾区、地下洞穴、大型厂房)中,多机器人的自主探索与目标搜索一直是机器人领域的难点。传统方法虽能完成基础任务,但存在一些难以突破的局限:
全局协调能力不足,探索效率低下
贪心分配策略 :多数方法按“机器人距离前沿最近”或“局部信息增益最高”分配任务,导致部分机器人扎堆探索,部分区域无人问津(如小范围前沿被漏检);
Voronoi 分区(DVC) :虽能通过空间划分平衡任务,但需假设机器人初始均匀分布——这与实际场景中“机器人从同一入口部署”的情况完全不符,极易出现 workload 失衡;
去中心化协调 :拍卖法、势场法等依赖机器人局部信息决策,缺乏全局视野,在大环境中易出现路径重复。
传统方法仅依赖 LiDAR、相机等传感器的“几何特征”(如墙壁、障碍物)规划路径,无法解读人类的高层语义指令(如“目标在走廊尽头”“避开西侧仓库”)。而在真实场景中,人类的模糊提示往往能大幅缩短搜索时间——这正是传统框架的“能力盲区”。
论文团队发现:大语言模型(如 GPT-4o)的多模态推理能力、全局决策能力,恰好能弥补这两大缺陷。
LLM-MCoX 框架
LLM-MCoX 的核心思路是:以 LLM 为“中央大脑”,输入“结构化空间信息”(LiDAR 地图、机器人状态、前沿/门口特征)与“非结构化语义信息”(自然语言提示、执行反馈),生成全局优化的路径点序列。整个框架分为三大关键模块:
模块1:代表性前沿检测,精准筛选“高价值探索区域”
“前沿”指地图中“已知自由空间”与“未知区域”的边界,是机器人探索的核心目标。但直接处理所有前沿会导致计算量爆炸,LLM-MCoX 采用“采样-排序-筛选”三步法,提取最具价值的前沿:
随机采样 :从地图中采样 个前沿细胞;
效用排序 :用公式 计算每个前沿的价值——其中 是探索该前沿能获得的未知区域信息, 是机器人到前沿的距离, 平衡两者权重;
去重筛选 :选择效用最高的 个前沿,并确保任意两个前沿间距不小于 (避免机器人扎堆)。
![]()
Fig. 1 Representative Frontier and Doorway Detection,展示“前沿细胞(浅蓝色)→ 代表性前沿(蓝色点)”的筛选过程。
模块2:门口检测,捕捉“语义级导航节点”
在室内环境中,“门口”是连接不同区域的关键节点,优先探索门口能大幅提升全局覆盖效率。LLM-MCoX 设计了轻量级门口检测逻辑:
从前沿中采样 个候选细胞;
向候选细胞的 个离散方向发射“虚拟射线”,检测是否存在“对称墙体间隙”(符合门口的几何特征);
计算间隙区域的信息增益 ,过滤低价值候选,并保持 间距约束。
这一步的价值在于:为 LLM 提供“语义级导航标志”——传统方法仅能识别“点/线”几何特征,而 LLM-MCoX 能让 LLM 理解“这是门口,是通往另一房间的关键”。
模块3:LLM 集中式规划,“中央大脑”生成路径点
这是 LLM-MCoX 的核心,也是区别于传统框架的关键。LLM 作为“中央大脑”,接收多模态输入并输出路径点序列,整个过程分为“输入构建→路径生成→反馈闭环”三步:
(1)输入:结构化+非结构化信息融合
LLM 的输入包含两类关键信息,确保决策的全面性:
信息类型
具体内容
结构化空间信息
1. LiDAR 全局地图(编码为灰度图像,方便 LLM 视觉推理);
2. 代表性前沿、门口位置;
3. 所有机器人状态(位置、最大速度、LiDAR 检测范围)
非结构化语义信息
1. 人类自然语言提示(如“目标在建筑东北侧”);
2. 执行总结( ,如“机器人1无法到达[48,54]”);
3. 历史计划总结( ,如“上一轮优先探索了西侧前沿”)
(2)输出:个性化路径点序列
LLM 为每个机器人生成专属的路径点序列 ,且不局限于“已检测的前沿/门口”,然后LLM 可通过分析全局地图,自主识别“未被启发式算法捕捉的潜在探索区域”,灵活性远超传统方法。
(3)反馈:维持多轮规划连续性
由于 LLM API 无会话记忆,论文设计了“双总结”机制:
:每轮规划后,LLM 总结“路径点分配逻辑”(如“机器人2优先探索东侧门口,因该区域未知面积大”),作为下一轮输入;
:记录机器人执行中的异常(如路径点不可达),让 LLM 在下一轮规划中规避问题。
![]()
Fig. 2 LLM-MCoX Planning Pipeline,展示机器人共享 LiDAR 地图→提取前沿/门口→LLM 生成路径点”的完整流程
![]()
Fig. 3 LLM Query-Response Example,展示“输入自然语言提示、机器人状态→LLM 输出路径点”的实际交互案例
实验验证
论文通过“结构化环境(室内建筑)+非结构化环境(洞穴)”“同构机器人+异构机器人”“探索任务+搜索任务”三大维度,对比了 LLM-MCoX 与 3 类基线方法(Mean-shift-Greedy、Sample-Greedy、Sample-DVC)的性能。
实验设置
环境规格 :结构化环境分小(60×60)、中(120×120)、大(150×150)三档;非结构化环境为 150×150 的“洞穴式”地图;
机器人配置 :同构机器人(速度 1cell/步,LiDAR 范围 5cell);异构机器人分两类——“快速低感知”(速度 3cell/步,LiDAR 5cell)、“慢速高感知”(速度 1cell/步,LiDAR 10cell);
安全约束 :机器人最小安全距离 ( d_{safe}=1 ),避免碰撞。
![]()
Fig. 4 Simulation Environments,展示“结构化室内地图(4a)”与“非结构化洞穴地图(4b)”的差异。
核心结果 (1)结构化环境:6 机器人探索效率提升 22.7%
在 150×150 的大型结构化环境中,LLM-MCoX 与最佳基线 Sample-DVC 相比:
探索完成时间缩短 22.7% ;
若加入自然语言提示(如“目标在北侧房间”),单机器人搜索效率比 Sample-Greedy 快 39% ——这正是语义理解的独特价值。
在洞穴式环境中,LLM-MCoX 展现出对异构机器人的适配能力:
6 机器人异构团队(3 快速+3 慢速):无语言提示时,搜索时间比 Sample-Greedy 短 30% ;
加入语言提示后,搜索时间进一步缩短至基线的 50%——LLM 会智能分配任务:让“快速机器人”负责大范围移动,“高感知机器人”负责细节搜索。
![]()
Fig. 6 Search Performance in Unstructured Environments),通过柱状图对比“同构团队(6a)”“异构团队(6b)”中各方法的搜索时间。
实机验证
为验证落地性,论文用“Unitree Go2 四足机器人 + 定制 X500 四旋翼无人机”组成异构团队,在真实室内环境中完成搜索任务:
四足机器人速度 2.5m/s,无人机速度 1.0m/s(安全限制);
人类提示“目标在初始位置东北方向”;
中央计算机(i7+32GB)每 20 秒重规划一次,实现 近实时协调 ,最终成功定位目标。
![]()
Fig. 8 Real-World Experiment Setup,展示“四足机器人+无人机”的实物配置(8a)与真实室内地图(8b)
核心创新与未来方向 三大核心创新
首次实现“结构化空间信息+非结构化语义”的深度融合 :让多机器人系统既能精准处理 LiDAR 地图的几何特征,又能理解人类自然语言,填补传统框架的能力空白;
LLM 集中式规划突破协调瓶颈 :通过全局信息输入,避免贪心分配的局部最优,同时用“双总结”机制维持多轮决策连续性;
适配异构机器人团队 :LLM 可根据机器人的“速度、感知范围”差异分配任务,比传统“无差别分配”更高效。
论文也指出了当前局限与改进思路:
降低 LLM 规划耗时 :目前机器人需等待 LLM 生成路径点才能行动,未来可设计“异步执行”——机器人在等待时执行局部探索;
加入相机语义信息 :当前主要依赖 LiDAR 地图,未来可融合相机的物体检测结果(如“识别到门”“识别到设备”),进一步提升语义理解精度;
动态环境适配 :现有实验基于静态环境,未来需优化框架以应对动态障碍物(如移动的人员、临时堆放的货物)。
LLM-MCoX 的价值不仅在于“比传统方法快 20%-50%”,更在于它为多机器人系统引入了“人类级的语义决策能力”。从“仅能处理几何特征”到“能理解人类意图”,这是机器人领域的一次重要突破。
未来,随着 LLM 推理速度的提升、多传感器融合技术的成熟,LLM-MCoX 有望在救灾、巡检、仓储等场景大规模落地,让多机器人团队真正成为“人类的智能协作伙伴”。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.