清华提出BiManiBench：首个测试机器人双臂协调能力的基准测试|动作|模态|智能机器人|bimanibench

分享至

这项由清华大学与香港大学、香港科技大学及北京人形机器人创新中心联合进行的研究发表于2026年2月，论文编号为arXiv:2602.08392v1，为机器人双臂操作能力评估开创了全新的测试标准。

当我们看着一个熟练的厨师同时用双手处理食材时，会发现这其实是个极其复杂的协调过程。左手稳住砧板上的洋葱，右手握刀精准切片，两只手必须完美配合才能避免意外。现在，当科学家们试图让机器人也能像人类一样使用双手时，他们遇到了一个根本问题：如何知道这些机器人的双手配合得好不好？

清华大学的研究团队注意到，虽然现在的多模态大语言模型在理解和生成内容方面已经相当出色，但当涉及到控制机器人双臂协调工作时，我们却缺乏一个标准的测试方法。这就像是我们有了很多聪明的学生，但没有合适的考试来检验他们的双手配合能力。

为了解决这个问题，研究团队开发了BiManiBench——一个专门用来测试机器人双臂协调能力的基准测试系统。这个系统的巧妙之处在于它将复杂的双臂操作能力分解成了三个层次的测试，就像学习驾驶时需要先学会看路、再学会判断、最后学会精确操控方向盘一样。

研究团队发现了一个有趣的现象：目前最先进的AI模型虽然在高层思维方面表现出色，但在具体的双手协调操作上却经常出现问题。这就好比一个很聪明的人能够完美地规划出做菜的步骤，但真正动手时却总是左右手打架，不是撞到一起就是动作不同步。

在测试过程中，研究人员评估了超过30个目前最先进的AI模型，包括GPT-5、Gemini-2.5-Pro、Claude-4-sonnet等知名模型，以及许多开源模型如InternVL3、Qwen2.5-VL等。结果显示，即使是表现最好的模型，在需要精确双臂配合的任务中也经常失败。

一、三层测试体系：从简单到复杂的能力检验

BiManiBench的测试体系就像学习乐器时的分级练习。第一级是最基础的空间推理能力测试，相当于让学习者先明白哪只手应该按哪个琴键。在这个测试中，机器人需要观察桌面上的物体，然后正确判断应该用左手还是右手去抓取每个物体。

这看起来简单，但实际上暗藏玄机。研究团队设计了三种不同复杂度的场景来测试这种能力。稀疏场景中只放置三个彩色方块，机器人需要根据物体位置来选择合适的手臂。密集场景增加到五个方块，增加了判断难度。而杂乱场景则加入了各种干扰物体，就像在嘈杂的环境中识别声音一样困难。

测试结果显示，最优秀的闭源模型如Gemini-2.5-Pro能达到95%的准确率，而开源模型中表现最好的Qwen3-VL-32B也能达到94%的水准。但有趣的是，并不是参数越多的模型表现就越好。一些中等规模的模型反而在特定任务上表现出色，这说明模型架构的优化有时比单纯增加规模更重要。

第二级测试更像是让机器人成为一个合格的任务管理者。在高层行动规划测试中，机器人需要将复杂任务分解成一系列具体的动作序列。这就好比让机器人规划如何整理一个杂乱的房间，需要决定先收拾哪里、后收拾哪里，以及两只手应该如何分工。

这个层级的测试包含14个不同的操作任务，分为两大类：独立并行操作和顺序协作操作。独立并行操作就像两只手同时做不同的事情，比如左手整理书架的同时右手收拾桌面。而顺序协作操作则需要更精妙的配合，比如一只手递物品给另一只手，或者一只手固定容器另一只手往里放东西。

在这个层级的测试中，模型之间的差距开始显现。最好的模型Gemini-2.5-Pro达到了70.21%的成功率，而GPT-5紧随其后达到67%。但开源模型的表现就相对逊色，最好的Qwen3-VL-235B只达到了54.21%的成功率，这说明在复杂的逻辑推理和任务规划方面，闭源模型仍然保持着明显优势。

第三级测试是最具挑战性的，要求机器人进行精确的末端执行器控制。这就像要求机器人不仅要知道如何弹钢琴，还要能够精确控制每个手指的力度和位置。在这个测试中，机器人需要直接输出16维的连续动作指令，控制两个7自由度的手臂加上各自的夹爪状态。

这个层级只包含5个任务，但每个都极具挑战性。比如需要两只手同时抓取一个滚筒并举起，或者让两只手配合将物品堆叠起来。结果显示，即使是最优秀的GPT-5也只达到了66.80%的成功率，而大部分开源模型的表现都在30%以下，这表明当前的AI模型在精确的物理控制方面还有很大改进空间。

二、巧妙的评分机制：考虑模糊地带的智能判断

在设计评分系统时，研究团队面临了一个有趣的挑战。对于那些需要精确操作的任务，成功就是成功，失败就是失败，这很容易判断。但对于空间推理任务，情况就复杂多了。

考虑这样一个场景：一个物体正好位于工作台的中央位置，理论上左右两只手都能够到。这时候选择左手还是右手其实都是合理的，但传统的评分方法可能会武断地认为只有一个答案是正确的。

为了解决这个问题，研究团队开发了一个"高斯加权空间评分"系统。这个系统的巧妙之处在于，它会根据物体距离中心线的远近来调整评分标准。如果物体明显偏向左边或右边，那么选择错误的手臂会被严厉扣分。但如果物体接近中心位置，即使选择了"错误"的手臂，也只会轻微扣分，因为这种选择在实际情况下也是可以理解的。

这种评分机制就像一个通情达理的考官，不会因为学生在模糊问题上的合理判断而过分苛刻。通过数学公式的精确计算，系统能够给出更加公正和合理的评分，避免了传统二元评分系统可能带来的不公平。

三、多视角观察：解决机器人视野盲区的创新方案

在实际操作中，机器人经常会遇到视野被遮挡的问题。就像人在做精细工作时，有时候手或工具会挡住视线，这时候换个角度观察就很有帮助。

研究团队为机器人配备了两种视角：第一人称视角和第三人称视角。第一人称视角就像机器人的"眼睛"，能够看到精确的操作细节，但容易被手臂或夹爪遮挡。第三人称视角则像是房间里的监控摄像头，能够提供全局观察，但距离较远，细节不够清晰。

有趣的是，研究发现并不是所有模型都能有效利用多视角信息。对于计算能力强大的模型来说，额外的视角信息确实能帮助它们更好地理解场景，解决遮挡问题。但对于能力较弱的模型，过多的视觉信息反而成了负担，就像给一个初学者同时提供太多角度的教学视频，结果让他们更加混乱。

这个发现揭示了一个重要原理：信息越多未必越好，关键是要有足够的处理能力来有效利用这些信息。这就像给不同水平的学生提供学习材料，需要根据他们的能力水平来调整信息的复杂度和数量。

四、动作分组执行：平衡效率与安全的智能策略

在实际操作中，机器人需要在效率和安全之间找到平衡。如果每次都只执行一个动作然后停下来重新观察，虽然安全但效率很低。如果一次性执行一长串动作，虽然效率高但可能因为环境变化导致后续动作失效甚至危险。

研究团队开发了一个"任务自适应执行截断"机制，这就像是给机器人配了一个智能的安全管家。这个系统会根据不同任务的特点，为每个任务设定一个最大连续执行动作数。无论AI模型规划了多少个连续动作，系统都会在达到安全阈值时主动停下来，让机器人重新观察环境并调整后续计划。

这种机制特别重要，因为在执行一连串动作的过程中，环境状态会不断变化。比如当机器人抓起一个物体后，桌面上其他物体的可见性和可达性都可能发生变化。如果继续按照原计划执行，可能会导致碰撞或失误。

五、深度错误分析：揭示AI模型的真实弱点

通过对30多个AI模型的全面测试，研究团队发现了一些令人意外的结果。最令人惊讶的发现是，模型的表现并不总是随着参数规模增大而提升。在某些任务中，一些中等规模的模型反而比大型模型表现更好，这说明模型设计的巧妙性有时比单纯的规模更重要。

研究团队将错误类型分为两大类：感知推理错误和策略规划错误。感知推理错误就像是机器人"看错了"或"想错了"，包括对当前状态的误判、对应该使用哪只手的错误判断、以及对物体大小和属性的错误认知。

策略规划错误则是在正确理解环境的基础上，制定了错误的行动计划。这包括动作顺序的错误、双手之间的冲突碰撞、以及行动参数的不一致。

通过分析GPT-5和Gemini-2.5-Pro这两个顶级模型的错误模式，研究团队发现了一个有趣的对比。GPT-5的主要问题是感知方面，经常对任务状态判断错误，但一旦理解正确，它的规划能力还是不错的。而Gemini-2.5-Pro恰恰相反，它的感知能力很强，但在复杂的双手协调规划方面经常出现问题，特别是在时序安排和避免冲突方面。

六、实际应用场景：从实验室到现实世界的挑战

BiManiBench包含的任务都来源于真实的生活场景。比如双手协作搬运重物、一手拿容器另一手往里放东西、将物品按大小排序、把积木搭建成指定形状等等。这些任务看似简单，但对机器人来说却充满挑战。

在搬运任务中，机器人需要确保两只手同时抓取物体，用力均匀，移动同步，这需要精确的时间协调。在传递任务中，机器人需要一只手稳定地握住物体，另一只手准确地接收，这考验的是空间判断和动作协调能力。

研究发现，即使是最先进的AI模型，在这些看似简单的日常任务中也经常失败。失败的原因多种多样：有时是两只手撞到一起，有时是动作时机不对，有时是对物体位置判断错误。这些发现提醒我们，要让机器人真正融入人类的日常生活，还有很长的路要走。

七、技术突破与创新点：引领双臂机器人评估新标准

BiManiBench的创新不仅仅在于提供了一个测试平台，更重要的是它建立了一套科学的评估体系。这套体系的价值在于它能够精确识别AI模型在双臂协调方面的具体短板，为后续的改进提供明确方向。

研究团队还开发了一个视觉驱动的智能体框架，这个框架就像是给AI配了一个专业的双手协调教练。它不仅能够理解视觉信息，还能将复杂的双臂操作任务分解成可执行的步骤序列，并且在执行过程中实时调整策略。

另一个重要创新是"操作臂分配反馈和截断机制"。这个机制能够在AI模型做出错误的手臂选择时及时介入，提供反馈并允许重新规划。这就像是给学习者配了一个耐心的老师，当他们犯错时不会直接宣布失败，而是指出错误并给予改正机会。

八、研究局限性与未来展望：通向更完善的双臂协调能力

研究团队诚实地承认了当前工作的局限性。首先，所有测试都是在仿真环境中进行的，与真实世界的复杂性还有差距。真实世界中存在传感器噪声、机械磨损、照明变化等仿真环境难以完全模拟的因素。

其次，当前的测试主要集中在刚性物体的操作上，而现实中许多双手协调任务涉及柔性或可变形物体，比如折叠衣物、绑鞋带、处理液体等。这些任务需要更复杂的物理理解和实时适应能力。

对于AI模型推理速度的限制也是一个挑战。目前的大型语言模型推理速度相对较慢，难以满足机器人实时控制的需求。未来需要开发更高效的架构或者混合控制策略来解决这个问题。

研究团队提出了几个重要的未来研究方向。首先是开发更好的多视角信息融合技术，让所有模型都能有效利用多角度的视觉信息。其次是研究实时控制和延迟缓解技术，包括模型蒸馏、动作分组和混合架构等方法。

还有一个有趣的方向是人机双臂协作。未来的机器人不仅要能够独立完成双臂任务，还要能够与人类进行双臂协作，这需要更复杂的意图理解、安全交互和社会认知能力。

九、对机器人发展的深远影响：重新定义智能机器人标准

BiManiBench的发布标志着机器人能力评估进入了一个新阶段。过去的机器人测试大多关注单一技能，而这项研究强调了协调能力的重要性。这就像是从考察个人技能转向考察团队合作能力，虽然更复杂，但也更接近实际需求。

这项研究揭示了当前AI技术的一个重要盲区：尽管在语言理解、图像识别等单一模态任务上表现出色，但在需要多模态协调的物理任务上仍然存在明显不足。这为AI研究指出了一个重要的发展方向：不仅要提升单一能力的上限，更要加强不同能力之间的协调整合。

从产业角度来看，BiManiBench为机器人制造商和AI公司提供了一个客观的评估标准。这有助于推动整个行业向更实用的方向发展，避免单纯追求某些指标的虚高而忽略了实际应用中的协调能力需求。

说到底，这项研究的真正价值不在于证明当前的AI模型有多强或多弱，而在于为我们指出了通向真正智能机器人的道路。通过系统性地测试和分析双臂协调能力，我们能够更清楚地看到差距在哪里，需要在哪些方面继续努力。

当我们期待着未来机器人能够像人类一样灵巧地使用双手时，BiManiBench就像是一面镜子，让我们看清了现实与理想之间的距离。但正是这种清醒的认识，才能引导我们走向更加智能、更加实用的机器人未来。对于那些有兴趣深入了解这项研究细节的读者，可以通过论文编号arXiv:2602.08392v1查询完整的研究报告。

Q&A

Q1：BiManiBench到底测试机器人什么能力？

A：BiManiBench是专门测试机器人双臂协调能力的基准测试系统，它分三个层次评估：基础空间推理（判断用哪只手抓物体）、高层动作规划（制定复杂任务的执行步骤）、低层精确控制（直接控制双臂的具体动作）。就像考驾照一样，从理论知识到实际操作全面评估。

Q2：为什么现在的AI模型在双臂协调上表现不好？

A：研究发现AI模型主要有三个问题：首先是"看错"，经常误判应该用哪只手或物体在哪里；其次是"想乱"，虽然理解任务但制定的行动计划有问题，比如两只手会撞到一起；最后是"做不准"，即使计划正确也无法精确执行双手配合动作。这就像一个人脑子很聪明但手脚不协调。

Q3：BiManiBench对机器人发展有什么意义？

A：BiManiBench首次为双臂机器人能力评估建立了科学标准，就像给机器人设立了"体能测试"。它帮助研究人员精确找到AI模型的弱点，指导未来改进方向。更重要的是，它推动整个行业关注机器人的协调能力而不只是单一技能，让机器人更接近实际应用需求。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.