机器人不再机械：上海交大联合多机构破解机器人动作不连贯难题|原理|连贯性|真实世界

分享至

这项由上海交通大学联合Spirit AI、清华大学、同济大学、中国科学技术大学共同完成的研究发表于2026年2月，有兴趣深入了解的读者可以通过arXiv:2602.12978v1查询完整论文。

如果你曾经观察过工厂里的机器人，你可能会发现一个有趣的现象：它们的动作经常显得生硬、不连贯，时而犹豫不决，时而突然改变方向。这就像一个刚学会开车的新手，在路口总是犹豫该走哪条路，结果不仅浪费时间，还可能造成危险。

现在，一个由中国多所顶尖高校组成的研究团队找到了解决这个问题的巧妙方法。他们开发出一种名为"Legato"的新技术，让机器人的动作变得像熟练钢琴家的演奏一样流畅连贯。这个名字本身就很有寓意——"Legato"在音乐术语中指的是连贯、圆滑的演奏方式，正如这项技术要解决的核心问题。

要理解这个突破的重要性，我们需要先了解现代机器人是如何工作的。当今最先进的机器人使用一种叫做"视觉语言行动模型"的技术，就像给机器人装上了眼睛、耳朵和大脑，让它们能看懂环境、理解指令、并做出相应动作。但这些"智能大脑"运算速度很慢，就像一个思考非常缓慢但很聪明的人。

为了让机器人能够实时响应，工程师们想出了一个叫"动作分块"的解决方案。这就像让机器人提前规划好接下来的一系列动作，比如"向前走3步，转右，拿起杯子，放到桌子上"，然后一口气执行完毕。这样就不用每走一步都停下来重新思考了。

这个方法确实提高了效率，但带来了一个新问题：每当机器人完成一组动作准备开始下一组时，就会出现明显的停顿和方向突变，就像司机换挡时的顿挫感。现有的解决方案叫做"实时分块技术"，它试图让相邻的动作组之间保持一定的连续性，但这种方法只是在动作执行时临时"打补丁"，并没有从根本上解决问题。

研究团队发现，要让机器人动作真正流畅，必须在训练阶段就教会它如何保持连续性，而不是等到执行时再想办法弥补。这就像学钢琴一样，如果你在练习时就注重手指间的连贯过渡，最终演奏出来的音乐自然会更加流畅；但如果你只是把每个音符弹对，然后指望在正式演奏时临时调整，效果肯定不会太好。

一、机器人动作不连贯的根本原因

现代机器人面临的问题可以用开车来比喻。当你在城市里开车时，GPS会提前规划好一段路线，比如"直行500米，然后右转"。在正常情况下，你会平滑地执行这些指令。但如果每次GPS重新计算路线都需要10秒钟，而你又不能停车等待，会发生什么呢？

你只能按照上一次的路线指引继续行驶。当新的路线出来时，你可能已经偏离了最佳路径，这时就需要突然调整方向。这种突然的调整不仅让乘客感到不舒服，还可能导致安全问题。

机器人面临的正是这样的困境。由于"大脑"（人工智能模型）需要时间思考，机器人必须提前规划一系列动作。但当环境发生变化或者需要开始新的任务时，新旧动作序列之间往往缺乏有效的衔接，导致机器人出现犹豫、停顿或者突然改变方向的现象。

研究团队通过深入分析发现，这个问题的根源在于现有系统的"多模态切换"特性。简单来说，就是机器人的"大脑"在面对同一个情况时，可能会想出多种不同的解决方案。比如要拿桌上的杯子，它可能考虑用左手还是右手，从哪个角度接近等等。在正常情况下，这种灵活性是好事，但在动作切换的关键时刻，这种"选择恐惧症"就会导致机器人表现出犹豫不决的行为。

更严重的是，由于每次重新规划动作时，机器人都可能选择不同的策略，这就导致相邻动作组之间出现明显的方向或风格差异。就像一个人在走路时突然改变步伐或姿势，看起来就会很不自然。

二、Legato技术的创新突破

面对这个挑战，研究团队提出了一个根本性的解决思路：与其在机器人执行动作时临时修补不连贯问题，不如在训练阶段就让机器人学会如何保持动作的连贯性。

Legato技术的核心理念可以用学习乐器来理解。传统的训练方法就像分别练习每个音符，然后希望演奏时能自动连贯起来。而Legato方法则是从一开始就练习连贯的演奏，让连贯性成为演奏技巧的天然组成部分。

具体来说，Legato在训练过程中引入了一个"连续性指导机制"。这个机制就像一个严格的音乐老师，时刻提醒学生注意手指间的连接。在机器人学习每个动作时，这个机制会告诉它："记住，你的这个动作要能够自然地连接到下一个动作上。"

这种方法的巧妙之处在于它使用了一个"调度形状的混合"策略。可以把这个想象成调制鸡尾酒的过程。调酒师不是简单地把各种酒混在一起，而是按照特定的比例和顺序，让每种成分都能发挥最佳效果。

Legato技术也是如此。在训练的开始阶段，它会让机器人严格遵循既定的动作模式，确保与前面动作的连贯性。然后随着训练的进行，逐渐增加机器人的自主创新空间，让它在保持连贯性的前提下探索更多的动作可能性。这就像教小孩写字，先让他们照着字帖描红，熟练后再允许他们发展自己的字体风格。

更重要的是，Legato解决了一个关键的技术问题：训练和执行的一致性。以往的方法就像在练习时用钢琴，但表演时却换成了电子琴，尽管基本原理相同，但手感和响应完全不同。Legato确保了机器人在训练时学到的连贯性技巧能够完全应用到实际执行中。

为了适应不同的实际应用需求，研究团队还为Legato增加了"调度随机化"功能。这就像给调酒师提供了多种不同的配方，让他可以根据客人的偏好调整鸡尾酒的浓度和口味。在机器人应用中，这意味着同一个训练好的模型可以适应不同的硬件性能和任务要求。

三、实验验证与惊人效果

研究团队设计了五个不同的机器人任务来测试Legato技术的效果，这些任务涵盖了机器人在日常生活中可能遇到的各种挑战。

第一个任务是叠碗。这听起来简单，但对机器人来说却充满挑战。机器人需要准确识别每个碗的位置、判断最佳抓取角度、控制力度以免损坏易碎品，还要保持整个动作的流畅性。这就像让机器人玩叠叠乐，既需要精确性，也需要整体协调性。

第二个任务是倾倒物品。机器人需要抓住一个装满小块的碗，将其倾斜到合适角度，把所有小块倒入另一个碗中，然后再倒回来。这个过程需要三次连续操作，对动作连贯性的要求极高。任何一个环节的停顿或突变都可能导致小块散落。

第三个任务是整理物品。桌上放着罐子、笔和小球等不同形状和重量的物品，机器人需要将它们全部放入一个白色盒子中。这需要机器人根据不同物品的特性调整抓取策略，同时保持整个过程的协调统一。

第四个任务是开抽屉。这个看似简单的动作实际上需要精确的力度控制和方向把握。机器人需要找到抽屉把手，施加适当的拉力，并在抽屉打开过程中保持稳定的控制。

第五个任务是折毛巾。这可能是最具挑战性的任务，因为毛巾是软性材料，其形状会在操作过程中不断变化。机器人需要学会适应这种变化，同时保持折叠动作的连贯性。

实验结果令人印象深刻。使用Legato技术的机器人在所有五个任务中都表现出了明显的改进。最显著的改进体现在任务完成时间上，平均减少了约10%。这可能听起来不算太多，但在机器人应用中，这种改进意义重大。

更重要的是轨迹平滑度的改善。研究团队使用了三种不同的指标来衡量机器人动作的流畅性，结果显示Legato在几乎所有指标上都取得了显著提升。这意味着机器人的动作不仅更快，而且更加自然流畅。

特别值得注意的是"重叠区域误差"的大幅降低。这个指标衡量的是相邻动作组之间的连接质量。Legato在这方面的改进尤为明显，有些任务的改进幅度甚至超过了30%。这直接证明了Legato在解决动作连贯性问题上的有效性。

研究团队还发现了一个有趣现象：使用Legato技术的机器人在面对多种可能的行动方案时，表现出了更强的"决断力"。传统机器人经常会在不同选择之间犹豫，导致动作显得犹豫不决。而使用Legato的机器人更倾向于坚持一种行动方案，直到完成整个任务。

这种改变特别体现在叠碗任务中。传统机器人经常会在选择用哪只手抓哪个碗、从哪个角度接近等问题上反复摇摆，每次重新规划动作时都可能改变策略。这不仅浪费时间，还让整个过程看起来很不自然。而使用Legato的机器人一旦选定了策略，就会坚持到底，整个过程显得更加干净利落。

四、技术原理的深度解析

要真正理解Legato技术的突破性，我们需要深入了解它的工作原理。如果把传统的机器人训练比作教学生解数学题，那么传统方法就是教学生如何解决各种不同类型的题目，但没有教他们如何在考试中保持思路的连贯性。

Legato的方法更像是模拟真实考试环境进行训练。在训练过程中，它不仅教机器人如何执行单个动作，还教它如何在执行当前动作时就考虑到下一个动作的需要。这种"前瞻性训练"让机器人能够在实际应用中表现得更加连贯。

这种训练方法的核心是"流匹配"技术。可以把这个想象成河流的流动过程。传统方法试图让水从一个点直接跳到另一个点，这必然会产生飞溅和断裂。而流匹配技术则是构建一条平滑的水道，让水自然地从起点流向终点。

在技术实现上，Legato使用了一种叫"动作-噪声混合"的巧妙策略。这就像调制颜料一样，画家不是直接使用纯色，而是在纯色中混入适量的其他颜色，创造出更丰富、更自然的色彩效果。

Legato在训练过程中也是如此。它不是让机器人学习纯粹的、孤立的动作，而是在每个动作中混入一定程度的"连续性引导"信息。这种混合让机器人学会的不是单纯的动作执行，而是"连贯的动作执行"。

更令人惊叹的是Legato的"速度场重塑"机制。传统的训练方法就像给学生一本标准答案，告诉他们"正确答案应该是这样的"。而Legato则更像是一个智慧的老师，它不仅告诉学生答案是什么，还教他们"到达答案的思维过程应该是这样的"。

这种方法的数学基础相当精妙。研究团队通过重新设计训练目标函数，让机器人在学习每个动作时都能同时考虑到连续性要求。这就像学习书法，不是单纯地把每个字写对，而是要让每个字都能自然地连接到下一个字。

为了适应不同的应用场景，Legato还引入了"调度条件化"功能。这就像给厨师提供了可调节的炉灶，可以根据不同菜品的需要调整火候。在机器人应用中，这意味着用户可以根据具体任务的要求调整连贯性的强度。

比如，在需要高精度操作的任务中，可能需要稍微牺牲一些连贯性来换取更高的准确性。而在需要快速完成的任务中，则可以增强连贯性以提高整体效率。Legato的这种灵活性让它能够适应各种不同的实际应用需求。

五、与现有技术的对比优势

为了更好地验证Legato技术的优越性，研究团队将其与当前最先进的"实时分块技术"（RTC）进行了全面对比。这种对比就像比较两种不同的交通管理方案：一种是在十字路口临时指挥交通，另一种是提前设计好整个城市的交通流。

实时分块技术的工作方式可以比作一个临时交通警察。当发现车流不畅时，警察会站出来指挥，试图让车辆更顺畅地通过。这种方法在一定程度上确实能够缓解拥堵，但它是被动的、临时性的解决方案。

相比之下，Legato更像是一个完整的城市交通规划系统。它在设计道路时就考虑了车流的连贯性，让车辆能够自然地从一条路顺畅过渡到另一条路。这种主动式的解决方案从根本上避免了拥堵的产生。

在具体的实验对比中，这种差异体现得淋漓尽致。在倒水任务中，使用传统RTC技术的机器人完成时间平均需要95秒，而使用Legato的机器人只需要76秒，提升幅度达到20%。这个改进幅度在机器人应用中是相当显著的。

更重要的是轨迹质量的提升。研究团队观察发现，使用RTC技术的机器人在执行任务时经常会出现"换手"现象——比如原本计划用左手拿碗，但在执行过程中突然切换到用右手。这种切换不仅浪费时间，还让整个动作看起来很不自然。

而使用Legato技术的机器人则表现出了更强的"意图一致性"。一旦选定了用左手执行任务，它就会坚持使用左手完成整个操作流程。这种一致性让机器人的行为看起来更像人类，而不是一个犹豫不决的机械装置。

研究团队还发现了一个有趣的现象：在高频次的动作切换场景中，两种技术的差异更加明显。当机器人需要快速连续执行多个不同动作时，RTC技术的局限性就暴露出来了。就像一个不熟练的司机在复杂路况下频繁换档，整个过程显得磕磕绊绊。

而Legato在这种情况下依然能够保持流畅性。这是因为它在训练阶段就预料到了这种复杂情况，让机器人学会了在高频切换中保持连贯性的技巧。

六、广泛的应用前景

Legato技术的意义远远超出了学术研究的范畴。在工业制造领域，这项技术可以显著提高生产线的效率。传统的工业机器人往往需要在不同工序之间停顿和重新定位，这些微小的停顿积累起来会造成显著的效率损失。

使用Legato技术的工业机器人可以实现真正的无缝作业。从抓取零件到装配，从焊接到检测，整个流程可以像行云流水一样连贯进行。这不仅能提高生产效率，还能降低设备的磨损，因为平滑的运动比频繁的启停对机械系统的冲击要小得多。

在服务机器人领域，Legato的价值更加明显。当家庭服务机器人需要整理房间时，它可以连贯地完成拿起物品、移动到目标位置、放下物品等一系列动作，而不是在每个步骤之间都停顿思考。这种流畅性不仅提高了工作效率，还让机器人的行为更加自然，更容易被家庭成员接受。

医疗机器人是另一个极具潜力的应用领域。在手术过程中，任何不必要的停顿或突然的动作变化都可能带来风险。Legato技术能够让手术机器人的动作更加平滑精准，这对提高手术安全性和效果具有重要意义。

值得注意的是，Legato技术的应用并不局限于物理机器人。在虚拟现实和游戏开发中，这项技术同样能发挥重要作用。虚拟角色的动作连贯性一直是游戏开发者关注的重点，Legato提供的解决方案可以让虚拟角色的行为更加自然流畅。

研究团队还特别关注了Legato技术的可扩展性。他们发现，这项技术不仅适用于双臂机器人，还可以轻松扩展到多臂机器人系统。在某些特殊应用场景中，比如复杂的装配作业或多任务并行处理，多臂机器人需要协调多个手臂的动作，Legato技术能够确保所有手臂之间的协调一致。

更令人兴奋的是，Legato技术还为人机协作开辟了新的可能性。当人类和机器人需要共同完成某项任务时，机器人动作的可预测性和连贯性变得至关重要。Legato让机器人的行为模式更接近人类的自然动作方式，这为更紧密的人机协作奠定了基础。

七、技术挑战与未来展望

尽管Legato技术取得了显著的成果，但研究团队也诚实地承认了当前技术的局限性。最主要的挑战是计算复杂度的增加。由于需要在训练过程中考虑动作间的连贯性，整个训练过程比传统方法更加复杂，需要更多的计算资源和时间。

这个问题可以比作学习乐器的过程。如果只是学习弹奏单个音符，那么练习起来相对简单。但要学会连贯演奏，就需要大量的额外练习时间。对于机器人来说，这意味着训练成本的增加。

另一个挑战是参数调节的复杂性。Legato技术引入了多个新的参数，如调度长度、连续性强度等，这些参数需要根据具体应用场景进行精心调节。就像调音师需要根据不同的演出场地调整乐器一样，工程师需要为不同的机器人应用场景找到最优的参数组合。

研究团队正在积极解决这些挑战。他们正在开发自动参数优化算法，让系统能够根据具体任务自动调节最优参数。同时，他们也在研究如何降低训练的计算复杂度，让更多的研究机构和公司能够使用这项技术。

对于未来的发展方向，研究团队提出了几个令人兴奋的可能性。首先是动态调度功能的增强。目前的Legato系统在训练时就固定了调度参数，但未来的版本可能能够在执行过程中实时调整这些参数，就像熟练的演奏家能够根据现场情况调整演奏风格一样。

另一个重要方向是多模态感知的集成。目前的系统主要依赖视觉信息，但未来可能会整合触觉、听觉等其他感知模态，让机器人能够更全面地理解环境，做出更加连贯和合适的动作决策。

研究团队还在探索将Legato技术与大语言模型结合的可能性。这种结合可能会产生真正具有"理解能力"的机器人，它们不仅能够执行预定的任务，还能够根据自然语言指令灵活调整行为模式，同时保持动作的连贯性。

最令人期待的是Legato技术在通用机器人领域的应用前景。研究团队认为，随着技术的不断完善，未来的通用机器人将能够像人类一样自然流畅地完成各种复杂任务。这些机器人不再是冰冷的机械装置，而是能够与人类和谐共处的智能伙伴。

从更广阔的角度来看，Legato技术代表了机器人学研究的一个重要转折点。它不仅解决了一个具体的技术问题，更重要的是改变了我们对机器人行为的理解。机器人不应该只是能够完成任务的工具，它们应该能够以自然、优雅的方式完成任务。

这种理念的转变可能会影响整个机器人行业的发展方向。未来的机器人设计将更加注重动作的连贯性和自然性，而不仅仅是功能的实现。这种转变最终将让机器人更好地融入人类社会，成为我们日常生活的有机组成部分。

说到底，Legato技术的真正价值在于它让我们更接近了创造真正智能、自然的机器人伙伴的目标。这些机器人不仅能够帮助我们完成各种任务，更能够以一种让人感到舒适和信赖的方式与我们互动。虽然我们距离科幻电影中的机器人伙伴还有一段距离，但Legato技术无疑是向这个目标迈出的重要一步。

对于普通人来说，这项技术的影响将是渐进的但深远的。在不久的将来，我们可能会在工厂、医院、家庭中看到更多动作流畅自然的机器人。它们不再是那种让人感到不安的机械装置，而是能够和谐融入我们生活环境的智能助手。这种改变将从根本上改变我们对机器人的认知，也将为人机共存的未来社会奠定坚实的技术基础。

Q&A

Q1：Legato技术是什么？

A：Legato是由上海交通大学等机构开发的机器人动作连贯性技术。它解决了现有机器人在执行连续动作时出现停顿、犹豫和突然方向改变的问题，让机器人动作变得像熟练钢琴家演奏一样流畅自然。

Q2：Legato技术比现有的实时分块技术好在哪里？

A：传统的实时分块技术只是在机器人执行动作时临时修补不连贯问题，而Legato从训练阶段就教会机器人保持动作连贯性。实验显示，使用Legato的机器人任务完成时间平均减少10%，动作流畅度显著提升。

Q3：普通人什么时候能接触到使用Legato技术的机器人？

A：这项技术主要应用于工业制造、医疗手术和服务机器人等领域。随着技术不断完善，未来几年内我们可能会在工厂、医院和高端家庭服务机器人中看到这种更加流畅自然的机器人。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.