![]()
这项由Physical Intelligence公司联合加州大学伯克利分校、斯坦福大学共同完成的研究发表于2025年,有兴趣深入了解的读者可以通过arxiv:2501.09747查询完整论文。
当我们看到一个专业钢琴家弹奏复杂曲目时,每个手指都在极其精确地按压琴键,速度快得几乎看不清。如果要让机器人学会同样精细的手部动作,传统方法就像是把每个手指的每次移动都用文字详细描述一遍,最终得到一本厚重的"动作手册"。问题是,这本手册太过冗长繁琐,机器人很难从中学到真正有用的技能。
研究团队发现了一个关键问题:现有的机器人训练方法在面对高频率、精细动作时会"卡壳"。就像用放大镜看蜂鸟振翅一样,传统方法把每一个微小的动作变化都记录下来,结果信息量过大,反而让机器人无法抓住动作的核心规律。更糟糕的是,相邻时刻的动作往往非常相似,这种高度相关性让训练过程变得低效——机器人可能学会简单地重复上一个动作,而不是真正理解完整的动作序列。
Physical Intelligence团队提出了一种全新的"压缩魔法"——FAST(频域动作序列标记化)。这种方法的核心思想类似于音乐压缩技术。当我们压缩音乐文件时,不会简单地删除一些音符,而是分析音乐的频率特征,保留最重要的频率成分。FAST采用了类似的策略,使用离散余弦变换(DCT)来分析机器人动作的"频谱"。
具体来说,FAST的工作过程就像一位经验丰富的音乐编辑。首先,它把机器人的原始动作序列转换到频域,就像把复杂的音乐分解为不同频率的音波。低频成分代表动作的整体形状和主要趋势,高频成分则对应细微的调整和快速变化。接着,它保留最重要的频率成分,舍弃那些对整体动作贡献不大的细节。最后,使用字节对编码(BPE)技术进一步压缩这些频率信息,得到一个紧凑而高效的动作表示。
这种方法的妙处在于,它能够大幅减少需要处理的信息量。传统方法可能需要数百个标记来描述一秒钟的机器人动作,而FAST通常只需要30-60个标记就能达到相同的效果。更重要的是,这种压缩是"智能"的——它保留了动作的核心特征,去除了冗余信息。
为了验证这种方法的有效性,研究团队设计了一个巧妙的对比实验。他们创建了一个合成数据集,任务是预测通过四个随机点的三次样条曲线。这个任务模拟了机器人需要预测复杂动作序列的情况。随着采样频率的增加,传统的分箱标记化方法表现急剧下降,最终几乎完全失效。而FAST方法在所有频率下都保持了稳定的高性能,充分证明了其处理高频数据的优势。
研究团队还开发了一个通用的机器人动作标记器FAST+。这个标记器在包含100万个真实机器人动作轨迹的大规模数据集上进行训练,涵盖了单臂、双臂和移动机器人等多种形态,以及不同的动作空间和控制频率。FAST+就像一个万能翻译器,能够处理来自任何机器人设备的动作数据,无需针对特定任务重新训练。
在实际应用测试中,FAST的表现令人印象深刻。研究团队设计了七个评估任务,包括六个真实机器人任务和一个仿真环境。这些任务涵盖了从简单的桌面操作到复杂的衣物折叠等各种难度级别。结果显示,传统的分箱标记化方法在高频任务上完全失败,而FAST能够成功训练出表现优异的机器人策略。
特别值得一提的是洗衣折叠任务。这项任务要求双臂机器人从篮子里取出衣物,展平、折叠并堆叠。这是一个极其精细的操作,需要机器人具备高度的灵巧性和协调能力。传统方法无法处理如此复杂的动作序列,而FAST训练的机器人能够流畅地完成整个过程。
研究团队还在DROID数据集上取得了突破性进展。DROID是一个大规模的"野外"机器人操作数据集,包含各种真实场景下的操作任务。之前的研究包括原始DROID论文和OpenVLA都只能在训练环境中评估,无法实现真正的零样本迁移。而基于FAST训练的策略首次实现了在完全未见过的环境中进行零样本评估,仅通过自然语言指令就能在三个不同大学校园的全新场景中执行各种桌面操作任务。
与现有的最先进方法相比,FAST在训练效率方面也有显著优势。当与π0视觉语言动作模型结合使用时,FAST训练的自回归模型能够匹配扩散型模型的性能,同时将训练时间缩短了5倍。这种效率提升对于大规模机器人学习至关重要,因为训练一个通用机器人策略往往需要数千个GPU小时。
研究还深入分析了不同标记化方法的压缩效率。结果显示,FAST在各种数据集上都实现了显著的压缩效果,压缩比从1.75倍到13.2倍不等,对于高频数据的压缩效果尤为突出。更重要的是,FAST在不同机器人形态、动作空间和控制频率下都表现出良好的泛化能力。
从技术实现角度来看,FAST的整个流水线设计精巧。首先,它对输入动作进行分位数归一化,将数据映射到标准范围内。然后,对每个动作维度分别应用离散余弦变换,将信号从时域转换到频域。接着,通过缩放和取整操作量化DCT系数,这个过程引入了可控的有损压缩。最后,将量化后的系数按低频优先的顺序排列并通过BPE编码压缩成最终的标记序列。
这种设计的巧妙之处在于其可逆性和可控性。整个流水线中的每个步骤都是可逆的,确保可以准确重建原始动作序列。同时,只有两个超参数需要调节:DCT系数的缩放因子和BPE词汇表大小。研究发现这两个参数对结果不太敏感,在所有实验中都使用了相同的参数设置。
与基于向量量化的方法相比,FAST具有明显的优势。向量量化方法虽然也能实现动作压缩,但需要训练额外的神经网络,参数调节复杂,且在需要精细控制的高频任务上表现不佳。FAST基于数学变换的方法更加稳定可靠,特别适合处理需要高保真度重建的精细操作任务。
研究团队还进行了详细的消融实验。他们发现BPE编码步骤对最终性能至关重要。虽然单纯的DCT变换也能改善学习效果,但缺少BPE编码的版本会产生大量重复的零标记,稀释了学习信号并显著降低推理速度。BPE编码有效地压缩了这些冗余信息,使得模型能够专注于真正重要的特征。
在与扩散模型的对比中,FAST显示出了独特的优势。虽然两种方法在最终任务性能上相当,但FAST在训练收敛速度上明显更快,特别是在大型数据集上。此外,FAST训练的模型在遵循自然语言指令方面表现更好,这可能是因为自回归训练方式与预训练语言模型的目标更加一致。
当然,FAST也有一些限制。最主要的问题是推理速度。由于需要自回归生成30-60个动作标记,FAST模型的推理时间约为750毫秒,而扩散模型只需100毫秒。不过,研究团队指出,大语言模型领域有大量成熟的加速技术可以应用到FAST上,如推测解码、量化和专用推理内核等。
展望未来,FAST为机器人学习开辟了新的可能性。它不仅解决了高频精细操作的训练难题,还为构建通用机器人智能奠定了基础。随着机器人应用场景的不断扩展,从工业制造到家庭服务,从医疗手术到太空探索,FAST提供的高效动作表示方法将发挥越来越重要的作用。
这项研究的影响不仅限于机器人领域。FAST的核心思想——通过频域分析和智能压缩来处理高维时序数据——可能启发其他领域的研究,如自动驾驶、游戏AI、甚至人机交互等。当我们需要让AI系统学习复杂的连续动作或行为模式时,类似的方法都可能发挥重要作用。
归根结底,FAST的成功在于它找到了表示和学习复杂动作的正确方式。就像音乐家不会逐个音符地死记硬背,而是理解音乐的结构和模式一样,FAST帮助机器人理解动作的本质特征,而不是拘泥于表面的细节。这种深层理解使得机器人能够更好地泛化到新的任务和环境,真正迈向智能化的未来。
Q&A
Q1:FAST技术是什么,为什么比传统方法好?
A:FAST是Physical Intelligence开发的机器人动作学习技术,它把复杂的机器人动作压缩成更简洁的表示,就像音乐压缩一样。传统方法记录每个微小动作变化,信息冗余太多;FAST只保留核心特征,让机器人学习效率提高5倍,还能处理复杂的精细操作。
Q2:FAST能让机器人做哪些原来做不到的事情?
A:FAST让机器人首次能够学会高频率的精细动作,比如折叠衣服、整理餐具等需要灵巧操作的任务。最重要的是,它训练的机器人可以在完全陌生的环境中工作,只需要用自然语言告诉它要做什么,不需要重新训练。
Q3:普通人什么时候能用到FAST技术?
A:目前FAST主要用于机器人研究,但这项技术为未来的家用服务机器人奠定了基础。随着技术成熟,我们可能会看到更智能的家务机器人、护理机器人等,它们能够完成更复杂精细的任务,真正成为人类的有力助手。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.