网易首页 > 网易号 > 正文 申请入驻

UC伯克利等提出具身智能「动作Tokenizer」,效率飙升5倍!

0
分享至

新智元报道

编辑:英智

【新智元导读】研究者提出了FAST,一种高效的动作Tokenizer。通过结合离散余弦变换(DCT)和字节对编码(BPE),FAST显著缩短了训练时间,并且能高效地学习和执行复杂任务,标志着机器人自回归Transformer训练的一个重要突破。

来自π,伯克利和斯坦福的研究者近期提出了FAST,一种为VLA模型设计的高效动作Tokenizer。

FAST旨在解决传统动作Tokenization方法在处理精细任务时面临的挑战,为VLA模型在更复杂、高频的机器人控制任务带来了显著改进。

将FAST与π0 VLA结合,在1万小时的机器人数据上对π0-FAST进行训练,效果与最先进的扩散VLA相当,训练时间最多缩短5倍。

论文链接:https://arxiv.org/abs/2501.09747

想训练Transformer来控制机器人,具体该怎么做?

Transformer输出的动作块是一小段机器人动作序列,例如手臂关节角度。对于不太精细的系统,其动作序列可能包含3-5个动作;而对于高频灵巧机器人,动作序列可能会有20-50个动作。

用合适的方法表示这些动作,对于高效学习非常重要。

现有的VLA模型常用简单的离散划分方法,这种方法对于简单的任务是可行的,但对于需要高精度和高频控制的复杂精细技能,就不太管用了。

扩散方法或流匹配通常展现出更好的性能,如π0模型。然而,扩散方法的训练时间会更长。

那么,如何表示这些动作,才能在保持灵活性和精确性的同时,快速地训练Transformer呢?

为解决这个问题,Physical Intelligence提出一款专为机器人动作设计的新型Tokenizer「FAST」。

借助FAST,研究者开发出了一种高效的机器人动作Tokenization方法,让机器人技术能够与自回归Transformer训练流程无缝衔接。

FAST能把动作像语言一样,用离散Token表示。FAST提升了从大规模互联网数据预训练的迁移能力,增强了机器人执行语言指令的能力。

借助FAST,首次实现在DROID数据集上训练出只需通过简单的自然语言命令,机器人就能在新环境中零样本执行多种操作任务。

FAST Tokenizer

用离散余弦变换(DCT)压缩

FAST通过在训练前压缩原始动作块,能显著提升基于灵巧机器人数据的策略训练和推理效率。

FAST使用了一种基于离散余弦变换(DCT)的压缩算法,来提高VLA模型的训练速度。DCT是一种频域变换,因简洁和计算高效,常用于压缩算法,如JPEG图像压缩、MP3音频的编解码。

FAST Tokenization算法

研究者利用离散余弦变换(DCT)设计了FAST,它是一种快速且高效的机器人动作Tokenization方法。下图展示了从原始机器人动作到动作token的步骤。

首先,对输入的动作进行归一化。完成归一化后,每个动作维度分别应用离散余弦变换(DCT)。

研究者用字节对编码(BPE)压缩DCT矩阵,BPE是训练LLM常用的压缩算法。将DCT和字节对编码(BPE)结合,就能把原始动作块压缩成数量少但更密集的动作Token。

通常每个动作块包含30-60个Token,和以前的动作Tokenization方法相比,压缩率提高了10倍。

通用机器人动作Tokenizer

基于FAST,研究者发布了FAST+,这是通用的机器人动作Tokenizer,用100万个真实机器人动作序列上训练而成。

FAST+ Tokenizer能高效地标记各种机器人动作序列,包括单臂、双臂和移动机器人。FAST+能当黑盒Tokenizer,对各种机器人的动作序列编码,涵盖多样的动作空间和控制频率。

借助这个Tokenizer训练自己的策略,只需三行代码即可实现:

π0-FAST:开箱即用

研究者将FAST和π0模型结合进行测试。

以往的离散化VLA模型只能处理简单操作任务。但有了FAST,就能借助它训练自回归Transformer策略,完成像折叠衣物、收拾餐桌、打包购物袋这类高难度的精细任务。同时,模型的训练速度快了5倍。

下面是一些能用FAST策略解决的任务。

借助FAST,研究者首次在DROID数据集上训练出通用策略,能在新环境中对多种指令实现泛化执行。

DROID数据集是一个由全球大型机器人研究联盟历经两年收集的开源数据集,包含多样化的场景和机器人操作任务,涵盖从大学建筑到真实家庭等多种场景。

到目前为止,尚未有一种方法能在DROID数据集上训练出通用策略,在新环境中零样本执行语言指令。

但借助FAST,研究者实现了这一目标。快来看看它的实际表现!

在美国三所大学(加州大学伯克利分校、斯坦福大学、华盛顿大学)的测试环境中,都能直接完成简单的操作任务。

即便在执行任务失败,它也会基于常识去尝试解决问题。

虽然这一策略尚不完善,却为我们描绘了未来的图景:未来能直接下载并使用通用机器人模型,就像今天使用语言模型一样。

实验结果

表中展示了FAST Tokenizer与先前方案在压缩率方面的比较。

FAST对所有数据集的输入动作序列都实现了显著压缩,对高频动作数据的数据集压缩效果更明显。

基于100万条真实机器人动作序列训练的通用动作Tokenizer FAST+与之前的VLA相比显著提高了训练效率。

FAST+ Tokenizer在各类机器人数据集上有良好的压缩性能,且在各种机器人形态、动作空间和控制频率范围中都展现出有效性。

研究者借助FAST Tokenizer成功训练出首个自回归通用策略π0-FAST。它基于之前的π0模型,沿用相同的模型架构和训练数据集。

研究者把π0-FAST与最先进的扩散π0 VLA进行对比。

总体而言,自回归π0-FAST模型的表现与扩散π0模型相当,即便在最具挑战性的洗衣折叠任务上也是如此,且所需计算量显著更少。

因其采用简单的自回归离散化方法,π0-FAST的收敛速度比扩散π0模型快得多,所需的训练GPU小时数减少5倍。

对于最先进的VLA训练,通常需数千个GPU小时,计算资源减少5倍至关重要。

基于FAST的方法可在复杂的机器人任务上训练自回归VLA,而先前的方法在这些任务上效果不佳。

研究者对于自回归VLA训练的前景感到十分兴奋。然而,当前的模型存在一个较为显著的缺点,即推理速度较慢。π0-FAST采用自回归解码的方式,其速度明显比不上π0所使用的流匹配解码。

未来,LLM中广泛应用的加速离散自回归Transformer模型推理的技术,或许能为提高VLA推理速度带来启发。

参考资料:

https://www.pi.website/research/fast

https://arxiv.org/abs/2501.09747

https://huggingface.co/physical-intelligence/fast

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

懂球帝
2026-03-26 04:09:06
张雪峰家属:周六举行追悼会!平时没胸闷、没心脏病,能放心运动吗?医生提醒

张雪峰家属:周六举行追悼会!平时没胸闷、没心脏病,能放心运动吗?医生提醒

上观新闻
2026-03-26 14:45:10
净利润62%高增创历史新高,紫金矿业“矿茅”与“现金牛”双标签成色几何

净利润62%高增创历史新高,紫金矿业“矿茅”与“现金牛”双标签成色几何

华夏时报
2026-03-25 21:50:05
华为老将创业4年,一款产品卖了70亿

华为老将创业4年,一款产品卖了70亿

每日经济新闻
2026-03-25 20:01:35
男子干活时摔成高位截瘫,妻子一看男子不能赚钱养家了,丢下男子和6岁的女儿跑了

男子干活时摔成高位截瘫,妻子一看男子不能赚钱养家了,丢下男子和6岁的女儿跑了

张晓磊
2026-03-26 11:22:06
《超人》女演员治病花光积蓄后去世,好友为其葬礼发起筹款

《超人》女演员治病花光积蓄后去世,好友为其葬礼发起筹款

红星新闻
2026-03-24 14:16:15
深圳多处出现,一大批人都在偶遇!网友:“我都舍不得踩!”

深圳多处出现,一大批人都在偶遇!网友:“我都舍不得踩!”

深圳晚报
2026-03-26 10:20:44
苏敏旅游6年后简直不敢认,连面相都变了,网友:这16万花得值!

苏敏旅游6年后简直不敢认,连面相都变了,网友:这16万花得值!

共工之锚
2026-03-24 01:31:15
林彪的儿子要结婚,叶群在全国选美,毛主席得知说了5个字

林彪的儿子要结婚,叶群在全国选美,毛主席得知说了5个字

扬平说史
2026-03-25 21:04:04
“已囤一年机票”!燃油费上涨催生“提前锁票潮”,“五一”机票预订量涨近两成

“已囤一年机票”!燃油费上涨催生“提前锁票潮”,“五一”机票预订量涨近两成

封面新闻
2026-03-26 13:24:05
闯祸的最高境界是什么?看网友讲述,这是正常人能做出的事情吗?

闯祸的最高境界是什么?看网友讲述,这是正常人能做出的事情吗?

侃神评故事
2026-03-21 19:15:03
樊振东空降迈阿密,新身份曝光!回归国乒成谜!吴敬平发文!

樊振东空降迈阿密,新身份曝光!回归国乒成谜!吴敬平发文!

好乒乓
2026-03-26 12:28:10
戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

娱乐圈笔娱君
2026-03-25 10:46:06
印度想拿中国尿素救春耕?先把欠中企百亿欠款还了,否则一粒不售

印度想拿中国尿素救春耕?先把欠中企百亿欠款还了,否则一粒不售

达文西看世界
2026-03-26 12:05:42
美容院老板娘大实话:55岁后脸再光也没用,脱了衣服见真章!

美容院老板娘大实话:55岁后脸再光也没用,脱了衣服见真章!

距离距离
2026-03-25 16:53:55
电饭锅哪个牌子质量好?2026电饭煲排名前十盘点!大众主流精选

电饭锅哪个牌子质量好?2026电饭煲排名前十盘点!大众主流精选

小柱解说游戏
2026-03-25 17:56:15
谭瑞松,被判死缓

谭瑞松,被判死缓

新京报政事儿
2026-03-25 17:17:03
加州州长猛批马斯克:这个时代最令人失望的人物之一!

加州州长猛批马斯克:这个时代最令人失望的人物之一!

达文西看世界
2026-03-26 10:23:53
四川高县村支书暴打残疾村妇致轻伤 法院判决免于刑事处罚引争议

四川高县村支书暴打残疾村妇致轻伤 法院判决免于刑事处罚引争议

律法刑道
2026-03-26 10:55:03
四川多所中学发布严正声明

四川多所中学发布严正声明

四川省教育厅
2026-03-26 10:57:12
2026-03-26 15:24:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14819文章数 66720关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
游戏
时尚
公开课
军事航空

数码要闻

配件制造商清单泄露:2026款iPad将搭载A18芯片

外媒锐评PS去年错得离谱!发行商排名21 被微软甩开

2026年了,最好看的还是“这件针织”!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版