网易首页 > 网易号 > 正文 申请入驻

伯克利团队发布最新论文,用训练GPT的方法训练人形机器人

0
分享至

一台人形机器人在人行道、混凝土、沥青、广场和沙路上“散步”,这不是科幻电影的场景,而是已经发生在旧金山街头的真实事件。

这一人形机器人项目也引起了Sora团队的注意。

“不可思议的成果!”Sora负责人之一Bill Peebles在 X 转发了这条内容,难掩惊讶。另一位核心作者Tim Brooks也评论道:“Ilija Radosavovic的惊人成果把AI带入了真实世界。”

Ilija Radosavovic(伊利亚·拉多萨沃维奇)是该人形机器人项目的负责人之一,他是加州大学伯克利分校博士生,曾在Meta的AI实验室FAIR做研究工程师。

这篇论文名为《Humanoid Locomotion as Next Token Prediction》。Ilija Radosavovic表示,论文的核心思想,就是把OpenAI训练ChatGPT时所用到的“预测一个token”的思路,用在人形机器人的运动控制中。

这被称为“自回归生成式”路线,最大的特色是可以根据“Scaling Law”——扩大模型的参数、数据、算力来提升模型的效果,也被称为“暴力美学”。不过,对于“暴力美学”的前景,目前在业内存在一定的争议。

目前来看,Scaling Law已经先后突破了文本生成和视频生成,接下来又会突破人形机器人的运动控制吗?

“暴力美学”解锁人形机器人?

这篇论文中,作者提出的核心问题是:

过去十年,深度学习浪潮下,大型神经网络已经在互联网多样化的数据集上有了大量训练成果,我们能否以类似的方式来学习强化大的感官和运动表示模型?

回溯机器人的发展历程,传统机器人的运动高度依赖于人工输入准确的预测接触点和执行器方向等信息。“拿杯子”这个动作对人类而言看似简单,但对机器人而言却是一个“大工程”。人类需要拆解动作,再告诉机器人每一个动作的具体细节,像这个动作的起点在哪里、手臂要如何移动等。

这种方法带来的问题是,机器人只能在人类规定的路径中较好地运动和控制肢体动作,但跳出模拟世界后,机器人在真实世界就手足无措了,这个问题可简单归类到学术领域所讨论的“泛化性”较差,不够通用等问题。

不只机器人,在人工智能符号主义学派的研究中,“泛化性”也是一个老大难的问题。而OpenAI发布的ChatGPT之所以惊艳,有一个核心原因就是其用暴力美学——叠加大量数据、算力、参数量,就让模型对新事物表现出了泛化性极佳的“智能涌现”。

如今,Ilija Radosavovic团队试图借鉴OpenAI在语言领域的做法,将现实世界中的仿人机器人控制视为一个“下一个token预测”问题,类似于语言中预测下一个单词,来实现人形机器人的运动控制。

该模型是一个通过自回归预测训练的causal transformer(因果转换器)。

由于训练数据的多模态特性,该研究以模态对齐的方式进行预测,对于每个输token,模型能够预测相同模态的下一个token。这个方法让模型更加通用,能够利用缺失模态的数据,比如没有动作的视频轨迹。

在视频中,一个仿人形的双足机器人已经实现“零样本学习”,正在旧金山“闲逛”。

该模型即使只在27小时的行走数据上训练,也能转移到现实世界,并且能够泛化到训练期间未见过的命令,比如向后行走。这些发现为通过生成模型学习具有挑战性的现实世界控制任务提供了一个有希望的路径。

  • 仿人运动作为下一个标记预测

该研究将现实世界中的仿人控制视为一个大型传感器运动轨迹数据建模问题

与语言类似,研究人员训练了一个通用的Transformer模型来自回归地预测移位的输入序列。与语言不同,机器人数据是高维的,包含多个感官模态和动作。

研究人员将输入轨迹token化,并训练一个causal transformer(因果转换器)模型来预测移位的标记(shifted token)。

重要的是,模型能够预测完整的输入序列,包括感官和动作标记。该团队是在建模联合数据分布,而不是条件动作分布。

收集轨迹数据集,通过自回归预测训练Transformer模型,并将其部署在旧金山零样本中

  • 一个通用的缺失数据处理框架

该研究假设每个轨迹都是观察和动作的序列,论文展示了该模型如何泛化到具有缺失模态的序列,比如从没有动作的人类视频中提取的轨迹

假设已经获取一个没有动作的观察轨迹,该团队的关键洞察是,可以将没有动作的轨迹视为带有动作遮蔽的常规轨迹。这个轨迹具有与常规动作轨迹相同的格式,因此可以统一处理。该方法忽略了对应于输入遮蔽部分的预测的损失。

该方法能够统一地利用有或没有动作的轨迹

  • 构建轨迹数据集

该团队构建了一个轨迹数据集用于训练模型,有四大数据来源:先前的神经网络策略,基于模型的控制器,人类运动捕捉,以及YouTube上的人类视频。

不同数据源的插图如下:

该团队构建了一个来自四个不同来源的轨迹数据集

不同来源的数据会提供不同维度的信息:

按照上述策略训练的机器人已经可以行走在不同的表面上,包括人行道、混凝土、沥青、广场和沙土路。

  • 有没有实现Scaling Law?

论文中也提到了“Scaling”(扩展或缩放)相关的内容,提到模型性能会随着训练数据集的大小、上下文长度以及模型大小的增加而变化。

作者们发现,使用更多轨迹进行训练可以减少位置跟踪误差,这是一个积极的信号,表明在更大的数据集上训练可以提高性能。

他们还研究了在Transformer的上下文窗口中使用不同数量的tokens对模型性能的影响。结果表明,更大的上下文窗口可以产生更好的策略,这表明生成策略在规模上进行一种上下文适应,随着规模的增加而改善。

此外,在参数规模方面,研究结果显示,跟踪误差随着模型参数规模增大而逐渐减少。

这些扩展研究的结果均表明,人形机器人模型可以从更大规模的数据集、更长的上下文窗口以及更大的模型中受益。

人形机器人风暴‍

人形机器人正在硅谷刮起风暴,包括OpenAI、英伟达在内的科技巨头都在积极布局。

2024年2月24日,英伟达宣布成立通用智能体研究实验室(GEAR)。

GEAR由英伟达高级科学家Jim Fan博士和Yuke Zhu教授领导,旨在虚拟和现实世界中构建具身智能体基础模型。GEAR的研究议程分为四个方面:

(1)多模态基础模型

(2)通用机器人

(3)虚拟世界中的基础智能体

(4)模拟和仿真数据的研究。

英伟达CEO黄仁勋近日在采访中表示,机器人基础模型可能即将出现,或许是明年,“从那时起,五年后,将看到一些非常令人惊奇的事情”。

Jim Fan也表示:“我们相信,在未来,每一台移动的机器都将是自主的,机器人和模拟智能体将像iPhone一样无处不在。我们正在构建基础智能体:一个具有通用能力的AI,可以在许多虚拟和现实的世界中学习如何熟练地行动。”

同时,英伟达也开始通过投资延展其在人形机器人领域的触角。

2月29日,开发通用人形机器人的AI机器人公司Figure AI宣布,已在B轮融资中筹集了6.75亿美元,估值为26亿美元,投资方包括微软、OpenAI Startup Fund、NVIDIA、Jeff Bezos(通过 Bezos Expeditions)、Parkway Venture Capital、Intel Capital、Align Ventures和ARK Invest。

Figure AI成立于2022年,去年5月完成Parkway Venture Capital领投的7000万美元融资;两个月后,又获英特尔900万美元投资。

从融资情况来看,这家成立仅一年多的机器人公司已经成为硅谷创投圈一颗抢手的新星。此次,英伟达和OpenAI同时加码,再一次印证了Figure AI的火爆。

Figure AI同样是一家野心勃勃的公司。“Figure AI的愿景是尽快将人形机器人引入商业运营,”该初创公司创始人兼首席执行官布雷特·阿德科克 (Brett Adcock) 在最新一轮融资的声明中表示。

除投资外,Figure AI和OpenAI还达成了一项合作协议。此次合作旨在通过增强人形机器人处理和推理语言的能力,帮助加快Figure AI的商业化进程。

布雷特·阿德科克表示,Figure AI开发的人工智能模型将基于OpenAI最新的GPT模型,并根据Figure AI收集的机器人动作数据进行专门训练,以便其人形机器人能够与人交谈、看到事物并执行物理任务。

合作消息公布后,OpenAI CEO Greg Brokman也在 X 上转发表示,OpenAI正在将多模态模型拓展到机器人上。

OpenAI 产品和合作伙伴关系副总裁Peter Welinder 表示:“我们一直计划回归机器人技术,我们通过Figure AI看到了一条探索人形机器人在高性能多模式模型支持下可以实现的目标的道路。”

早在2022年,OpenAI便开始在人形机器人领域有所动作。OpenAI曾投资一家挪威类人机器人公司1X Technologies,双方于2022年达成合作,使用AI模型为机器人添加智能。去年3月,1X Technologies获得了由OpenAI创业基金领投的2350万美元融资。

今年年初,1X Technologies完成超1亿美元的B轮融资,EQT Ventures、三星NEXT、Nistad集团、Sandwater、Skagerak Capital等参投。

在国内,也陆续有团队试图将LLM与机器人控制相融合。

此前,「甲子光年」独家获悉,北京大学前沿计算机研究中心助理教授、博士生导师董豪团队发布的最新具身大模型研究成果——ManipLLM的论文已被计算机视觉领域顶会CVPR 2024接收。

“我们的大模型重点是为了解决可泛化的物体操作。”董豪告诉「甲子光年」。简单来说,ManipLLM能让机械臂等机器人听懂人下达的任务命令,并根据其看到的图像,做出相应的动作完成任务。

同时,国内人形机器人领域的融资消息也接连不断。1月,星动纪元获得超亿元天使轮融资;2月,宇树科技拿下近10亿元B2轮融资,刷新赛道纪录。

不过,长久以来,人形机器人似乎一直都是“概念的高地,落地的洼地”——一边是技术畅想高举高打,一边是产业落地上无声无息。人们印象中关于人形机器人的画面,似乎就是在全球各大高校的实验室里奔跑、跳跃、翻跟头、搬箱子......

某种意义上,“落地难”似乎成为这条赛道所有创业者的“原罪”。

归根结底,人形机器人虽然乘着大模型、具身智能的新浪潮一路繁花似锦,但真正从实验室走向产线的过程中,人形机器人依然逃不过减速器、执行器、电机等机械结构的掣肘。机械结构的迭代并不遵守“摩尔定律”和Scaling law,更多是缓慢的线性变化。

不过,作为人工智能在现实世界的终极体现,人形机器人的未来依然值得期待,正如Figure AI所说:

“我们公司的征程将需要几十年的时间,我们面临着很高的风险和极低的成功机会。然而,如果我们成功了,我们有可能对人类产生积极影响,并建立地球上最大的公司。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“寻天”商标注册!小米欲成立汽车独立子品牌?官方未作回应

“寻天”商标注册!小米欲成立汽车独立子品牌?官方未作回应

每日经济新闻
2026-05-09 19:47:07
白打一轮!英超升级迎来大变革,四队零进球,全部都在“演戏”?

白打一轮!英超升级迎来大变革,四队零进球,全部都在“演戏”?

嗨皮看球
2026-05-10 00:35:15
套路一模一样!2026 年汉坦病毒刚露头,西方又准备好了老剧本

套路一模一样!2026 年汉坦病毒刚露头,西方又准备好了老剧本

魔都姐姐杂谈
2026-05-09 20:58:28
状态正佳,多库首次连场英超破门,曼城生涯首次连续3场进球

状态正佳,多库首次连场英超破门,曼城生涯首次连续3场进球

懂球帝
2026-05-10 02:05:27
4战国乒吞0-12!法国男团放话:中国队已不可怕 我们将首次赢他们

4战国乒吞0-12!法国男团放话:中国队已不可怕 我们将首次赢他们

风过乡
2026-05-09 17:29:03
产品为基,技术为擎,用户为本:红旗高质量发展三重奏

产品为基,技术为擎,用户为本:红旗高质量发展三重奏

大众侃车
2026-05-09 17:54:52
15.98万,真的疯了

15.98万,真的疯了

放毒
2026-05-09 18:53:10
热搜上引众怒“河北某夜市最不堪入目的一幕”:人性可以多丑陋?

热搜上引众怒“河北某夜市最不堪入目的一幕”:人性可以多丑陋?

小椰子专栏
2026-05-09 13:25:28
外卖小哥冒死冲进火场救火 被物业收取50元“灭火器使用费”

外卖小哥冒死冲进火场救火 被物业收取50元“灭火器使用费”

闪电新闻
2026-05-09 09:31:06
5月9日阅兵的俄罗斯,走向垃圾时间

5月9日阅兵的俄罗斯,走向垃圾时间

黔有虎
2026-05-09 16:22:09
人民日报发声:机关事业单位的隐性收入,正在消失

人民日报发声:机关事业单位的隐性收入,正在消失

细说职场
2026-05-09 12:16:27
申花球迷意难平!不止因为2-2憾平铜梁龙,更多在于以下这五点!

申花球迷意难平!不止因为2-2憾平铜梁龙,更多在于以下这五点!

田先生篮球
2026-05-09 22:11:34
台积电的美国亚利桑那厂已悄然失败,400亿美元烧完,良率不到日本厂一半

台积电的美国亚利桑那厂已悄然失败,400亿美元烧完,良率不到日本厂一半

风向观察
2026-05-09 13:29:53
果然出事了!特朗普访华遇重大分歧,中方提的要求被美方一口否决

果然出事了!特朗普访华遇重大分歧,中方提的要求被美方一口否决

精彩启程
2026-05-09 23:51:47
阿斯:阿韦洛亚开了上任以来最艰难的发布会,他一度眼含泪水

阿斯:阿韦洛亚开了上任以来最艰难的发布会,他一度眼含泪水

懂球帝
2026-05-09 21:38:55
病毒不在中国爆发,外媒全哑火了!外国网友:怎么还没人责怪荷兰

病毒不在中国爆发,外媒全哑火了!外国网友:怎么还没人责怪荷兰

混沌录
2026-05-09 14:54:10
特斯拉车主苦等多年,这个HUD终于把导航放回眼前

特斯拉车主苦等多年,这个HUD终于把导航放回眼前

闪存猎手
2026-05-09 01:01:43
抓了那么多贪官,钱呢?跟我们有关系吗?

抓了那么多贪官,钱呢?跟我们有关系吗?

细说职场
2026-05-08 22:15:45
昨日因果昨日了!这次马伊琍文章再合体,给内娱离异夫妻上了一课

昨日因果昨日了!这次马伊琍文章再合体,给内娱离异夫妻上了一课

天天热点见闻
2026-05-09 18:41:26
击败罗马尼亚,中国队晋级世乒赛女团决赛,将与日本队争冠

击败罗马尼亚,中国队晋级世乒赛女团决赛,将与日本队争冠

澎湃新闻
2026-05-09 20:58:27
2026-05-10 02:39:00
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
133349文章数 862150关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

多地号召,公职人员带头缴纳物业费

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

家居
时尚
手机
房产
军事航空

家居要闻

菁英人居 全能豪宅

伊姐周六热推:电视剧《喀什恋歌》;电视剧《低智商犯罪》......

手机要闻

华为Mate 90首发!鸿蒙7定档6月:和iOS安卓三分天下

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

军事要闻

美伊突然再次交火 伊朗外长:战争准备程度是1000%

无障碍浏览 进入关怀版