![]()
![]()
出品|搜狐科技
作者|常博硕
编辑|杨 锦
近日,AI机器人公司Generalist发布了GEN-0,一个参数量超过10B的具身基础模型。作为首个验证了具身智能规模定律(Embodied Scaling Law)的机器人通用基础模型,GEN-0的发布也被誉为机器人领域的“ChatGPT时刻”。
模型一经发布便引起了大量讨论,更有业内人士认为,这标志着机器人行业的一个关键转折点,行业正从主要依赖于模拟训练或专门工程控制的“仿真时代”,迈向一个由大规模真实世界数据驱动的时代。![]()
![]()
海量真实数据
一步踏入Scaling Law
GEN-0是由美国机器人公司Generalist AI推出的一类具身基础模型。它与大语言模型类似,是一个多模态模型,但专门针对机器人执行物理任务而设计。
GEN-0继承了视觉-语言模型的优势,同时原生支持感知与动作输出,可以捕捉人类级别的反射行为和物理常识。在官方演示中,机器人能自主完成从拿取托盘、清洁、取放零件、封装的长时序操作,整个过程无需人工分步指令,一气呵成。
![]()
在训练上,GEN-0的预训练直接使用的是真实世界的高保真物理交互数据,而不依赖仿真环境或人类示范视频去做训练。
目前,Generalist已经构建了一个前所未有的真实世界操作数据集,总时长超过27万小时,每周新增数据超过1万小时。对27万小时数据量没有概念的话,可以参考这张官方发布的对比图,对比了和目前国外一些公司训练数据规模的差异。
![]()
不仅如此,这个数据集涵盖了数千种任务与场景,从家庭厨房的削土豆,到工厂车间的拧螺丝、包装组装,从商店架上的拿取物品,到快餐店的操作,每种任务都有海量真实轨迹记录。
这样的训练数据,使得模型学到的不是理想状态下的动作,而是如何在滑动、遮挡、光照变化等扰动下完成任务。官方表示,他们发现数据质量和多样性比绝对数量更关键,混合不同任务和环境的数据能让模型学到更有用的技能。
同时据官方称,这种高数据量已经揭示了两个迄今为止业界一直未能发现的关键结论。
目前,机器人领域的基础模型其实主要基于视觉-语言预训练,这样也就意味着可以将现有的多模态模型的语义泛化优势迁移过来。但是,机器人模型Scaling Law问题一直是业界难题,也就是说目前还没有一种很好的方式或者研究可以证明机器人的智能确实能随着算力和数据的增加而持续提升。
但是Generalist在这方面取得了突破,这也是行业对其赞不绝口的重要原因之一。
第一是GEN-0首次在机器人领域实验证明了规模定律(Scaling Law)的适用性,即随着模型和数据规模的增加,性能遵循可预测的幂律关系持续提升。
研究团队从不同规模的预训练模型出发,对语言条件下的16个任务集进行微调,结果显示更多预训练数据始终带来更低的后训练误差。这种可量化的关系也让人们能够估算要达到特定性能水平需要多少数据和算力,为机器人研发提供了明确路线。
北京大学人工智能研究院陈宝权教授在朋友圈感叹:“这个Generalist‘通才’具身基础大模型相当重磅! 如此,scaling law继续高歌猛进!”
除此之外,GEN-0的研究团队发现,机器人智能存在清晰的“相变阈值”。当模型规模不足时,即使增加数据,性能也会停滞不前,但一旦超过阈值,性能则开始呈指数级提升。下图直观地展示了这一现象:1B参数(蓝线)模型在训练初期便出现固化(误差不再下降),而6B(绿)和7B(黄)模型随着算力和数据的增加持续改进。
![]()
官方表明,7B参数是这一阈值的关键点,低于7B的模型难以消化海量物理交互数据,表现出学习停滞,超过7B后,模型能有效内化更多经验,并只需极少的后训练就能适应新任务。
Generalist 的实验表明,物理世界中的智能在算力方面可能有一个更高的激活阈值。这一发现也印证了莫拉维克悖论,很多人类看来轻而易举的感知和操作,反而需要更高的计算复杂度。
GEN-0还有一个核心架构创新,叫作和谐推理(Harmonic Reasoning)。传统机器人通常会将规划与执行拆分为两个阶段,但放在实时物理环境中,这种操作存在一个根本性问题:物理世界不会暂停等待决策。
对于语言模型来说,在回应前花更多时间思考是可以接受的,但对于在现实世界中行动的机器人而言,一个思考时间过长的机器人就显得尤为奇怪了。
为此,GEN-0采用了一种很新颖的训练方法,使模型能够在连续的时间流中同时处理感知输入和动作输出。可以理解为,模型还在观察的同时就开始规划动作,这种设计为机器人创造了感知和执行之间一种比较和谐的互动。
通过这种方式,GEN-0无需依赖常见的“系统1-系统2”架构或预先规划模块,就可以扩展到非常大的规模,支持复杂物理场景中的实时决策,也让机器人能够更接近人类的反应方式,显著提高了在动态环境中的鲁棒性。
![]()
神秘的具身独角兽
这家神秘的公司Generalist AI,是美国硅谷一家机器人初创公司,官网表示公司愿景是做通用机器人和具身基础模型。
Generalist AI首次闯入人们的视野其实是在今年3月召开的英伟达GTC的一个小组讨论会上。当时,谷歌 DeepMind 高级研究科学家、RT-2的作者皮特·弗洛伦斯(Pete Florence)以 Generalist AI联合创始人兼首席执行官的身份出席了该会议。
今年六月,皮特在社交媒体上公开表示,自己去年春天离开了谷歌DeepMind,之后一直与一支新的出色团队埋头苦干。
![]()
Pete本科就读于普林斯顿大学攻读化学专业,毕业后并未延续化学方向,而是转向剑桥大学,攻读物理硕士,并于2013年获得学位,但化学与物理并未成为他的研究终点。
2014年,Pete加入MIT的计算机科学与人工智能实验室(CSAIL),在Russ Tedrake教授领导的Robot Locomotion实验室攻读博士。
在创业之前前,Pete曾在Google DeepMind担任高级研究科学家,参与了大部分具身与大模型相关的大型项目,其中包括谷歌于2023年发布的多模态具身视觉语言模型PaLM-E以及全球首个视觉-语言-动作模型RT-2。
Andy Barry是Generalist AI的联合创始人兼CTO。他本科毕业于富兰克林·W·奥林工程学院,此后便在MIT计算机科学与人工智能实验室(CSAIL)直博,获得机器人学博士学位。
Andy和Pete其实是同门师兄弟,两人都是Russ教授的得意门生,也因此结缘。在Generalist AI之前,两人还曾一起创立过一家教育工坊(workshop)“STAGE ONE EDUCATION”,专门用以通俗易懂的方式教小孩子最基础的计算机知识。
在加入Generalist AI之前,Andy曾在波士顿动力公司担任高级机器人科学家,期间还参与了Spot机器狗的机械臂项目研发。
另一位联合创始人兼首席科学家是Andy Zeng,曾任Google DeepMind的研究科学家及技术负责人,具身智能领域颇有建树的华人代表。
Andy本科以数学与计算机双学位毕业于加州大学伯克利分校。随后,他前往普林斯顿大学攻读计算机科学博士,研究方向集中于机器人操作、机器学习与计算机视觉的交叉融合。
他与创始人Pete Florence相识于谷歌。Andy早在2018年就进入Google实习,两人至今已联合发表超过17篇论文。
就领英和推特信息来看,Generalist AI核心团队的其他成员绝大多数都毕业于顶尖高校并极具行业经验,不少人曾在OpenAI、Google DeepMind、波士顿动力、特斯拉等机构担任关键角色,研究背景涵盖从大模型训练、强化学习研究到机器人控制系统开发等。
创始人Pete Florence曾说:“我们的目标非常坚定,就是要造出能够做任何事情的机器人。”有业内从业者对搜狐科技表示,在他看来Generalist AI极具野心,未来很有可能涉足机器人硬件和本体。
至此,具身赛道又迎来了一位野心勃勃的新玩家。
![]()
![]()
运营编辑 |曹倩审核|孟莎莎
![]()
![]()
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.