网易首页 > 网易号 > 正文 申请入驻

开创VLA的那帮人,正在抛弃VLA

0
分享至

编辑 | 泽南

具身智能真的变天了?

上个星期, 明星创业公司 Generalist AI 发布的 GEN-1 模型,凭借在各项机器人任务中的极高成功率引发了行业震动。

GEN-1 在三个核心维度上都实现了跨越式提升:成功率超过 99%,速度提升 2-3 倍,只需要上代模型 1/10 的数据和微调,就能达到同样的性能表现。



Generalist AI 成立于 2024 年,核心愿景是让「通用型机器人」成为现实。凭借其极具潜力的技术路线,该公司在早期就获得了包括英伟达和 boldstart ventures 等机构的投资支持。

该公司的核心创始团队可谓豪华 ——CEO Pete Florence 来自 Google DeepMind,CTO Andrew Barry 来自波士顿动力,首席科学家 Andy Zeng 曾任 Google DeepMind 研究科学家。加入 Generalist 前,该公司的部分成员参与了 PaLM-E、RT-2 等模型的研发与发布,负责将 ChatGPT、GPT-4 规模化推广至数亿用户,或参与 Atlas、Spot、Stretch 等关键自动驾驶技术与机器人系统开发。

在 GEN-1 之前,他们推出的 GEN-0 模型已经验证了「物理交互数据可以转化为可预测、可扩展的机器智能」。

GEN-1 发布后,Generalist CEO Pete Florence 本周发布的一篇博客文章再次成为了社区讨论的热点。在文中,作者直指目前具身智能领域流行的 VLA(视觉 - 语言 - 动作)模型趋势。

作为 VLA 概念的共同开创者,他们现在却表示要「抛弃」VLA 乃至世界模型的标签定义,因为在他们看来,过于在意工具的标签,反而会限制通往物理 AGI 的想象力。

让我们看看他是怎么说的。



在 GEN-1 中,大约 99% 的参数是从零开始训练的。

在过去,这或许会被视为一种疯狂之举。但对于 Generalist 而言,这却是一个深思熟虑的抉择。这一决策源于我们坚定不移的信念 —— 我们为此已潜心耕耘两年之久 —— 即:只要拥有足够的数据,通过对基础模型保持完全的掌控权,便能以更快的步伐推动前沿技术的突破。

GEN-1 绝非那种仅仅生硬地「外挂」了机器人动作模块的微调版视觉 - 语言模型(VLM),它也不仅仅是一个单纯的「世界模型」。它是一个拥有「一等公民」地位、专为物理交互场景而原生构建的基础模型。越来越多的证据表明:只要具备充足的数据与算力,从零开始进行训练(training from scratch)始终是致胜之道。

在 2026 年初,「世界模型」正迎来属于它的高光时刻;而在 2023 至 2025 年间,风头正劲的则是「视觉 - 语言 - 动作模型」(VLA)。追逐热点与潮流,本就是学术研究领域的常态。

在 Generalist,我们从未将自家模型归类为 VLA 或世界模型。这绝非偶然。事实上,我们正是 VLA 概念的共同开创者之一;自 2023 年起,我们便持续在机器人领域发表关于世界模型的研究成果,而我们在这一领域的实际探索与耕耘,更是早在数年前便已启动。

既然如此,为何我们偏不给模型贴上标签呢?原因有三:首先,你的终极目标远比你所使用的「工具」标签本身更为重要;其次,正如你不会将所有的矩形都统称为正方形一样,概念的界定需要精准;最后,是因为技术供给侧的格局终将发生演变。接下来,我们将逐一深入剖析这三个层面的考量。

目标比工具上的标签更重要

首先也是最重要的是,目标比方法更具力量。几年前,John Schulman 在一篇对比「理念驱动」与「目标驱动」研究的文章中,对这一区别做出了精辟的阐述:理念驱动型研究往往追随潮流,致力于改进最新的技术方法;而目标驱动型研究则首先确立一个具体的预期成果,随后着手解决实现该成果过程中遇到的任何障碍。

这种区分至关重要,因为它不仅决定了你会构建出什么,更关键的是,它决定了你不会被哪些事物所干扰。正如 Schulman 所指出的 —— 这也是我本人的切身体会 —— 通常而言,目标驱动型路径往往更具成效。

当前围绕「世界模型」展开的讨论,本质上属于理念驱动型研究。诚然,这些技术本身确实令人振奋。但构建一个「世界模型」本身,或许并非真正的终极目标 —— 即便对于那些正投身于世界模型研究的科研人员而言,情况亦是如此。真正值得深思的问题在于:你的终极目标究竟是什么?

我们认为,一个极具价值且值得长期追求的目标,是实现机器人技术的「完全零样本」(Fully Zero-shot)能力:即让机器人能够以极高的成功率和运行速度,执行那些它们从未见过的各类任务,且在执行过程中,完全无需任何针对特定任务的训练数据。如果所涉任务种类繁多、复杂度极高且具有足够的应用价值,那么实现这一目标,便可被视为需要具备「完全物理通用人工智能」(Full Physical AGI)能力的标志。

不过,在此终极目标达成之前,我们还可以设定一系列具体的阶段性里程碑,从而构建一条循序渐进的进阶路径:与其一步到位追求「完全零样本」,不如先允许为特定任务(姑且称之为任务 X)提供少量机器人训练数据,并确保机器人能以极高的性能水平完成该任务。

如此一来,目标驱动型的研发路线图便清晰可见:在持续提升任务执行性能的同时,逐步削减所需训练数据量 X。假如我们能仅凭大约一小时的机器人训练数据,便在各类任务中普遍实现 99% 以上的成功率,那么这项技术将具备广阔的商业应用前景。这便是一个具体、可量化且完全独立于具体技术方法之外的「目标驱动型」里程碑。

此外,正如我此前的经验所印证的那样:在科研工作中,若能确立既具体又充满雄心的目标,往往能起到事半功倍的效果:它将成为一个强有力的跳板,引领研究工作向更广阔的领域拓展。

奇妙的是,这种做法往往比单纯选择某种「看似能解决各类问题」的技术方法要有效得多。一个典型的例证便是:最早问世的多模态语言模型之一,其最初的研发初衷正是为了服务于一项特定的机器人技术目标。然而,在随后的评估测试中,该模型却在医疗诊断等一系列基准测试中展现出了卓越的性能。

这一成果的诞生,正是源于一种「凡是解决问题所需,皆全力以赴」的务实心态,而非那种死守某种特定技术方法不放的僵化思维。相反,以目标为导向能赋予你灵活性,让你得以考量任何有助于达成目标的方法。

我们究竟能走多远?

其次,若仅通过「非此即彼」(or)的问题(例如必须严格在方法 A 和方法 B 之间二选一)来框定机器学习,这种做法是具有局限性的。更深层的真谛在于去追问:「我们究竟能走多远?」或者更进一步,去对既定目标与约束条件建立更为深刻的理解。

人们往往很自然地认为,事物必须被归入特定的类别,或者在多种方法或资源来源中必须「择其一」而用之。几乎每一个学科都可能陷入这种思维陷阱。举几个贴近现实的例子:在机器人学发展的早期阶段,曾流行着这样一种观点 —— 研究者必须在「感知」与「控制」这两大领域中择一深耕。

又如在 2020 年代初期,许多 AI 公司的产品经理曾普遍认为,每一个细分应用场景都注定需要一套专属的定制模型,却未能意识到「大规模协同训练」(cotraining)所能带来的巨大收益。

然而,真正值得探究的问题其实是:在既定的约束条件下,我们究竟能实现怎样的突破?我们究竟能走多远?而在这些约束条件中,又有哪些是可以被打破或消除的?我们究竟能走得多远?举一个具体的例子:著名的 Chinchilla 论文正是这种思维理念结出的硕果,它不仅荣获了 NeurIPS 大会的「杰出论文奖」,更在工业界产生了立竿见影的巨大影响。



在绝大多数情况下,一个「非此即彼」(or)的问题,往往可以转化为一个「兼而有之」(and)的问题;随后,这个问题又可进一步转化为「各类成分应各占多少比例」的配比问题;最终,它将升华为一个关于宏大目标与核心约束条件的深层探究。

在过去两年间,我们正是秉持着这一理念,对自身的训练方法进行了持续的迭代与优化。在过去一年多的时间里,我们一直在积极尝试融合来自不同领域的思想 —— 涵盖了所谓的「视觉语言动作模型」(VLA)、「世界模型」(World Models),乃至更为前沿的探索方向。当一个模型所融合的跨学科能力越丰富,将其强行归入某一特定类别也就越发困难。

归根结底,真正具有决定性意义的唯有一点:它究竟能带我们走多远?

视觉-语言模型只是一根「拐杖」?

第三,供给侧将会发生变化。你不仅要考量当前的制约因素,更要思考这些制约因素将如何不可避免地发生演变。制约因素变化得越快,这一点就显得愈发重要。

有人指出,当前的一个制约因素在于机器人领域的数据量尚不充裕。但这并非一种具有长远眼光的观点。如今,随着我们掌握了超过 50 万小时的物理交互数据,我们已能够摆脱这一制约,去探索更深层的问题。

同理,将「视觉 - 语言」训练引入机器人领域,其背后的一大动因正是因为机器人领域自身的数据积累尚显不足。因此,从某种意义上讲,在机器人数据尚未充裕的过渡期内,所有的「视觉 - 语言」训练都可以被视为一种有益的「拐杖」。诚然,世间现存的视频数据(以字节计)确实远多于语言数据,但归根结底,它依然只是一根「拐杖」。那么,当不再需要这根「拐杖」时,下一步该走向何方?届时,你还会想要依赖这根「拐杖」吗?

迈向物理 AGI

目标的力量远胜于具体的方法;我们应当在既定的制约条件下寻求最优解,而非局限于既有的类别划分中去「选赛道」;况且,这些制约因素本身也是注定会发生变化的。

自 Generalist 成立之初,我们便始终致力于对一切进行彻底的重构与反思,旨在推动具身通用人工智能(Physical AGI)的实现。正是基于这一理念,我们打造出了 GEN-1—— 这是一个完全从零开始训练的模型,其训练所依据的正是我们所拥有的(亦是全球规模最大的)物理交互数据集。无论是模型的架构设计、训练流程,还是推理执行机制,其每一个环节都经过了精心设计与反复迭代;在这一过程中,我们完全摆脱了那些由他人出于不同目的而预设的决策框架所带来的束缚。

我们已向世人展示了该模型所具备的惊人潜能 —— 从机器人领域的 Scaling Laws,到仅需数小时便能泛化适应全新环境与具身形态的能力,再到通过大规模预训练所涌现出的即兴智能…… 而这一切,仅仅是一个开端。

参考内容:

https://x.com/peteflorence/status/2041529286562402804

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新娘确实漂亮,但我更喜欢戴眼镜那个。

新娘确实漂亮,但我更喜欢戴眼镜那个。

动物奇奇怪怪
2026-04-12 12:44:36
白天作陪晚上同宿?明码标价8000一回!高端伴游沦为色情交易窝点

白天作陪晚上同宿?明码标价8000一回!高端伴游沦为色情交易窝点

网络易不易
2026-01-20 10:17:46
胜山西更衣室!沈梓捷廖三宁直指金鑫重要性,朱松玮寄语延续能量

胜山西更衣室!沈梓捷廖三宁直指金鑫重要性,朱松玮寄语延续能量

篮球资讯达人
2026-04-14 00:35:11
郑丽文回台后,收到三个坏消息,马英九表态:萧旭岑案会一查到底

郑丽文回台后,收到三个坏消息,马英九表态:萧旭岑案会一查到底

原来仙女不讲理
2026-04-13 16:58:29
名记晒清晰视频,实锤廖力生与韦世豪私聊内容,国安上诉再遭打击

名记晒清晰视频,实锤廖力生与韦世豪私聊内容,国安上诉再遭打击

体坛野秀才
2026-04-13 15:06:20
这TM状元秀?被布朗尼爆了...

这TM状元秀?被布朗尼爆了...

左右为篮
2026-04-13 12:34:27
总经理王莉被带走调查?贵州茅台回应:工作安排外出学习两个月,将于5月初返回

总经理王莉被带走调查?贵州茅台回应:工作安排外出学习两个月,将于5月初返回

澎湃新闻
2026-04-13 17:32:26
“8小时红线,天塌了”:网约车司机的新规焦虑,到底该怎么解?

“8小时红线,天塌了”:网约车司机的新规焦虑,到底该怎么解?

一丝不苟的法律人
2026-04-12 16:18:58
事关伊朗,特朗普给了中国两条路,王毅二话不说,马上给俄发邀请

事关伊朗,特朗普给了中国两条路,王毅二话不说,马上给俄发邀请

吃货的分享
2026-04-13 19:53:43
比亚迪财务总监周亚琳,年薪1013.5万元!比王传福高近200万元,成A股首位年薪破千万的财务掌门人

比亚迪财务总监周亚琳,年薪1013.5万元!比王传福高近200万元,成A股首位年薪破千万的财务掌门人

新浪财经
2026-04-13 13:51:13
孕妇买200元水果被丈夫骂后续:已去医院终止妊娠,坦言及时止损

孕妇买200元水果被丈夫骂后续:已去医院终止妊娠,坦言及时止损

揽星河的笔记
2026-04-13 23:24:13
黄灿灿取关《浪姐》官微!网友:这是跟节目组彻底撕破脸了?

黄灿灿取关《浪姐》官微!网友:这是跟节目组彻底撕破脸了?

情感大头说说
2026-04-12 22:05:41
广东珠海一女神好漂亮, 身高179cm,体重50kg 美的让人移不开眼

广东珠海一女神好漂亮, 身高179cm,体重50kg 美的让人移不开眼

今日搞笑分享
2026-04-06 17:55:16
巩立姣瘦了40斤!早前称“已有心仪对象要减重”

巩立姣瘦了40斤!早前称“已有心仪对象要减重”

南方都市报
2026-04-13 21:23:02
无语了,马刺队文班亚马的出场时间被用来佐证65场规则的荒谬之处

无语了,马刺队文班亚马的出场时间被用来佐证65场规则的荒谬之处

好火子
2026-04-13 23:57:44
非国家工作人员受贿行贿入罪门槛降低!5月1日将迎最严反腐新规

非国家工作人员受贿行贿入罪门槛降低!5月1日将迎最严反腐新规

新快报新闻
2026-04-13 20:40:09
花6000元雇演员扮爹妈!上海女子两个月内结了两次婚,生下的孩子却是第三个男人的……

花6000元雇演员扮爹妈!上海女子两个月内结了两次婚,生下的孩子却是第三个男人的……

环球网资讯
2026-04-13 21:24:19
日本降级对华关系,不到12小时,53条航线全部取消,高市沉默不语

日本降级对华关系,不到12小时,53条航线全部取消,高市沉默不语

小正说娱乐
2026-04-12 13:43:02
出生39天,生母陈宝莲就自杀,如今戴耳钉、纹纹身走上“不归路”

出生39天,生母陈宝莲就自杀,如今戴耳钉、纹纹身走上“不归路”

林轻吟
2026-04-13 19:48:49
马扎尔要改宪法:总理最多任职两届,欧尔班这次可能真回不来了

马扎尔要改宪法:总理最多任职两届,欧尔班这次可能真回不来了

桂系007
2026-04-13 21:48:35
2026-04-14 01:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12751文章数 142624关注度
往期回顾 全部

科技要闻

"抄作业"近四年,马斯克版微信周五上线

头条要闻

上海女子2个月内结2次婚 生下的孩子却是第3个男人的

头条要闻

上海女子2个月内结2次婚 生下的孩子却是第3个男人的

体育要闻

一支球队不够烂,也是一种悲哀

娱乐要闻

初代“跑男团”合体,邓超、鹿晗缺席

财经要闻

谈判未完全关闭?3国力促美伊重启谈判

汽车要闻

不止命名更纯粹 领克10/10+要做纯电操控新王

态度原创

房产
本地
旅游
健康
公开课

房产要闻

6000亿投资盛宴,全球巨头齐聚,海南又要干件大事!

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

旅游要闻

世博文化公园繁花竞放,解锁上海春日限定浪漫

干细胞抗衰4大误区,90%的人都中招

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版