网易首页 > 网易号 > 正文 申请入驻

具身智能独角兽「星海图」新论文引热议,谢赛宁转评:最好和Yann LeCun的新作一起看

0
分享至

大数据文摘受权转载自头部科技

文丨丁灵波

今天,国内具身智能明星公司 星海图发表了一篇新论文, 星海图联合创始人兼首席科学家赵行发帖表示:最近对世界行动模型(WAM)的研究发现,WAM的核心优势不在于测试时对未来的“想象”,而在于训练时来自未来视频预测的监督。

该团队提出了Fast-WAM,它使推理变得简单、快速且以策略为中心。

赵行除了在公司任职,目前也担任清华大学交叉信息学院的助理教授、Mars lab主任;2026年2月,星海图完成10亿元B轮融资,截至本轮,该公司累计融资额近30亿元,估值达百亿级别。


这篇新论文引起了不少业内研究员关注和评论,AI圈知名青年学者、现任AMI联合创始人兼首席科学官的谢赛宁转发称:“ 最好与LeWorldModel论文一起阅读,别问我为什么。 ”

谢赛宁提到的“ LeWorldModel”是图灵奖得主、AMI创立者Yann LeCun最新发表的另一篇论文成果。

一起来看看,这两项最新研究都讲了什么。

比现有WAM快4倍以上

在目前的具身控制领域中,世界动作模型(WAMs)被视为替代视觉-语言-动作(VLA)模型的一种极具前景的方案。

现有大多数WAM均采用先想象后执行范式,迭代式视频去噪会产生显著的测试时延,然而,显式预测未来画面对实现优异动作性能是否必不可少,目前尚不明确。

星海图(Galaxea AI)团队在新论文中展开探讨:WAM在测试阶段是否需要显式的未来想象,其性能增益是否主要来自训练阶段的视频建模?


该团队提出了Fast-WAM架构,将训练阶段的视频建模与推理阶段的显式未来生成解耦——该架构在训练时保留视频联合训练,测试时则跳过未来预测环节,此外,还进一步设计了多种Fast-WAM变体,以实现对这两种因素的对照研究。


简单来说,Fast-WAM基于预训练的视频扩散变换器骨干网络和动作专家DiT构建。

在训练过程中,它联合学习动作预测和视频建模,从而使共享的视觉骨干网络获得更强的与世界相关的表征。

在推理阶段,Fast-WAM仅保留当前观测中干净的潜在标记,并利用视频主干网对其进行一次处理,然后直接生成动作,无需显式地对后续视频进行去噪,这消除了先想象后执行的WAM的主要运行时瓶颈。

实验结果表明:Fast-WAM的性能与“先想象后执行”类模型性能相当,而移除视频联合训练会导致性能大幅下降。



在无需具身预训练的条件下,Fast-WAM在仿真基准(LIBERO、RoboTwin)和真实世界任务上均取得了与当前最优方法可比的效果,该模型可实时运行,时延仅190毫秒,速度比现有先想象后执行的WAM4倍以上

而“先想象后执行”类变体则明显更慢,尤其是Fast-WAM-IDM时延高达810毫秒,这使得Fast-WAM成为更适合实际部署的优选方案,在保持出色任务性能的同时,大幅降低了推理开销。


通过在仿真与真实机器人基准上的对照实验(含有无视频联合训练的变体),该团队证明WAM中视频预测的主要价值,更多体现在训练阶段学习更优质的世界表征,而非测试阶段生成未来观测。

单GPU可跑的世界模型

而谢赛宁建议和Fast-WAM一起看的“LeWorldModel”是Yann LeCun近期署名的一篇新作,也是对他此前提出的联合嵌入预测架构(JEPA)的一种优化延展。


人工智能的核心目标之一,是研发能够在多样化任务与环境中习得技能的智能体,世界模型(WMs)被视为是一种颇具潜力的方法,一旦训练成功,世界模型能让智能体仅依靠自身构建的世界模型进行规划与自我提升,即在想象空间中完成学习。

这在离线学习场景下尤为重要:智能体只能从固定数据集中学习,无法与环境交互,可借助世界模型生成仿真经验,并评估反事实动作序列。

一种主流的世界模型学习方法便是联合嵌入预测架构(JEPA),JEPA并不试图建模环境的全部细节,而是专注于捕捉预测未来状态所需的最关键特征,尽管理念简洁,但现有JEPA方法极易发生表征坍缩,避免坍缩是训练JEPA模型的核心挑战之一

为突破这项挑战,该团队提出了LeWorldModel(LeWM),该方法首次实现了从原始像素端到端学习稳定的JEPA模型


值得关注的是,LeWM仅是一个1500万参数的紧凑模型,可在单张GPU上完成训练,大幅降低了相关研究的入门门槛。



研究人员在2D与3D环境中的各类操作、导航与运动任务上对LeWM进行了全面评估,并检验了模型对物理规律的直观理解能力,LeWM与基于基础模型的世界模型相比性能相当,但成本大幅更低,规划速度最高提升48倍


整体而言,LeWM为现有隐式世界模型方法提供了一种可扩展的替代方案,具备原理清晰的训练动态,以及可解释、可涌现的表征特性,论文最后也指明了几个重要研究方向:

1、目前基于隐式世界模型的规划仍局限于较短时域,层次化世界建模是解决长时域推理与规划的一个重要方向。

2、本方法仍依赖覆盖度足够的离线交互数据集,这类数据采集成本高、难度大,在大规模、多样化的自然视频数据集上进行预训练,有望提供更强的表征先验,并降低对领域专属数据的依赖。

3、当前端到端隐式世界模型依赖动作标签来预测未来状态,而动作标注同样获取成本高昂,一个可行方向是通过逆动力学建模学习未来动作表征,从而减少对显式动作标注的依赖。

结语:具身智能的技术拐点

业内人士分析认为,站在具身智能与人形机器人产业化的视角看,Fast-WAM和LeWM并不是两篇孤立的学术进展,而是世界模型从“概念验证”走向“真机落地”的关键拐点,世界模型驱动具身智能即将迈向新阶段。

前者解决了世界动作模型跑不起来、时延太高的致命问题,后者解决了JEPA世界模型训不出来、成本太高的工程死穴,一方面让WAM级别能力满足了真机实时控制的要求,另一方面,未来机器人可能不必再走“大模型暴力堆砌”的路线,轻量化世界模型同样可以具备出色的物理推理能力。

这些技术进展贴合机器人规模化落地需求,未来1–2年,更好用的新一代机器人大脑正在呼之欲出 。

GPU 训练特惠!

H100/H200 GPU算力按秒计费,平均节省开支30%以上!

扫码了解详情☝

点「赞」的人都变好看了哦!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
以色列人哭了:这不是该发生在劣等民族身上的吗?

以色列人哭了:这不是该发生在劣等民族身上的吗?

李荣茂
2026-03-23 18:59:00
NASA将在2028年底发射首艘核动力飞船前往火星

NASA将在2028年底发射首艘核动力飞船前往火星

NASA爱好者
2026-03-25 02:26:04
14亿人集体买房,为什么最后买出了一个烂摊子?

14亿人集体买房,为什么最后买出了一个烂摊子?

流苏晚晴
2026-03-25 18:14:02
传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

博士观察
2026-03-25 21:33:04
“重大转变”!外媒:特朗普改变立场,将接受民主党提议重启美国土安全部部分部门

“重大转变”!外媒:特朗普改变立场,将接受民主党提议重启美国土安全部部分部门

环球网资讯
2026-03-25 23:13:02
中国电信:全面转向token经营!

中国电信:全面转向token经营!

最通信
2026-03-25 20:45:14
伊朗政府信息委员会主席:15点停战协议是特朗普的“又一个谎言”

伊朗政府信息委员会主席:15点停战协议是特朗普的“又一个谎言”

界面新闻
2026-03-25 21:18:21
倒计时开始!特朗普将迎来终极翻车时刻!

倒计时开始!特朗普将迎来终极翻车时刻!

一个坏土豆
2026-03-25 20:56:19
斩首”让一将功成万骨枯成为历史

斩首”让一将功成万骨枯成为历史

昊轩看世界
2026-03-23 18:50:52
张雪峰6年前已离婚,独女张姩菡只能分16.5%遗产,现任妻子占大头

张雪峰6年前已离婚,独女张姩菡只能分16.5%遗产,现任妻子占大头

枫红染山径
2026-03-25 16:56:22
美国15条,自己和自己签的战败投降书!

美国15条,自己和自己签的战败投降书!

胜研集
2026-03-25 14:36:53
日本网民真怕了,呼吁严惩闯入中国使馆的暴徒,防止226事件再现

日本网民真怕了,呼吁严惩闯入中国使馆的暴徒,防止226事件再现

知法而形
2026-03-25 18:38:56
风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

大卫聊科技
2026-03-25 12:22:18
首次全流程展示!国产无人机蜂群作战系统震撼亮相

首次全流程展示!国产无人机蜂群作战系统震撼亮相

环球网资讯
2026-03-25 14:26:17
朝鲜去除宪法名称中“社会主义”一词

朝鲜去除宪法名称中“社会主义”一词

俄罗斯卫星通讯社
2026-03-24 15:25:04
宅基地“父改子”黄金窗口期!农村有儿子的抓紧,错过就亏大了

宅基地“父改子”黄金窗口期!农村有儿子的抓紧,错过就亏大了

三农雷哥
2026-03-25 17:58:07
曝张雪峰倒下30分钟后才被发现,饮食习惯糟糕,一口气吃8根雪糕

曝张雪峰倒下30分钟后才被发现,饮食习惯糟糕,一口气吃8根雪糕

古希腊掌管松饼的神
2026-03-25 11:08:46
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
张雪峰去世,他留下的10条志愿铁律,2026高考、考研依然封神

张雪峰去世,他留下的10条志愿铁律,2026高考、考研依然封神

寒律
2026-03-25 09:53:30
原来她是张雪峰前妻,90后历史学博士‌,两人离婚后曾一起上节目

原来她是张雪峰前妻,90后历史学博士‌,两人离婚后曾一起上节目

大铁猫娱乐
2026-03-25 13:03:57
2026-03-26 03:39:00
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6842文章数 94535关注度
往期回顾 全部

科技要闻

红极一时却草草收场,Sora宣布正式关停

头条要闻

伊朗:正在搜捕逃亡美军

头条要闻

伊朗:正在搜捕逃亡美军

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰遗产分割复杂!是否立遗嘱成关键

财经要闻

管涛:中东局势如何影响人民币汇率走势?

汽车要闻

智己LS8放大招 30万内8系旗舰+全线控底盘秀实力

态度原创

家居
亲子
旅游
公开课
军事航空

家居要闻

轻奢堇天府 小资情调

亲子要闻

11岁侄女发育过快引发关注,医生提醒未必是好事

旅游要闻

“女王驾到” 上海温室花园高山杜鹃展开幕,中外游客打卡点赞,Beautiful!Amazing!Fantastic!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗重申非交战国家船只可安全通过霍尔木兹海峡

无障碍浏览 进入关怀版