网易首页 > 网易号 > 正文 申请入驻

具身智能独角兽「星海图」新论文引热议,谢赛宁转评:最好和Yann LeCun的新作一起看

0
分享至


来源:大数据文摘受权转载自头部科技

丁灵波

今天,国内具身智能明星公司 星海图发表了一篇新论文, 星海图联合创始人兼首席科学家赵行发帖表示:最近对世界行动模型(WAM)的研究发现,WAM的核心优势不在于测试时对未来的“想象”,而在于训练时来自未来视频预测的监督。

该团队提出了Fast-WAM,它使推理变得简单、快速且以策略为中心。

赵行除了在公司任职,目前也担任清华大学交叉信息学院的助理教授、Mars lab主任;2026年2月,星海图完成10亿元B轮融资,截至本轮,该公司累计融资额近30亿元,估值达百亿级别。


这篇新论文引起了不少业内研究员关注和评论,AI圈知名青年学者、现任AMI联合创始人兼首席科学官的谢赛宁转发称:“ 最好与LeWorldModel论文一起阅读,别问我为什么。 ”

谢赛宁提到的“ LeWorldModel”是图灵奖得主、AMI创立者Yann LeCun最新发表的另一篇论文成果。

一起来看看,这两项最新研究都讲了什么。

比现有WAM快4倍以上

在目前的具身控制领域中,世界动作模型(WAMs)被视为替代视觉-语言-动作(VLA)模型的一种极具前景的方案。

现有大多数WAM均采用先想象后执行范式,迭代式视频去噪会产生显著的测试时延,然而,显式预测未来画面对实现优异动作性能是否必不可少,目前尚不明确。

星海图(Galaxea AI)团队在新论文中展开探讨:WAM在测试阶段是否需要显式的未来想象,其性能增益是否主要来自训练阶段的视频建模?


该团队提出了Fast-WAM架构,将训练阶段的视频建模与推理阶段的显式未来生成解耦——该架构在训练时保留视频联合训练,测试时则跳过未来预测环节,此外,还进一步设计了多种Fast-WAM变体,以实现对这两种因素的对照研究。


简单来说,Fast-WAM基于预训练的视频扩散变换器骨干网络和动作专家DiT构建。

在训练过程中,它联合学习动作预测和视频建模,从而使共享的视觉骨干网络获得更强的与世界相关的表征。

在推理阶段,Fast-WAM仅保留当前观测中干净的潜在标记,并利用视频主干网对其进行一次处理,然后直接生成动作,无需显式地对后续视频进行去噪,这消除了先想象后执行的WAM的主要运行时瓶颈。

实验结果表明:Fast-WAM的性能与“先想象后执行”类模型性能相当,而移除视频联合训练会导致性能大幅下降。



在无需具身预训练的条件下,Fast-WAM在仿真基准(LIBERO、RoboTwin)和真实世界任务上均取得了与当前最优方法可比的效果,该模型可实时运行,时延仅190毫秒,速度比现有先想象后执行的WAM快4倍以上

而“先想象后执行”类变体则明显更慢,尤其是Fast-WAM-IDM时延高达810毫秒,这使得Fast-WAM成为更适合实际部署的优选方案,在保持出色任务性能的同时,大幅降低了推理开销。


通过在仿真与真实机器人基准上的对照实验(含有无视频联合训练的变体),该团队证明WAM中视频预测的主要价值,更多体现在训练阶段学习更优质的世界表征,而非测试阶段生成未来观测。

单GPU可跑的世界模型

而谢赛宁建议和Fast-WAM一起看的“LeWorldModel”是Yann LeCun近期署名的一篇新作,也是对他此前提出的联合嵌入预测架构(JEPA)的一种优化延展。


人工智能的核心目标之一,是研发能够在多样化任务与环境中习得技能的智能体,世界模型(WMs)被视为是一种颇具潜力的方法,一旦训练成功,世界模型能让智能体仅依靠自身构建的世界模型进行规划与自我提升,即在想象空间中完成学习。

这在离线学习场景下尤为重要:智能体只能从固定数据集中学习,无法与环境交互,可借助世界模型生成仿真经验,并评估反事实动作序列。

一种主流的世界模型学习方法便是联合嵌入预测架构(JEPA),JEPA并不试图建模环境的全部细节,而是专注于捕捉预测未来状态所需的最关键特征,尽管理念简洁,但现有JEPA方法极易发生表征坍缩,避免坍缩是训练JEPA模型的核心挑战之一

为突破这项挑战,该团队提出了LeWorldModel(LeWM)该方法首次实现了从原始像素端到端学习稳定的JEPA模型


值得关注的是,LeWM仅是一个1500万参数的紧凑模型,可在单张GPU上完成训练,大幅降低了相关研究的入门门槛。



研究人员在2D与3D环境中的各类操作、导航与运动任务上对LeWM进行了全面评估,并检验了模型对物理规律的直观理解能力,LeWM与基于基础模型的世界模型相比性能相当,但成本大幅更低,规划速度最高提升48倍


整体而言,LeWM为现有隐式世界模型方法提供了一种可扩展的替代方案,具备原理清晰的训练动态,以及可解释、可涌现的表征特性,论文最后也指明了几个重要研究方向:

1、目前基于隐式世界模型的规划仍局限于较短时域,层次化世界建模是解决长时域推理与规划的一个重要方向。

2、本方法仍依赖覆盖度足够的离线交互数据集,这类数据采集成本高、难度大,在大规模、多样化的自然视频数据集上进行预训练,有望提供更强的表征先验,并降低对领域专属数据的依赖。

3、当前端到端隐式世界模型依赖动作标签来预测未来状态,而动作标注同样获取成本高昂,一个可行方向是通过逆动力学建模学习未来动作表征,从而减少对显式动作标注的依赖。

结语:具身智能的技术拐点

业内人士分析认为,站在具身智能与人形机器人产业化的视角看,Fast-WAM和LeWM并不是两篇孤立的学术进展,而是世界模型从“概念验证”走向“真机落地”的关键拐点,世界模型驱动具身智能即将迈向新阶段。

前者解决了世界动作模型跑不起来、时延太高的致命问题,后者解决了JEPA世界模型训不出来、成本太高的工程死穴,一方面让WAM级别能力满足了真机实时控制的要求,另一方面,未来机器人可能不必再走“大模型暴力堆砌”的路线,轻量化世界模型同样可以具备出色的物理推理能力。

这些技术进展贴合机器人规模化落地需求,未来1–2年,更好用的新一代机器人大脑正在呼之欲出 。

阅读最新前沿科技趋势报告,请访问21世纪关键技术研究院的“未来知识库”


未来知识库是 “21世纪关键技术研究院”建 立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告

(加入未来知识库,全部资料免费阅读和下载)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
歌手吴向飞喊话李荣浩道歉:未取得授权公开演唱其歌曲;李荣浩回应:并未在个人演唱会或音乐节晚会唱过,请列明场次,若侵权一定赔偿道歉

歌手吴向飞喊话李荣浩道歉:未取得授权公开演唱其歌曲;李荣浩回应:并未在个人演唱会或音乐节晚会唱过,请列明场次,若侵权一定赔偿道歉

极目新闻
2026-03-29 18:56:41
万科多名高管被带走,大清算开始了?

万科多名高管被带走,大清算开始了?

新浪财经
2026-03-30 01:51:44
特朗普:希望像“在委内瑞拉那样”,从伊朗“夺取石油”,与伊朗“可能”很快达成停火协议

特朗普:希望像“在委内瑞拉那样”,从伊朗“夺取石油”,与伊朗“可能”很快达成停火协议

每日经济新闻
2026-03-30 09:44:30
果然人长的漂亮,就是穿个拖鞋也是那么美

果然人长的漂亮,就是穿个拖鞋也是那么美

TVB的四小花
2026-03-30 00:33:27
巴曙松妻子失联,曾任中国人民银行领导

巴曙松妻子失联,曾任中国人民银行领导

新浪财经
2026-03-29 11:13:55
最惨白酒股!51元跌至1.7元,76人公司人均年薪180万,却面临退市

最惨白酒股!51元跌至1.7元,76人公司人均年薪180万,却面临退市

财经智多星
2026-03-29 17:36:52
张雪峰的灵车细节让人泪奔,车尾挂着一棵竹子,上面系着他的衣服

张雪峰的灵车细节让人泪奔,车尾挂着一棵竹子,上面系着他的衣服

魔都姐姐杂谈
2026-03-28 18:18:48
4月7日至12日 郑丽文将应邀率团访问大陆

4月7日至12日 郑丽文将应邀率团访问大陆

看看新闻Knews
2026-03-30 10:55:01
好友曝张雪峰遗容状态!化了妆像欧巴,黑眼圈遮不住,薛之谦发文

好友曝张雪峰遗容状态!化了妆像欧巴,黑眼圈遮不住,薛之谦发文

阿纂看事
2026-03-28 18:44:03
俄罗斯4人团队做的VPN,成了中国用户的救命稻草

俄罗斯4人团队做的VPN,成了中国用户的救命稻草

薛定谔的BUG
2026-03-28 11:13:03
快手财报解读:AI业务规模化初见雏形

快手财报解读:AI业务规模化初见雏形

豹变
2026-03-29 08:00:05
一盘未失加冕阳光双赛!辛纳横扫夺迈阿密冠军,一战创多项纪录

一盘未失加冕阳光双赛!辛纳横扫夺迈阿密冠军,一战创多项纪录

全景体育V
2026-03-30 07:39:18
伊朗外长:美以无法摧毁伊朗人民对知识的渴求

伊朗外长:美以无法摧毁伊朗人民对知识的渴求

新华社
2026-03-30 06:11:02
“黄毛的爹,酗酒的妈”,上海三口之家火了,只有孩子看着不叛逆

“黄毛的爹,酗酒的妈”,上海三口之家火了,只有孩子看着不叛逆

妍妍教育日记
2026-03-29 07:40:03
伊朗新任最高领袖为何从不露面?专家分析

伊朗新任最高领袖为何从不露面?专家分析

政知新媒体
2026-03-29 22:40:41
心源性猝死的人越来越多?医生强调:宁可打打牌,建议别做这7事

心源性猝死的人越来越多?医生强调:宁可打打牌,建议别做这7事

医学原创故事会
2026-03-29 23:50:13
25岁“天后”单依纯终于走到今天这步,李健6年前的预言应验了!

25岁“天后”单依纯终于走到今天这步,李健6年前的预言应验了!

八卦南风
2026-03-30 10:40:29
张凌赫团队急了?素颜热搜洗白失败遭群嘲,网友呼吁严查背后资本

张凌赫团队急了?素颜热搜洗白失败遭群嘲,网友呼吁严查背后资本

萌神木木
2026-03-29 16:02:23
痛心!张雪峰离世,他的电动车还停在公司楼下,静静地等待着主人

痛心!张雪峰离世,他的电动车还停在公司楼下,静静地等待着主人

魔都姐姐杂谈
2026-03-28 15:44:35
躺平是不可能了!四川网友晒157万存单,一年利息2.2万,日均60元

躺平是不可能了!四川网友晒157万存单,一年利息2.2万,日均60元

火山詩话
2026-03-29 10:18:39
2026-03-30 11:59:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4616文章数 37441关注度
往期回顾 全部

科技要闻

DeepSeek性能异常问题已解决,服务恢复

头条要闻

伊朗警告:美以军政人员住所将成为合法打击目标

头条要闻

伊朗警告:美以军政人员住所将成为合法打击目标

体育要闻

绝杀卫冕冠军后,他单手指天把胜利献给父亲

娱乐要闻

单依纯凌晨发长文道歉!李荣浩再回应

财经要闻

油价冲击,有些亚洲货币先扛不住了!

汽车要闻

理想i9要来了!外形似小号MEGA 能冲击高端纯电市场?

态度原创

艺术
健康
游戏
旅游
公开课

艺术要闻

600 年前的「产亡孤魂」,藏着中国女性最痛的记忆

干细胞抗衰4大误区,90%的人都中招

“政治正确”大作获M站84分全好评!媒体狂赞剧情

旅游要闻

贵州一景区突降冰雹,景区回应“游客嘴部被砸中”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版