网易首页 > 网易号 > 正文 申请入驻

Nvidia都在点赞的LoopWM世界模型,竟然来自一家中国初创FaceMind

0
分享至



在世界模型这条路上,行业一直卡在一个几乎无解的矛盾里:想要更真实的长程模拟,就必须给模型更深的计算;可一旦把模型做得更深,部署成本、参数规模和误差累积又会迅速抬头。结果就是,大家都知道世界模型要 “想得更久”,却很难让它在现实系统里 “算得起、跑得稳”。

脸谱心智的这份技术报告想解决的,正是这个老问题。为此,他们提出了 Looped World Model (LoopWM):一种面向世界建模的循环式架构。它不靠无止境地堆参数来换能力,而是让同一个参数共享的 Transformer 模块在潜空间里反复迭代,对环境状态进行逐步精炼。换句话说,不是简单把模型 “做大”,而是让模型在关键时刻 “多想几轮”。

如果把这件事说得更直白一点:传统世界模型更像是一锤子买卖 —— 每个状态转移都分配固定计算量,不管这个转移是简单还是复杂;而 LoopWM 想做的,是让模型拥有一种 “按需思考” 的能力。简单步子少算一点,复杂步子多算几轮,把计算真正花在需要它的地方。



  • 论文标题: Looped World Models
  • 论文类型: Technical Report
  • 论文链接: https://arxiv.org/abs/2606.18208
  • PDF: https://arxiv.org/pdf/2606.18208

核心结论:通过参数共享的循环 Transformer 块迭代优化潜状态,LoopWM 将 “迭代潜深度” 引入为世界模型新的 scaling axis,并在保持稳定长程 rollout 的同时,实现最高可达100× 参数效率

Looped World Models:脸谱心智到底做了什么?

LoopWM 的整体架构并不花哨,但非常明确:它由观测编码器、动作嵌入器、循环动力学核心,以及预测头四部分组成。真正关键的是中间这套Looped Dynamics Core。脸谱心智把它拆成了三个部分:Prelude、Recurrent Block 和 Coda。Prelude 负责把前一时刻状态、当前观测和动作先整理成适合推理的表示;Recurrent Block 是核心,负责用同一组共享参数反复更新潜状态;Coda 则在循环结束后,把最终的潜表示整理成可供预测头解码的输出。



这里最重要的变化,是脸谱心智把 “模型深度” 从参数层面解耦出来了。传统更深的模型,往往意味着更多层、更多参数、更多显存和更高推理成本;而在 LoopWM 里,更深的计算不再必然对应更大的模型,因为脸谱心智是在重复使用同一个块。这让 “计算深度” 第一次可以作为一种相对独立的扩展维度存在,而不必总是绑定在参数膨胀上。

第一层关键:不是多堆层,而是反复 “打磨” 潜状态

世界模型最怕的,不是某一步预测稍微错一点,而是这个误差一路滚下去,最后把整条轨迹带偏。LoopWM 的思路是,不把下一状态看成 “一次前向传播立即拍板” 的结果,而是把它看成一个可以在潜空间里逐步逼近、不断修正的对象。循环式更新的价值就在这里:它让模型能够把一次状态转移,当成一个需要多步精炼的计算过程,而不是一次性决定的输出。

这件事听上去像工程技巧,实质上却触到了世界建模的核心。真实环境的演化本来就不是 “一步到位” 的,它更像是某种稳定规律被持续施加的结果。LoopWM 借由共享更新算子反复作用于潜状态,某种程度上让模型的计算图,和环境动力学的迭代结构更接近了。

第二层关键:循环可以很强,但前提是必须稳定

循环模型的美妙之处,在于它能反复推;循环模型最危险的地方,也在于它能反复推。因为只要状态更新稍有失控,隐藏状态就可能在多轮迭代中迅速爆炸。为了解决这个问题,脸谱心智在 LoopWM 里加入了谱稳定性约束。具体来说,脸谱心智对状态保持矩阵做了特殊参数化,使其特征值被限制在稳定区间内,从而保证循环更新在数值上是收缩的,而不是发散的。

这一步的意义,不只是 “训练更稳” 这么简单。它实际上为长程 rollout 提供了一个底层保证:即使内循环次数增加,潜状态也不会轻易失控。对于世界模型而言,这种稳定性非常关键,因为长时间模拟最怕的不是局部误差,而是误差在不断自回归中被层层放大。

第三层关键:让解码别太勤快,先在潜空间里把事情想明白

除了循环本身,脸谱心智还提出了一个很实用的设计:Deferred Decoding。直白说,就是在多步 rollout 时,不再每走一步都急着把潜状态还原成观测,而是先在潜空间里连续推演,等到真正需要输出的时候再做解码。



这背后的逻辑很朴素:如果模型每一步都要把内部状态翻译回显式观测,它的计算就会被频繁打断,推理成本也会上去。而延迟解码让模型可以把更多精力放在潜空间中的长期结构建模上。论文实验也表明,随着 rollout 步数增加,Deferred Decoding 的收益会更加明显,它不是一个 “锦上添花” 的小优化,而是长程推演能力中的关键拼图之一。

第四层关键:不是所有状态都值得算一样久

LoopWM 还有一个很重要的能力,是early exit。模型在推理时可以通过一个轻量门控机制,动态判断当前状态是否已经 “想够了”。如果一个转移足够简单,模型就提前结束循环;如果是更复杂的交互,比如需要更精细的状态修正,就继续多迭代几轮。



这意味着,LoopWM 不仅把计算深度变成了新扩展轴,还让这条轴具备了自适应属性。它不是对所有输入一视同仁地加算力,而是让不同难度的状态转移匹配不同的计算预算。放在真实部署里,这种 “按复杂度付费” 的计算方式,比固定深度模型更有现实意义。

结果说明了一件事:世界模型的 scaling,不只有 “做大” 这一条路

在实验部分,脸谱心智把 LoopWM 放到了ScienceWorldAlfWorld等任务环境中进行评估,并与多种强基线做比较,包括Claude-opus-4-6-max、Qwen-3.5-flash、Gemini-3-flash-preview-thinking等模型。

结果很直接。在 ScienceWorld 上,约1B 参数规模的 LoopWM 取得了68.4% EM、85.3% Token F1、80.7% BLEU-4、83.9% Entity的成绩,整体上显著超过了Claude-opus-4-6-max 的 47.2% EM 和 72.8% F1。更值得注意的是,在Lifespan这样的任务上,论文报告 LoopWM 将得分从0% 提升到 100%。这不是那种 “边角料式” 的改善,而是说明循环潜深度对某些长程推理场景,可能确实带来了结构性收益。

在 AlfWorld 上,LoopWM 也拿到了51.6% EM、80.4% Token F1、71.6% BLEU-4,并在 BLEU 指标上表现突出。更关键的是,这些结果不是靠一个超大闭源模型换来的,而是在约 1B 参数量级上实现的。换句话说,论文真正想证明的,不只是 “我脸谱心智又把榜单刷高了一点”,而是:在世界模型里,参数效率和模拟质量未必天然对立

真正值得关注的,不是 “100× 参数效率” 这句口号本身

论文摘要里最吸睛的一句话,是 LoopWM 相比传统做法最高可实现100×参数效率。这当然很亮眼,但我认为更值得行业认真看的,其实是背后的方法论:世界模型也许需要一条不同于语言模型 “堆参数、堆数据” 的扩展路径

过去我们谈 scaling,通常只盯着两件事:模型有多大、数据有多少。LoopWM 提出的,是第三个方向 ——迭代潜深度。它与参数规模、训练数据规模正交,意味着即便在参数预算有限的情况下,模型仍可能通过更合理的内部计算过程获得能力提升。这一点对资源受限部署尤其关键,因为它提供的不是 “更贵的上限”,而是 “更聪明的计算方式”。

这篇技术报告最后想回答的问题其实很简单

如果你把世界模型理解成 “一个学习环境规律、并在内部复现环境演化的系统”,那么它不应该只会更快地输出答案,它还应该会在需要的时候多做几轮内部推演。LoopWM 的意义,就在于把这种能力从直觉变成了架构。它首次把 looped transformer 真正带进世界建模,把 “共享参数 + 迭代精炼 + 稳定循环 + 自适应计算” 组合成了一套完整方案。

这项工作提供的,不只是一个新模型,更是一种新的看法:世界模型的未来,不一定是永远更大;也可能是让同样的参数,学会更有层次地思考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
意外!申花久违的外援有可能在下一周复出亮相,深受斯卢茨基器重

意外!申花久违的外援有可能在下一周复出亮相,深受斯卢茨基器重

冷桂零落
2026-06-29 18:45:37
心跳决定寿命?研究发现:心率超过这个数,或致死亡风险飙升!

心跳决定寿命?研究发现:心率超过这个数,或致死亡风险飙升!

名医在线网
2026-06-27 16:05:03
电影《四渡》票房破7000万

电影《四渡》票房破7000万

界面新闻
2026-06-28 10:55:42
完美适配文班亚马!马刺全力争抢湖人季后赛爆发的2700万侧翼

完美适配文班亚马!马刺全力争抢湖人季后赛爆发的2700万侧翼

夜白侃球
2026-06-28 23:00:39
民众疯抢空调,政府不准,热死也不能买?徳媒怒斥中国正摧毁欧洲

民众疯抢空调,政府不准,热死也不能买?徳媒怒斥中国正摧毁欧洲

嫹笔牂牂
2026-06-29 11:35:39
CBA一夜双炸!山东男篮大手笔引援,韩硕成为北控队教练

CBA一夜双炸!山东男篮大手笔引援,韩硕成为北控队教练

论事的老枢
2026-06-29 11:07:27
中纪委再出大招!公务员这4类行为将被大数据盯死,沾上就完蛋!

中纪委再出大招!公务员这4类行为将被大数据盯死,沾上就完蛋!

细说职场
2026-06-29 15:42:13
罗马里奥:我非常尊重C罗,他是有史以来最伟大的球员之一

罗马里奥:我非常尊重C罗,他是有史以来最伟大的球员之一

懂球帝
2026-06-29 12:09:50
他690分考入北大,大学沉迷游戏被北大劝退,复读712分考入清华,如今发展如何?

他690分考入北大,大学沉迷游戏被北大劝退,复读712分考入清华,如今发展如何?

大爱三湘
2026-06-28 20:37:38
1.5T增程卖百万?这辆被全网嘲笑的车,9个月连续销冠

1.5T增程卖百万?这辆被全网嘲笑的车,9个月连续销冠

大佬灼见
2026-06-26 22:21:51
Here we go!罗马诺:朗格莱加盟本菲卡,双方将签约三年

Here we go!罗马诺:朗格莱加盟本菲卡,双方将签约三年

懂球帝
2026-06-29 01:10:12
韩媒:中国媒体称韩国足球“沦为笑柄”,身为世界劲旅却“心存傲慢”

韩媒:中国媒体称韩国足球“沦为笑柄”,身为世界劲旅却“心存傲慢”

林子说事
2026-06-29 10:31:08
凌晨没回家长消息被骂"装什么装",老师第二天搬出法条,网友炸了

凌晨没回家长消息被骂"装什么装",老师第二天搬出法条,网友炸了

教育人看世界
2026-06-25 21:23:27
看完阿根廷3-1约旦!不得不承认的5个事实,梅西再刷史诗级纪录!

看完阿根廷3-1约旦!不得不承认的5个事实,梅西再刷史诗级纪录!

小青年渌渌
2026-06-28 20:07:17
吴月娘:我这浪肉,被男人摸一下真好

吴月娘:我这浪肉,被男人摸一下真好

老达子
2026-06-26 06:50:03
田中斗莉王:日本队正走在正确的道路上;日本巴西谁赢我都接受

田中斗莉王:日本队正走在正确的道路上;日本巴西谁赢我都接受

懂球帝
2026-06-29 05:45:08
穆里尼奥半路截胡!皇马抢世界杯天才,利物浦 1.2 亿报价悬了

穆里尼奥半路截胡!皇马抢世界杯天才,利物浦 1.2 亿报价悬了

澜归序
2026-06-29 06:48:42
在派出所能听到多少八卦?网友:一个比一个狗血

在派出所能听到多少八卦?网友:一个比一个狗血

另子维爱读史
2026-06-27 22:18:43
中国汽车全部变成电动汽车后,我国每年石油消费量能降到多少?

中国汽车全部变成电动汽车后,我国每年石油消费量能降到多少?

趣味萌宠的日常
2026-06-29 18:39:12
演员没戏,回家种地?

演员没戏,回家种地?

中国新闻周刊
2026-06-29 07:30:10
2026-06-29 20:07:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13388文章数 142683关注度
往期回顾 全部

科技要闻

杀疯了!深圳一天出两家200亿具身智能公司

头条要闻

媒体:中国再对日本出重拳 一红一黄两张牌同时打出

头条要闻

媒体:中国再对日本出重拳 一红一黄两张牌同时打出

体育要闻

他和伊朗队,再次赢得全世界的尊重

娱乐要闻

跟风电影《给阿公的牛肉丸》开机

财经要闻

近20家半导体企业开启新一轮涨价潮

汽车要闻

全新宝马iX3长轴版将于成都车展预售 四季度交付

态度原创

数码
游戏
时尚
亲子
军事航空

数码要闻

七彩虹隐星P16 Pro新增“i7-13650HX + RTX 5060”售8099元起

R星取消《GTA6》实体版!三大原因带你看清背后真相

伊姐周日热推:电视剧《千香》;电视剧《非份之罪》......

亲子要闻

宝蓝在客厅玩堆纸杯的游戏,好不容易都堆好,结果全被叔叔推倒了

军事要闻

普京最新发声:俄罗斯正处于命运攸关之际

无障碍浏览 进入关怀版