Nvidia都在点赞的LoopWM世界模型，竟然来自一家中国初创FaceMind|em|loopwm

Nvidia都在点赞的LoopWM世界模型，竟然来自一家中国初创FaceMind

2026-06-29 15:25:47　来源: 机器之心Pro

天津举报

分享至

在世界模型这条路上，行业一直卡在一个几乎无解的矛盾里：想要更真实的长程模拟，就必须给模型更深的计算；可一旦把模型做得更深，部署成本、参数规模和误差累积又会迅速抬头。结果就是，大家都知道世界模型要 “想得更久”，却很难让它在现实系统里 “算得起、跑得稳”。

脸谱心智的这份技术报告想解决的，正是这个老问题。为此，他们提出了 Looped World Model (LoopWM)：一种面向世界建模的循环式架构。它不靠无止境地堆参数来换能力，而是让同一个参数共享的 Transformer 模块在潜空间里反复迭代，对环境状态进行逐步精炼。换句话说，不是简单把模型 “做大”，而是让模型在关键时刻 “多想几轮”。

如果把这件事说得更直白一点：传统世界模型更像是一锤子买卖 —— 每个状态转移都分配固定计算量，不管这个转移是简单还是复杂；而 LoopWM 想做的，是让模型拥有一种 “按需思考” 的能力。简单步子少算一点，复杂步子多算几轮，把计算真正花在需要它的地方。

论文标题： Looped World Models
论文类型： Technical Report
论文链接： https://arxiv.org/abs/2606.18208
PDF： https://arxiv.org/pdf/2606.18208

核心结论：通过参数共享的循环 Transformer 块迭代优化潜状态，LoopWM 将 “迭代潜深度” 引入为世界模型新的 scaling axis，并在保持稳定长程 rollout 的同时，实现最高可达100× 参数效率

Looped World Models：脸谱心智到底做了什么？

LoopWM 的整体架构并不花哨，但非常明确：它由观测编码器、动作嵌入器、循环动力学核心，以及预测头四部分组成。真正关键的是中间这套Looped Dynamics Core。脸谱心智把它拆成了三个部分：Prelude、Recurrent Block 和 Coda。Prelude 负责把前一时刻状态、当前观测和动作先整理成适合推理的表示；Recurrent Block 是核心，负责用同一组共享参数反复更新潜状态；Coda 则在循环结束后，把最终的潜表示整理成可供预测头解码的输出。

这里最重要的变化，是脸谱心智把 “模型深度” 从参数层面解耦出来了。传统更深的模型，往往意味着更多层、更多参数、更多显存和更高推理成本；而在 LoopWM 里，更深的计算不再必然对应更大的模型，因为脸谱心智是在重复使用同一个块。这让 “计算深度” 第一次可以作为一种相对独立的扩展维度存在，而不必总是绑定在参数膨胀上。

第一层关键：不是多堆层，而是反复 “打磨” 潜状态

世界模型最怕的，不是某一步预测稍微错一点，而是这个误差一路滚下去，最后把整条轨迹带偏。LoopWM 的思路是，不把下一状态看成 “一次前向传播立即拍板” 的结果，而是把它看成一个可以在潜空间里逐步逼近、不断修正的对象。循环式更新的价值就在这里：它让模型能够把一次状态转移，当成一个需要多步精炼的计算过程，而不是一次性决定的输出。

这件事听上去像工程技巧，实质上却触到了世界建模的核心。真实环境的演化本来就不是 “一步到位” 的，它更像是某种稳定规律被持续施加的结果。LoopWM 借由共享更新算子反复作用于潜状态，某种程度上让模型的计算图，和环境动力学的迭代结构更接近了。

第二层关键：循环可以很强，但前提是必须稳定

循环模型的美妙之处，在于它能反复推；循环模型最危险的地方，也在于它能反复推。因为只要状态更新稍有失控，隐藏状态就可能在多轮迭代中迅速爆炸。为了解决这个问题，脸谱心智在 LoopWM 里加入了谱稳定性约束。具体来说，脸谱心智对状态保持矩阵做了特殊参数化，使其特征值被限制在稳定区间内，从而保证循环更新在数值上是收缩的，而不是发散的。

这一步的意义，不只是 “训练更稳” 这么简单。它实际上为长程 rollout 提供了一个底层保证：即使内循环次数增加，潜状态也不会轻易失控。对于世界模型而言，这种稳定性非常关键，因为长时间模拟最怕的不是局部误差，而是误差在不断自回归中被层层放大。

第三层关键：让解码别太勤快，先在潜空间里把事情想明白

除了循环本身，脸谱心智还提出了一个很实用的设计：Deferred Decoding。直白说，就是在多步 rollout 时，不再每走一步都急着把潜状态还原成观测，而是先在潜空间里连续推演，等到真正需要输出的时候再做解码。

这背后的逻辑很朴素：如果模型每一步都要把内部状态翻译回显式观测，它的计算就会被频繁打断，推理成本也会上去。而延迟解码让模型可以把更多精力放在潜空间中的长期结构建模上。论文实验也表明，随着 rollout 步数增加，Deferred Decoding 的收益会更加明显，它不是一个 “锦上添花” 的小优化，而是长程推演能力中的关键拼图之一。

第四层关键：不是所有状态都值得算一样久

LoopWM 还有一个很重要的能力，是early exit。模型在推理时可以通过一个轻量门控机制，动态判断当前状态是否已经 “想够了”。如果一个转移足够简单，模型就提前结束循环；如果是更复杂的交互，比如需要更精细的状态修正，就继续多迭代几轮。

这意味着，LoopWM 不仅把计算深度变成了新扩展轴，还让这条轴具备了自适应属性。它不是对所有输入一视同仁地加算力，而是让不同难度的状态转移匹配不同的计算预算。放在真实部署里，这种 “按复杂度付费” 的计算方式，比固定深度模型更有现实意义。

结果说明了一件事：世界模型的 scaling，不只有 “做大” 这一条路

在实验部分，脸谱心智把 LoopWM 放到了ScienceWorldAlfWorld等任务环境中进行评估，并与多种强基线做比较，包括Claude-opus-4-6-max、Qwen-3.5-flash、Gemini-3-flash-preview-thinking等模型。

结果很直接。在 ScienceWorld 上，约1B 参数规模的 LoopWM 取得了68.4% EM、85.3% Token F1、80.7% BLEU-4、83.9% Entity的成绩，整体上显著超过了Claude-opus-4-6-max 的 47.2% EM 和 72.8% F1。更值得注意的是，在Lifespan这样的任务上，论文报告 LoopWM 将得分从0% 提升到 100%。这不是那种 “边角料式” 的改善，而是说明循环潜深度对某些长程推理场景，可能确实带来了结构性收益。

在 AlfWorld 上，LoopWM 也拿到了51.6% EM、80.4% Token F1、71.6% BLEU-4，并在 BLEU 指标上表现突出。更关键的是，这些结果不是靠一个超大闭源模型换来的，而是在约 1B 参数量级上实现的。换句话说，论文真正想证明的，不只是 “我脸谱心智又把榜单刷高了一点”，而是：在世界模型里，参数效率和模拟质量未必天然对立

真正值得关注的，不是 “100× 参数效率” 这句口号本身

论文摘要里最吸睛的一句话，是 LoopWM 相比传统做法最高可实现100×参数效率。这当然很亮眼，但我认为更值得行业认真看的，其实是背后的方法论：世界模型也许需要一条不同于语言模型 “堆参数、堆数据” 的扩展路径

过去我们谈 scaling，通常只盯着两件事：模型有多大、数据有多少。LoopWM 提出的，是第三个方向 ——迭代潜深度。它与参数规模、训练数据规模正交，意味着即便在参数预算有限的情况下，模型仍可能通过更合理的内部计算过程获得能力提升。这一点对资源受限部署尤其关键，因为它提供的不是 “更贵的上限”，而是 “更聪明的计算方式”。

这篇技术报告最后想回答的问题其实很简单

如果你把世界模型理解成 “一个学习环境规律、并在内部复现环境演化的系统”，那么它不应该只会更快地输出答案，它还应该会在需要的时候多做几轮内部推演。LoopWM 的意义，就在于把这种能力从直觉变成了架构。它首次把 looped transformer 真正带进世界建模，把 “共享参数 + 迭代精炼 + 稳定循环 + 自适应计算” 组合成了一套完整方案。

这项工作提供的，不只是一个新模型，更是一种新的看法：世界模型的未来，不一定是永远更大；也可能是让同样的参数，学会更有层次地思考

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.