自变量模型上新！让世界模型学会事件级预测|算法|基模|模态|流形|优化器

分享至

世界模型，2026年最热的科技话题之一。

关于它和VLA关系正在被反复讨论。一些研究者“激进”认为，VLA即将被彻底取代。而另一些人觉得，VLA并未走向穷途末路，但需要调整其中Language的比例，或加入预测模块。总之，改变VLA架构中的核心问题，基本成为共识。

就在今天，中国具身智能公司「自变量机器人」也给出了自己的答案 —— 推出世界模型 WALL-WM。

GitHub：https://github.com/X-Square-Robot/wall-x

项⽬主⻚：https://x2robot.com/pages/wm

从官方给出的效果和结论看，WALL-WM 的出现带来了“事件级预测”的思路，既改变了过往 VLA 的问题，也意味着世界模型的预测能⼒⾛向了以 “判断⼒”为导向的领域。

它学会了判断哪些瞬间真正重要，值得预测，开始思考“这些事件里，世界会怎么变”。

01 让“事件预测”成为核心

要理解自变量的这个新工作，先要理解 VLA 的痛点。

VLA，过去一段时间具身大脑的主流技术路线。

它以视频或多模态基础模型（VLM）为起点，先通过视觉模块做感知，然后将识别结果传给能理解视频等数据的基础模型，再将接收到的命令以及感知数据，让动作模块生成一定长度的连续动作。

但问题在于，常以 VLM 为基座的 VLA 模型，文本、视觉、动作不在同一个流形上，让它们三者强行联合优化，只会损耗继承自基础模型的先验能力。

这就导致，VLA 在真机上的表现还不如其基座模型 VLM。

这次自变量发布的 WALL-WM 模型，就希望解决这个问题。

WALL-WM 最大的创新之处在于，通过“事件级预测”的能力，让不同流形的数据训练时保证基模能力不掉，也更契合世界模型合理预测状态的目标。

同时，这种以事件为核心预测能力，还解决了之前模型只能按固定时间频率推理，导致重要事件预测遗漏和算力浪费问题。

从效果看，它有种一箭三雕的感觉。

这里的“事件”级预测，核心是以动作为中⼼的语义事件（Action-Centered Semantic Event），也就是从伸⼿到抓取，再到提起、移动、放置，⼀段时间上连贯、可执⾏的⾏为⽚段。

再详细一点，就是把“左臂把网球拾起放入绿色篓”、“右臂把骰子放入白色篓”这类操作过程，切成语义原子事件。

为什么事件级的改变能产生这么多正向作用？

首先是这种语义事件，不仅能被语⾔精确描述，还能被视频时序覆盖，同样也能被动作轨迹执⾏，是连接三种模态的天然枢纽。这样做，能让基模的能力不因推理时模态不通而退化，保证了模型的基本效果。

第二，之前很多 VLA 模型被设置成按固定频率推理，这会让重要事件被错过，还可能导致算力浪费。WALL-WM 这种以事件为单位的预测，显然更合理。

最后一点非常有意义。

也就是当事件成为预测单位，就能让模型按照“在此事件下，物理世界将如何演化、我应当如何执⾏”的工作。而之前的很多VLA模型，会比较僵硬地学到“指令 → 动作”的反应式映射。WALL-WM 这种模式，更有利于世界模型进行高质量的预测。

从这些效果看，WALL-WM 的思路是一种新范式。

02 保留基模先验和系统设计

为了让 WALL-WM 这套架构顺利运行，自变量团队在算法、数据、系统设计等方面都做了配套创新。

先说架构。

这次 WALL-WM 将世界动作模型构建为视频+动作去噪器。整个模型的运作由四个模块组成。也就是，从 Qwen3.5-VL，到信息交换中间层，再到视频 DiT（预测模块，基于 Wan），最后是动作。

主要流程是，左侧的语言模块产生信号，通过T5 Embeds / Embedding注入右侧的视频和动作模块。视频DiT（第三部分）是很重要的一环，它会去噪预测接下来会发生什么。接着，动作部分会把视频预测的内容翻译成行动轨迹，让机器人执行。

为了让 WALL-WM 顺利跑起来，自变量在算法和系统层做了好几个专门的设计。

首先为了解决之前提到的关键问题 —— 让基模效果在训练时不往下掉，整体模型的能力稳步提升，WALL-WM 里设计了“动作流关注视频流，动作标记不修改视频流”的思路。

对应到架构图也就是，动作流会读取视频，但不会让视频流发生变化。这种模式有利于保护已经拥有网络视频知识先验的视觉模块，让它不会因不同流形数据的训练而能力下降。

除了解决 VLA 模型遇到的先验损失的问题，WALL-WM 还做了一些其他设计，让模型在真实部署中效果更好。

比如，它做了⼏何感知的多视⻆融合（上图的S3也能看出），让机器人真的能多视角补充信息、理解世界。

具体来说，真实的机器人经常会配备三个相机：头部一个看全局，左腕和右腕各一个看手的动作细节。但问题是，如果直接让三个相机的画面互相做注意力，模型会偷懒。

比如，头部相机看到的是桌面全景，左腕相机看到的是手指捏着螺丝钉的特写，这两个画面大部分内容根本不重叠，模型却可能在它们之间建立毫无意义的关联。

更糟的是，即使两个相机都能看到同一个物体，模型可能也懒得跨视角，只会“偷懒”看一个相机里的东西。这会导致，跨视角的注意力虽然存在，却从来没被真正用过。

针对这个问题，WALL-WM 用两个机制分别堵死这两条懒路。

第一个是视锥掩码。把每个相机的每个像素区域想象成一个手电筒的光锥，打向它对应的现实空间方向。

只有两个光锥在三维空间中有交叉——也就是物理上可能在看同一个东西——这两个相机才被允许互相注意。其余的直接被设为负无穷，从数学上强制断开。这样模型建立的跨视角关联，一定是有几何意义的。

第二个是管状掩码。随机选一个相机，把它所有帧里的同一块区域全部遮成纯噪声，有时连当前观测帧也一起遮掉。这样模型在这个相机里找不到任何关于这块区域的线索，唯一的出路就是去看其他相机。

另外为提升推理速度，WALL-WM 在 CoT 方面也做了优化—— 它提出了阶梯式思维链解码（Staircase CoT Decoding）。

大家都知道，机器人大脑有了 CoT 拆解过程，动作质量会明显提升，但代价是速度下降。

传统 CoT 是一个词一个词串行生成，每个词都要过模型全部的 L 层，非常慢。现有的加速方案是把思考过程压缩成连续向量，但这样速度是快了，输出的却不再是人能读懂的文字。

自变量的研究员们发现：模型的低层对所有词的处理结果都差不多，大量计算是重复的。于是，他们把 WALL-WM 的层分成低层和高层两段，只让第一个 CoT 词完整过低层，后续所有词直接跳过低层、复用第一个词的中间状态，然后各自独立并行过高层。

就等于，原来K个词要串行跑K遍，现在变成1遍低层加1遍并行高层，总计算量降了很多，词越多加速越明显。而且，输出仍然是正常可读的离散文字，不是压缩向量，同时保证了可解释性与实时性。

03 进一步完善系统：数据与Infra

数据层重构：四级标注，清晰长尾难题

要想让模型按“事件”来思考，前提是喂给它的数据必须清晰地标明了事件的边界。

为此，Wall-WM 使用的数据都四级层级化标注，将每条轨迹都在“任务、子任务、动作、片段”四个粒度上进行了极其精细的标注。这四个级别层层细化，就像是给机器人的录像做“由宏观到微观的拉片”。（还有第五级，人类数据，仅在人工标注子集上进行训练 / 填充）

有了这些数据层的微观标注，模型在训练时才能准确知道“事件”在哪里开始又在哪里结束。

这样有层级的微观标记产生了很妙的隐性收益：“长尾物理难题”被暴露了出来。

试想一下，如果只有最粗颗粒度的“任务级”标签，那么一段包含“抓取水杯时打滑，随后机器臂微调重新捏紧”的珍贵救场视频，就会被直接贴上一个“拿水杯”的粗糙标签。这段数据中的纠错经验，就会淹没。

而因为有最微观的“片段级（Segment）”标注，视频中那些非最佳的时刻，也就是长尾物理难题，比如重新抓取、重试、短暂修正等微操，也能被识别了出来，暴露给训练采样器。

这些包含纠错经验的长尾数据最终成为了 WALL-WM 底层⾦字塔式数据结构中最重要的一环。

人之所以能干好精细的活儿，是因为我们拥有强大的“纠错能力”。有了它，模型学到的不再是死板的完美路线，还有“救场”能力，只有这样机器人才能真正实现通用。

*⾦字塔式数据结构：

最底层是百万量级的⽹络通⽤视频，再往上分别是第⼀⼈称公开数据、UMI ⻛格的⽆本体采集、异构遥操作数据、⼏何⼀致的⾃采数据，最顶端的则是事件级的接管与纠错数据。

双聚类采样：“防偏科”系统，逼机器人学会救场

在模型的训练数据中，动作分布往往存在极端的不平衡：像“平稳放下杯子”这类简单的标准动作、占比通常高达 90% 以上，而像“打滑后重新捏紧”这种高难度的纠错微操（长尾数据）却不足 1%。如果直接将原始数据倒给模型，它就会“偷懒”只学简单动作，一遇到意外就会抓瞎。

为了防止模型偏科，自变量团队引入了“双聚类”采样技术，在数据进入模型前，事先按“视觉-语言”和“物理动作”两个维度对其进行分类。在给大模型“派作业”时，系统会强行拉平训练比例，故意多抽一些“冷门题”，将复杂的重新抓取等长尾、稀有的物理难题充分暴露给模型。

这样就能从数据源头逼迫模型直面困难，在真机实操中展现出强泛化与纠错能力。

分布式 Muon 优化器 + FP8 部署：训练更省、推理更快

在这次WALL-WM 的技术论文中，我还发现自变量团队在训练阶段，底层基础设施的创新。他们在具身基础模型训练中，采用了自研的分布式 Muon 优化器 —— DMuon。

Muon 优化器虽然能够确保多模态大规模训练的“收敛速度与稳定性（convergence speed and training stability），但同时它又非常消耗算力。

而 DMuon 对原生的 Muon 优化器做了分布式改造，让它在⼤规模训练⾥的额外开销压缩到了仅占前后台计算极小的一部分，达到可以忽略的⽔平。

另外在训练端，自变量团队还用了"多事件打包成⼀条序列"的⽅式喂数据，避免了每条轨迹⻓短不⼀⽽不得不补⼀堆空⽩ token 的浪费。在部署端，则采用了 FP8 低精度量化加上分布匹配蒸馏，把扩散模型的推理延迟压进了机器⼈实时控制能接受的区间。

04 实验结果

基于 WALL-WM 的核心创新和架构设计，自变量也给出了模型的实验结果。

在具身视频生成（Embodied Video Generation）方面，相比 Wan2.1/Wan2.2，WALL-WM 在运动质量（Motion Quality）、语义一致性（Semantic Consistency）、物理合理性（Physical Plausibility）这三个具身相关维度上领先。

这个实验的核心是模拟真实世界里人/实体的动作、行为、交互。现在的结果说明，同样生成人物/实体动作类视频，WALL-WM 动作会更流畅、行为也更贴合指令、画面更符合现实物理规律。

还有“三维空间理解”，WALL-WM 比 Wan2.1-14B、Open-Sora 2.0、V-JEPA、DINOv2 更强，对物体三维位置判断会更准。它在3D Awareness（CO3Dv2）的评测中，Point Error与Depth Error的数据都更优。

这个指标衡量的是模型从 2D 画面里，正确理解三维结构、空间关系、物体远近、视角变化的能力，数值越小说明效果越好。

在真机Core15 L1基准上，WALL-WM-E 在基础操作、推理操作、灵巧操作、泛化四个大类的均分上均高于 π0.5 和 DreamZero。

总之看完 Wall-WM 的论文和设计，能感受到自变量的确是从算法到系统再到 Infra 层，都为这个“事件级预测”做了匹配。

在2026年，这个具身大脑的关键之年，这样的工作非常重要。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.