北京大学团队突破性进展：让AI从看懂动作变成创造表演者|序列|模态

分享至

这项由北京大学的李政道、张泽宇、唐豪团队以及江苏大学的王思恒等研究人员共同完成的突破性研究，发表于2025年8月的arXiv预印本平台。有兴趣深入了解的读者可以通过GitHub项目页面（https://github.com/AIGeeksGroup/ReMoMask）或项目网站（https://aigeeksgroup.github.io/ReMoMask）访问完整论文和代码。

在我们生活的数字时代，电影制作、游戏开发和虚拟现实体验正变得越来越重要。然而，制作逼真的人体动作动画一直是个巨大的挑战。设想你想制作一部动画电影，需要角色做出"一个人在圈子里走路"这样的动作，传统方法需要动画师花费大量时间手工制作每一帧画面。而现在，研究团队开发出了一个名为ReMoMask的AI系统，它就像一个智能动画师，只需要你用自然语言描述想要的动作，比如"一个人正在绕圈行走"，系统就能自动生成对应的3D人体动作序列。

这项研究的核心创新在于将文本描述转换为逼真的人体动作。可以把这个过程比作一个精通多种语言的翻译官，它能将我们日常用的文字描述"翻译"成计算机能理解并生成的动作序列。研究团队在这个领域取得了显著突破，在权威的HumanML3D数据集上，他们的方法比之前的最佳技术提升了3.88%的FID评分，在KIT-ML数据集上更是实现了10.97%的惊人提升。这种提升意味着生成的动作更加自然、逼真，更符合人们的期待。

一、智能动作生成的双重挑战

要理解这项研究的重要性，我们需要先了解当前文本到动作生成技术面临的困境。就像烹饪一道复杂菜肴时会遇到各种问题一样，现有的AI动作生成技术也面临着两大类挑战。

第一类挑战来自于传统的生成模型，比如扩散模型。这些模型就像一个缺乏经验的厨师，虽然能做出菜，但往往缺乏创意，做出的菜品种类有限，而且容易在制作过程中出错，最终端上桌的菜可能看起来不太自然，甚至违反了基本的烹饪规律。具体到动作生成上，这些模型会产生动作多样性不足、错误累积以及物理上不合理的问题。比如生成的人物可能会做出违反人体关节限制的动作，或者动作缺乏自然的连贯性。

第二类挑战则来自于检索增强生成方法。这类方法就像一个过度依赖食谱的厨师，虽然会参考大量现有的成功案例（从数据库中检索相关信息），但在融合这些参考信息时经常出现问题。具体表现为扩散惰性（生成过程过于保守）、部分模式崩塌（只能生成有限种类的动作）以及异步伪影（动作的不同部分不协调）。这就像厨师参考了多个食谱，但在组合时没有处理好各种食材的搭配时间，结果有些食材过熟，有些还是生的。

研究团队敏锐地观察到，这些挑战的根本原因在于两个关键问题。首先，现有的动作检索器在训练时受到小批量限制，就像在一个小厨房里只能同时处理少量食材，无法接触到足够多样的"负样本"来学习区分好坏。其次，简单地将文本条件与一维动作标记连接起来，无法有效建模文本条件、动作时空信息和检索知识之间的复杂关系，就像用简单的搅拌无法让不同特性的食材充分融合。

这些观察为团队指明了解决方向：需要一个能够处理更大规模负样本池的检索训练范式，以及一个更强大的信息融合机制，能够同时处理动作的时间动态和空间结构。

二、三重创新的技术突破

面对这些挑战，研究团队提出了ReMoMask框架，这个框架就像一个经验丰富且装备精良的专业厨房，配备了三个核心的创新"设备"。

首先是双向动量文本-动作模型，这个组件解决了训练时负样本不足的问题。传统方法就像在一个小锅里煮汤，只能放入有限的食材进行对比学习。而这个新方法建立了两个"动量队列"，就像拥有了两个巨大的储料仓，可以存储大量的文本特征和动作特征作为负样本。这些队列通过指数移动平均的方式更新，确保存储的样本保持时间一致性。更重要的是，这种设计将负样本池的大小从小批量的限制中解放出来，让模型能够接触到成千上万个对比样本，大大提升了跨模态检索的精度。

具?来说，这个系统维护两个动量编码器和对应的队列。当处理一个训练批次时，模型不仅使用当前批次中的负样本，还使用队列中存储的历史样本。这就像厨师不仅使用今天采购的食材，还能使用之前精心保存的各种调料和配菜，让每道菜的味道层次更加丰富。通过这种方式，文本到动作的对比学习变得更加有效，因为模型能够学习区分当前文本与大量不相关文本和动作的差异。

第二个核心创新是语义时空注意力机制。如果说传统方法是用平底锅简单翻炒所有食材，那么这个机制就像是一个多层蒸笼，能够精确控制不同层次食材的处理方式。该机制强制执行生物力学约束，在部分级融合过程中消除异步伪影。

这个机制的工作原理是将动作序列量化为2D时空标记图，而不是传统的1D标记。这就像将一道菜的制作过程从线性的步骤序列转变为同时考虑时间顺序和空间布局的3D烹饪过程。在2D标记图中，时间维度捕获动作的时序演变，空间维度则保留了人体关节之间的空间关系。当进行注意力计算时，系统重新定义了查询、键值矩阵，将扁平化的时空向量作为查询，将文本嵌入、检索到的文本特征和动作特征连接作为键值对。这种设计确保了文本指导、检索知识、动作时间动态和空间结构之间的全面对齐。

第三个创新是检索增强的无分类器指导。这个组件就像为整个烹饪过程添加了一个智能调味系统，能够根据情况自动调整"口味"。传统的无分类器指导只考虑文本条件，而这个扩展版本将文本嵌入、检索的文本特征和检索的动作特征都作为条件输入。在训练过程中，系统会以10%的概率进行无条件采样，这就像厨师偶尔会尝试不加调料的原味烹饪，让系统学会在有指导和无指导之间找到平衡，从而增强泛化能力。

三、精妙的技术架构设计

ReMoMask的整体架构就像一个设计精良的流水线工厂，每个环节都经过精心设计和优化。整个系统建立在MoMask的RVQ-VAE基础之上，但进行了重要的2D扩展和增强。

系统的核心是2D残差向量量化变分自编码器。与传统的1D量化不同，这个组件将动作序列编码为2D潜在特征，就像将一部电影从单纯的时间序列转换为同时包含时间和空间信息的复合表示。编码过程使用2D卷积编码器，然后应用多层残差向量量化，每一层都捕获不同级别的动作细节。解码时，系统将量化后的表示通过2D卷积解码器重建为原始动作序列。

在生成阶段，系统使用两个不同的transformer结构。2D检索增强掩码transformer负责生成基础层标记，它利用语义时空注意力机制融合文本条件和检索信息。这个transformer从完全掩码的2D标记图开始，通过多次迭代逐步预测被掩码的标记。而2D残差transformer则负责细化剩余的标记层，捕获精细的动作细节。

部分级双向动量模型的训练是整个系统的关键环节。为了建模精细的动作细节，系统将全身动作分解为六个部分：四肢、脊柱和根部。每个部分都单独编码，然后连接并重投影到潜在维度以产生精细的动作特征。这种设计使得检索能够在更细粒度的级别上进行，就像专业厨师会分别处理每种食材的特点，然后再进行最终的组合。

训练过程采用了精心设计的掩码策略。系统首先沿时间维度随机掩码，然后在未掩码的帧上沿空间维度随机掩码。这种2D掩码策略确保模型既能学习时间连续性，也能理解空间结构。同时，系统采用掩码比例调度和BERT风格的重掩码策略，让训练过程更加稳定和有效。

四、卓越的实验表现

研究团队在两个权威数据集上进行了全面的实验验证，结果令人印象深刻。HumanML3D数据集是目前最大的专门针对3D人体动作和文本描述的数据集，包含14616个动作序列和44970个文本描述。KIT-ML数据集则包含3911个动作和6278个文本。这两个数据集为评估提供了丰富的测试场景。

在HumanML3D数据集上，ReMoMask在多个关键指标上都取得了最佳性能。R-Precision指标显示，该方法在Top1、Top2、Top3检索精度上分别达到了53.1%、72.2%和81.3%，超越了之前的最佳方法。更重要的是，FID分数降至0.099，相比之前的SOTA方法RAG-T2M实现了3.88%的显著提升。MM Dist分数为2.865，也达到了新的最佳水平。这些数字背后意味着生成的动作与真实动作在分布上更加接近，语义对齐度更高。

在KIT-ML数据集上，改进更加显著。ReMoMask的FID分数为0.138，相比之前最佳方法实现了10.97%的大幅提升。R-Precision在各个层级都表现出色，Top1达到45.3%，Top3达到80.5%。这种跨数据集的一致性表现证明了方法的泛化能力。

研究团队还专门评估了检索模块的性能。在文本到动作检索任务中，双向动量模型在R1、R2、R3、R5指标上分别达到13.76%、21.03%、25.63%、32.40%，全面超越了基线方法。虽然在R10指标上略有不足，但整体性能仍然是最佳的。在动作到文本检索任务中，该方法在R1和R3上表现最佳，分别达到14.80%和25.60%。

五、深入的消融实验分析

为了验证每个组件的有效性，研究团队进行了详尽的消融实验。这些实验就像一个优秀厨师在开发新菜谱时，会单独测试每种调料的作用一样重要。

双向动量模型的重要性通过数据得到了充分证明。当移除BMM模块时，Top1 R-Precision从53.1%下降到44.5%，降幅达16.2%，FID分数从0.411恶化到0.825，增幅高达50.18%。这表明大规模负样本池对于跨模态对齐至关重要。进一步的分析显示，双向队列设计是关键因素。在文本到动作检索中，使用双向队列比不使用队列的R1提升了31.3%。更有趣的是，如果只使用单向队列进行动作到文本检索，会导致灾难性失败（R1仅为0.70%），而双向队列则能将R1提升41.0%至14.80%。

语义时空注意力机制的效果同样显著。当用简单的特征连接替换SSTA时，多模态性能崩塌了61.2%（从2.823降至1.094），MM Dist增加了6.1%（从2.865增至3.04）。这说明SSTA在保持动作多样性方面发挥了关键作用。该机制通过2D注意力模式能够同时建模时间动态和空间结构，避免了传统1D方法的局限性。

检索增强无分类器指导的贡献也很明显。当停用RAG-CFG时，Top1 R-Precision下降22.6%（从53.1%降至41.1%），这证实了其在增强文本-动作一致性方面的有效性。该机制通过在训练时引入10%的无条件生成，让模型学会平衡有指导和无指导的生成，从而提高了泛化能力。

局部检索机制相比全局检索也显示出优势。使用全局检索时，Top3 R-Precision下降9.8%（从81.3%降至73.3%），多样性降低4.8%（从9.535降至9.08）。这表明细粒度的局部上下文检索比粗粒度的全局检索更有效。

六、用户研究的真实反馈

除了客观指标，研究团队还进行了全面的用户研究来评估生成动作的主观质量。他们随机选择了HumanML3D测试集中的20个文本提示，使用ReMoMask、当前最佳的检索增强方法ReMoDiffuse、生成模型MoMask以及真实动作生成对应的动作序列。

用户研究采用了强制选择范式，参与者需要回答两个关键问题："哪个动作更真实？"和"哪个动作与文本提示对应得更好？"为确保公平性，研究过程中隐藏了生成模型的名称，并随机化了呈现顺序。超过50名参与者参与了这项评估。

结果令人鼓舞。在动作真实性方面，ReMoMask获得了42%的偏好率超过真实动作。虽然真实动作来自人类数据，但这个结果表明ReMoMask生成的动作在人眼中具有可比的真实感。更重要的是，该模型显著优于基线方法：相对于MoMask获得67%的偏好率，相对于ReMoDiffuse获得75%的偏好率。

在文本对应性方面，ReMoMask获得了47%的偏好率超过真实动作，这表明其生成的动作与文本提示的对齐程度接近人类水平。与基线方法相比，改进更加显著：相对于MoMask获得72%的偏好率，相对于ReMoDiffuse获得86%的偏好率。

这些用户研究结果从主观角度验证了客观指标的发现，证明ReMoMask不仅在数值指标上表现优秀，在实际的人类感知中也确实产生了更自然、更符合描述的动作序列。

七、视觉效果的生动展示

研究团队提供的可视化结果清晰地展示了ReMoMask的能力。在随机采样的16个动作样本中，系统展现了处理复杂动作模式的能力，包括方向转换（"走向前方，然后向右转"）、节奏性动作（"举手三次"）以及语义丰富的行为（"假装是一只鸡"）。这些例子展示了模型在捕获细致动作动态和时间转换方面的熟练程度。

与MoGenTS、TMR和ReMoDiffuse的比较分析更加有说服力。当基线模型生成步行或平衡等基本动作时，ReMoMask始终产生更自然的转换。例如，对于"先向前走然后转弯"的描述，基线方法可能只生成简单的线性运动，而ReMoMask能够生成包含明确转弯动作的复杂序列。对于"向前跳三次"这样的描述，ReMoMask生成的是物理上合理的多步跳跃序列，而不是单一重复动作。

这些视觉比较突出了ReMoMask在处理动作复杂性和行为表现力方面的优越性。生成的动作不仅在技术指标上优秀，在视觉效果上也更加自然和符合人类期待。

八、当前限制与未来发展

尽管取得了显著成就，研究团队也坦诚地指出了当前方法的一些限制。BMM的双队列和SSTA的2D注意力机制显著增加了模型参数（达到238M），这对实时部署造成了挑战。就像一台功能强大但体积庞大的设备，虽然性能卓越，但在某些应用场景中可能不够灵活。

另一个限制是实验主要在短序列（小于100帧）上进行，缺乏对需要强时空连贯性的复杂动作（如舞蹈）的验证。部分级检索在处理抽象文本描述（如"快乐地跳跃"）时也存在困难，因为它依赖于预定义的动作分割。此外，生成的动作可能违反生物力学约束（如关节旋转限制），因为缺乏基于物理的验证。

针对这些限制，研究团队提出了未来的发展方向。他们计划采用知识蒸馏或稀疏注意力机制来减少模型大小，将长动作分解为子动作并应用分阶段SSTA来增强时间一致性。同时，他们考虑集成大语言模型来解析抽象文本并动态适应部分级检索，在RVQ-VAE解码过程中融入物理约束损失以确保生物力学有效的动作。

九、技术创新的深远影响

ReMoMask的技术创新不仅在学术层面具有重要意义，更在实际应用中展现出巨大潜力。在电影制作领域，这项技术可以显著降低动画制作成本，让小型工作室也能制作出高质量的动画作品。游戏开发者可以利用这项技术快速生成NPC动作，让游戏世界更加生动真实。

在虚拟现实和增强现实应用中，ReMoMask可以实现更自然的人机交互。用户只需用自然语言描述想要的动作，系统就能生成相应的虚拟角色动画。这对于教育、培训和娱乐应用都有重要价值。

在机器人技术方面，这项研究为机器人动作规划提供了新的思路。机器人可以通过理解自然语言指令来规划和执行复杂的动作序列，使人机协作更加直观和高效。

从技术发展的角度来看，ReMoMask代表了多模态学习领域的重要进展。它成功地将检索增强生成技术应用到动作生成任务中，为其他跨模态生成任务提供了有价值的参考。双向动量学习和语义时空注意力机制的创新也可能启发其他需要处理时空序列数据的应用。

说到底，ReMoMask不仅仅是一个技术系统，它代表了人工智能向更自然、更直观的人机交互方向发展的重要一步。通过让计算机理解和生成人类动作，我们离创造真正智能的数字助手又近了一步。虽然目前还存在一些限制，但这项研究为未来的发展奠定了坚实的基础。随着技术的不断完善，我们有理由期待看到更多令人兴奋的应用和突破。有兴趣的读者可以通过项目的GitHub页面和官方网站深入了解这项技术的细节和最新进展。

Q&A

Q1：ReMoMask是什么？它是如何工作的？

A：ReMoMask是北京大学团队开发的AI系统，能够根据文字描述自动生成逼真的3D人体动作。它的工作原理类似于智能翻译官，将"一个人在圈子里走路"这样的文字描述转换成计算机能理解并生成的动作序列。系统使用了三个核心技术：双向动量模型用于提升检索精度，语义时空注意力机制用于融合多种信息，以及检索增强的分类器指导用于提升生成质量。

Q2：ReMoMask相比其他动作生成技术有什么优势？

A：ReMoMask在权威数据集上的表现显著优于现有方法，在HumanML3D数据集上FID分数提升3.88%，在KIT-ML数据集上更是提升了10.97%。用户研究显示，相比其他方法，67-86%的用户认为ReMoMask生成的动作更真实、更符合文字描述。它能处理复杂的动作转换，如"先向前走然后转弯"，而传统方法通常只能生成简单的线性动作。

Q3：ReMoMask有哪些实际应用前景？

A：ReMoMask在多个领域都有广阔应用前景。在电影制作中，它可以大幅降低动画制作成本，让小工作室也能制作高质量动画。游戏开发者可以用它快速生成NPC动作，让游戏更加生动。在虚拟现实中，用户只需语言描述就能生成虚拟角色动画。此外，它还能应用于机器人动作规划，让机器人通过自然语言指令执行复杂动作，使人机协作更直观高效。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.