近年来,大语言模型在自然语言理解与推理方面的突破,为文本驱动的动作生成带来了新的可能性。尽管现有方法在语义对齐与动作合成上取得了一定进展,但它们通常依赖端到端的映射策略,难以捕捉深层的语言结构与逻辑推理。因此,生成的动作往往缺乏可控性、一致性和多样性。为了解决这些问题,GigaAI提出了 Motion-R1 —一个融合了“思维链(Chain-of-Thought)”机制的统一动作-语言建模框架。(链接在文章底部)
该方法通过将复杂的文本指令显式地分解为具有逻辑结构的动作路径,为动作生成提供了高层语义指导,大大提升了模型对多步骤、长时程以及组合丰富指令的理解与执行能力。该方法能够将复杂的语言指令分解为结构化的动作计划,并结合 GRPO 算法优化动作合成,从而提升了生成动作的可控性、多样性与泛化能力。尽管 Motion-R1 表现出色,但仍存在局限。当前的 CoT 分解依赖通用大模型生成,面对模糊指令可能引入噪声或产生次优计划。GRPO 虽简化了强化学习流程,但仍需精心设计多项奖励机制。
“一个人向前迈几步,双脚向前跳,落地后立即向右转”
01 技术原理
该框架包含两个阶段:(1)MotionCoT数据引擎使用 DeepSeek-R1 生成包含 、 和 格式的 CoT 风格动作规划轨迹,用于微调大语言模型(LLM);(2)基于GRPO 的训练阶段,通过格式、动作质量和语义奖励对成组输出进行排序,从而利用强化学习优化 LLM。
MotionCoT 数据示例:以提示语“A person does Tai chi.”为例,大语言模型生成了逐步的思维链推理过程( ),以及结构化的动作计划(),内容涵盖站姿、手臂动作、重心转移与手部定位等要素。
定性对比分析(分布内场景-即模型训练过程中接触过或相似的数据),对 Motion-R1 与主流方法进行了定性对比。在 HumanML3D 和 KIT-ML 等标准测试集中,Motion-R1 在简单和多步骤指令下都能生成平滑、结构清晰的动作。
例如对“一个人绕圈走”的描述,Motion-R1 生成了方向连续、时序自然的循环动作,而 MotionLLM 要么动作中断,要么无法闭环,显示出 Motion-R1 在空间和时间语义上的更好对齐能力。
泛化能力评估(分布外场景)为测试模型在未见数据上的表现,设计了更复杂或抽象的描述。面对“听到巨响后转身、防御、接近”这类多阶段指令,Motion-R1 能清晰区分并衔接各动作,保持时序一致;而 MotionLLM 动作混乱,缺乏关键姿态。对“打羽毛球发球”描述,Motion-R1 合成了具有击球意图的细节动作,MotionLLM 则生成通用动作,缺乏目标性。结果表明,Motion-R1 借助显式 CoT 推理,具备更强的理解与泛化能力。
02 演示效果
分布内场景:
分布外场景(简单文本):
分布外场景(复杂文本):
https://arxiv.org/pdf/2506.10353
欢迎交流~,带你学习AI,了解AI
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.