腾讯提出 HY-Motion 1.0,这是一套领先的大规模文本到动作生成模型,能够根据文字描述直接生成高质量的3D 人体动作。该模型首次在动作生成领域将基于Diffusion Transformer(DiT)的架构扩展到十亿参数规模,在理解指令和还原动作意图方面明显优于现有开源方案。(链接在文章底部,可在线体验)
为实现这一效果,HY-Motion 1.0 采用了完整的分阶段训练方案:先在3000+ 小时的大规模动作数据上学习通用能力,再用400 小时高质量数据精细优化,并结合人类反馈的强化学习进一步提升表现。同时,配套的数据清洗和标注流程,使模型能够覆盖6 大类、200 多种动作,在动作真实度和多样性上均达到行业领先水平。
十亿参数量级 DiT 动作模型:将基于流匹配的 DiT 架构成功扩展至 1B+ 参数量级,通过扩大模型容量与数据规模,显著提升了动作生成的质量上限与泛化能力。
![]()
系统化的全阶段训练体系:构建了从预训练、微调到强化学习对齐的完整训练闭环。特别是 RLHF 机制的引入,通过引入人类反馈与显式奖励模型(针对语义匹配度与物理约束),实现了模型在文本指令遵循与动作物理质量上的双重优化。
严谨的数据清洗与广覆盖度:依托自研的精细化数据处理管线,通过自动化处理与人工矫正相结合的方式,构建了包含 6 大类、覆盖超 200 种动作类别的高质量数据集,奠定了模型能力的基础。
优异的动作质量与指令响应:得益于大规模训练与对齐策略,模型生成的动作流畅度表现出色,同时在语义对齐方面取得了显著进步,能够更准确地理解并响应用户的文本描述。
开源共建行业生态:将 HY-Motion 1.0 模型及配套基准全面开源,旨在降低高质量动作生成的门槛,与社区共同推动文生动作技术的进一步发展。
尽管 HY-Motion 1.0 在文本到动作生成方面取得了显著进展,但仍存在一定局限:在面对细节丰富、结构复杂的指令时,模型的理解与表达能力仍受限,这主要源于高质量动作文本标注本身难度较高,自动标注与人工修订都面临挑战;此外,由于现有数据主要关注人体自身运动,缺乏对物体几何和约束的建模,模型在生成涉及工具或外部物体的精准人–物交互动作时仍有不足。
https://arxiv.org/pdf/2512.23464欢迎交流~,带你学习AI,了解AI
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.