网易首页 > 网易号 > 正文 申请入驻

CVPR 2026 | BiMotion:用 B 样条曲线重新定义 3D 角色运动生成

0
分享至

来源:市场资讯

(来源:机器之心)



图 1:同一文本描述下,AnimateAnyMesh(上)与 BiMotion(下)的生成结果对比。离散帧采样导致动作语义中途断裂,而连续 B 样条曲线则将完整动作保留至序列末尾。


  • 论文标题:BiMotion: B-spline Motion for Text-guided Dynamic 3D Character Generation

  • 论文:https://arxiv.org/abs/2602.18873

  • 项目主页:https://wangmiaowei.github.io/BiMotion.github.io/

  • 代码:https://github.com/wangmiaowei/BiMotion

  • 数据集(Hugging Face):https://huggingface.co/datasets/miaoweiwang/BiMotion

  • 第一作者主页:https://wangmiaowei.github.io/

当你希望 AI 将 "士兵举起手臂,向后倾身,然后身体向前扑倒" 这段文字转化为一段 3D 角色动画,现有大多数方法给出的答案是:一段摇摇晃晃、语义残缺的短片段。这并非模型能力不足,问题的根源在于将运动表达为逐帧离散序列这一根本性的设计决策。

来自爱丁堡大学、康奈尔大学和密歇根大学的研究团队提出了 BiMotion:一种基于 B 样条曲线的文本驱动 3D 角色运动生成框架,即将在 CVPR 2026 正式发表,三位审稿人均给出 5/6 的高分评价。其核心主张只有一句话:运动是连续的,就应该用连续的方式来表达。

离散帧的困境:

为什么现有方法总在 "丢情节"

目前主流 3D 运动生成方法大多采用 VAE–潜在扩散模型架构,该架构具有固定的输入窗口,每次只能处理固定帧数的运动序列。面对长度各异的真实运动数据,现有方法只有两条路:

  • 裁剪(Cropping):将长序列切割为短片段,模型仅能学到局部子动作,而非完整语义。如文本描述 "转圈后停步",模型最终只能生成 "向右转"。

  • 均匀降采样(Downsampling):将 200 帧压缩至 16 帧再复原,导致动作卡顿抖动,如同一份低帧率的 GIF。

问题的本质在于:帧数仅代表时间采样密度,与动作语义本身无关。一只龙扇翅膀的动作,用 24 帧记录还是 120 帧记录,语义始终是 "扇翅膀"。逐帧离散表示,是这一领域长期忽视的根本性瓶颈。

B 样条:用少数控制点,刻画完整轨迹

BiMotion 的核心思路是将每个顶点随时间的运动轨迹,用一条连续可微的 B 样条曲线来表达。B 样条是计算机图形学中的经典参数曲线,仅用少量 "控制点" 便可描述一条光滑连续的轨迹;修改其中一个控制点只影响局部区域,不会破坏整体形状。

具体实现上,BiMotion 将任意长度 T 的顶点位移序列,通过带 Laplacian 正则化的最小二乘拟合,压缩为固定数量(默认 16 个)控制点。该压缩具有闭合解,在普通消费级 CPU 上,对 5 万顶点、200 帧的网格,不到一秒即可完成。Laplacian 正则专门处理序列极短时的欠定义问题,相比 Ridge 正则,其生成的插值更自然、过渡更流畅,消融实验对此给出了明确验证。

模型架构:从控制点到可生成的运动潜空间


图 2:BiMotion 整体架构。训练时(红色箭头)顶点差异转化为 B 样条控制点后编码为运动潜码;推理时(黑色箭头)从噪声采样得到控制点,经 B 样条重投影还原为任意长度的动画序列。

BiMotion 整体采用 VAE 加 Rectified Flow Matching 的两阶段架构。

B 样条 VAE

编码器将初始网格形状与控制点一并压缩为紧凑的运动潜码,其中包含两项关键设计:

  • 法线融合(Normal Fusion):将顶点法线信息以余弦相似度加权的方式融入点特征,有效解决网格上空间相近但内在结构属于不同部位(如手指关节)难以区分的问题,且无需依赖网格特定的拓扑结构,对任意拓扑均表现稳健。

  • 多层级控制点嵌入(Multi-level Control Point Embedding):受小波包分解启发,将控制点逐层分解为从粗到细的多级残差并分别编码。相比标准频率位置编码,这种方式能同时捕捉运动的全局节奏与局部细节(如狮子尾巴的微小摆动),重建误差大幅降低。


图 3:B 样条 VAE 架构。编码器(橙色区域)将初始形状与控制点压缩为潜码;解码器(绿色区域)重建控制点后通过 B 样条重投影得到顶点差异序列。

损失函数设计

VAE 训练采用三项联合损失:拟合损失(直接对齐控制点)、对应损失(通过 B 样条重投影对齐原始轨迹,早期训练收敛更快)、局部刚性损失(约束相邻顶点间距在各帧保持一致,防止形变时产生表面 "融化" 的视觉伪影)。三项损失各司其职、互为补充,共同保证运动的精度、连续性与形状一致性。

运动生成(Flow Matching DiT)

生成阶段基于 Rectified Flow 与 Diffusion Transformer(DiT),以初始网格的潜码和 CLIP 文本嵌入为条件,从高斯噪声中逐步去噪并采样出运动潜码,再经 VAE 解码器还原为完整动画序列。由于 B 样条重投影对帧数完全自由,推理时可按需输出任意长度的动画,如慢动作或子弹时间镜头。单张 A100 上平均推理时间仅为 4.4 秒。

BIMO 数据集:约 3.9 万条带文本标注的动态网格序列

为训练 BiMotion,团队整理并将开放 BIMO 数据集,包含约 39,000 条动态网格运动序列、总计逾 368 万帧,涵盖动物、机器人、人体、道具等多种类别。每条序列配有 3 条高质量文本描述,全部展开为 16 个 B 样条控制点存储,便于直接使用。

DeformingThings4D 部分来自 OmniMotionGPT 的人工标注;Objaverse 部分则通过基于 GPT-5 的自动标注流水线生成,配备生成器与质检器两个环节,确保描述的准确性和风格一致性。

实验结果:全面领先,效率显著提升


图 4:定性对比。左列:机器人与鹿的动作对比;右列:老虎与行走机器人的动作对比。红圈标注基线方法产生的形变伪影,BiMotion 均表现清晰自然。

团队在 20 个静态网格上与三类代表性方法展开全面对比:前馈生成方法 AnimateAnyMesh、动态高斯生成方法 GVFDiffusion,以及基于视频优化重建的 V2M4。网格来源涵盖 Meshy 生成资产与现有 3D 内容库,属于所有基线中最为严格的评测设置之一。

在 VBench 自动评估的 5 项指标中,BiMotion 在整体一致性、时序稳定性、美学质量和动作丰富度四项均居最优。其主体一致性略低于 AnimateAnyMesh,但消融实验已揭示该差距为虚高:后者生成的动作幅度极小、近乎静止,相邻帧高度相似,致使该指标人为偏高。

20 位参与者的用户研究中,BiMotion 在 "文本与动作匹配度"、"动作合理性"、"动作表现力" 三个维度的平均得分均超过 4.0/5.0,远高于所有对比方法。效率方面,网格顶点规模从 9K 增至 24K 时,BiMotion 生成时间仅从 3.7 秒微增至 4.6 秒,峰值显存从 1.1 GB 小幅升至 1.3 GB;而 AnimateAnyMesh 在同等条件下时间与显存均翻倍以上,充分体现 BiMotion 面向大规模网格的更强可扩展性。

局限性与未来展望

BiMotion 目前固定使用 16 个控制点,对高频、极复杂运动细节的表达能力仍有提升空间;同时基于固定网格拓扑的假设,暂不支持拓扑变化(如角色分裂、融合)的动画生成。当前 BIMO 数据集规模(约 3.9 万条)相较于视频或图像领域仍偏小,引入更大规模数据有望进一步提升质量与泛化能力。代码与 BIMO 数据集现已全部开源,欢迎社区共同建设。

Miaowei Wang, 目前是爱丁堡大学信息学院的博士研究生(2023年10月入学),研究方向为计算机视觉与计算机图形学中的可控运动表征(controllable motion representation)。他的博士研究由Amir Vaxman教授和Oisin Mac Aodha教授共同指导。 在此之前,他曾就读于密歇根大学电气工程与计算机科学系,在Jason Corso教授的指导下完成研究生学习。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王传福的“欺骗战略”,国内销量暴跌38%,却让竞争对手坐立不安

王传福的“欺骗战略”,国内销量暴跌38%,却让竞争对手坐立不安

讲者普拉斯
2026-05-02 11:34:59
80后家长发明“防早恋”发型,女儿面如死灰,网友都看不下去了

80后家长发明“防早恋”发型,女儿面如死灰,网友都看不下去了

妍妍教育日记
2026-04-27 09:20:13
孙杨的“巨婴”人生:一顿吃掉1.5万把整个团队经费干到只剩3600

孙杨的“巨婴”人生:一顿吃掉1.5万把整个团队经费干到只剩3600

乐悠悠娱乐
2026-05-02 13:59:24
媒体人谈世界杯版权:时间越晚价格只会越低,因为已来不及招商

媒体人谈世界杯版权:时间越晚价格只会越低,因为已来不及招商

懂球帝
2026-05-02 16:56:09
晚饭七分饱被推翻了?提醒:过了62岁,吃饭尽量要做到这5点

晚饭七分饱被推翻了?提醒:过了62岁,吃饭尽量要做到这5点

芹姐说生活
2026-05-02 15:28:33
万科这颗雷,炸出了地铁公司的真面目

万科这颗雷,炸出了地铁公司的真面目

梳子姐
2026-05-01 21:31:42
热刺利好!西汉姆0-3惨败,客场赢维拉就反超,后4轮全胜=保级

热刺利好!西汉姆0-3惨败,客场赢维拉就反超,后4轮全胜=保级

体育知多少
2026-05-02 23:58:55
伊朗官方媒体罕见急眼:一个煎蛋能卖到100万里亚尔,活不下去了

伊朗官方媒体罕见急眼:一个煎蛋能卖到100万里亚尔,活不下去了

小兰聊历史
2026-05-02 09:55:43
太离谱!华西医院五一放假引争议,被骂想休息别当医生,网友吵翻

太离谱!华西医院五一放假引争议,被骂想休息别当医生,网友吵翻

谭谈社会
2026-05-02 14:27:21
英超争冠悬念拉满!赛程优劣分化,阿森纳与曼城上演终极博弈!

英超争冠悬念拉满!赛程优劣分化,阿森纳与曼城上演终极博弈!

田先生篮球
2026-05-02 12:06:45
关于吴石将军!国安部最新披露!

关于吴石将军!国安部最新披露!

雍亲王府
2026-05-01 20:00:07
禁止所有中国外交官入境,不让两岸统一,这个国家比美嚣张多了

禁止所有中国外交官入境,不让两岸统一,这个国家比美嚣张多了

共工之锚
2026-05-03 00:08:08
吾米提江辱骂球迷视频曝光!4人拉不住 第一时间捂嘴 染红后挑衅

吾米提江辱骂球迷视频曝光!4人拉不住 第一时间捂嘴 染红后挑衅

奥拜尔
2026-05-03 09:56:35
克鲁斯堡新纪录!吴宜泽逆转对手,清台惊艳价值5公斤黄金

克鲁斯堡新纪录!吴宜泽逆转对手,清台惊艳价值5公斤黄金

林子说事
2026-05-03 07:48:47
“凭啥男士优先?”女生不满专业要求,被嘲:防的就是你这种人!

“凭啥男士优先?”女生不满专业要求,被嘲:防的就是你这种人!

妍妍教育日记
2026-05-02 09:10:23
伦敦世乒赛最新战报:国乒2连胜!张本智和惨败,张本美和轰11-0

伦敦世乒赛最新战报:国乒2连胜!张本智和惨败,张本美和轰11-0

羙晞
2026-05-03 09:15:03
吴宜泽17-16惊天绝杀艾伦!听听赛后英媒的报道,四个字评价小吴

吴宜泽17-16惊天绝杀艾伦!听听赛后英媒的报道,四个字评价小吴

舟望停云
2026-05-03 08:27:20
美联储迎来“史上最有钱”主席,黄金要变天了

美联储迎来“史上最有钱”主席,黄金要变天了

上观新闻
2026-05-02 22:31:04
拉涅利回忆莱斯特城英超夺冠:那年我们原本的目标是拿40分

拉涅利回忆莱斯特城英超夺冠:那年我们原本的目标是拿40分

懂球帝
2026-05-03 11:50:06
希金斯:墨菲这届世锦赛就像神一样,意志力比拼里我关键黑球手软

希金斯:墨菲这届世锦赛就像神一样,意志力比拼里我关键黑球手软

杨华评论
2026-05-03 02:48:59
2026-05-03 12:31:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3097298文章数 7090关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

牛弹琴:比网红还网红 快80岁的特朗普一晚上发8张图

头条要闻

牛弹琴:比网红还网红 快80岁的特朗普一晚上发8张图

体育要闻

裁判准备下班,结果吴宜泽进了决赛

娱乐要闻

蔡卓妍婚后首现身 戴结婚戒指笑容不断

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

旅游
教育
游戏
手机
公开课

旅游要闻

一张票根,从看比赛到游宁夏

教育要闻

能者不想干,中学行政“空心化”何时休?

《黑神话》五一活动现场照曝光!杨奇惊现官方吐槽

手机要闻

小米13手机全系电池升级服务上线:官方原厂配件,定价189元

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版