网易首页 > 网易号 > 正文 申请入驻

3D版ControlNet突破多模态控制,实现高精度3D资产生成

0
分享至



近年来,3D 原生生成模型在游戏、影视和设计领域的资产创建中展现出强大潜力。然而,大多数现有方法仍主要依赖图像作为条件输入,缺乏细粒度、多模态的控制能力,限制了其在实际生产流程中的应用。

为解决这一瓶颈,腾讯混元团队推出了混元 3D-Omni,一个基于 Hunyuan3D 2.1 构建的统一多模态可控 3D 生成框架。该框架不仅支持图像作为输入,还可接受点云、体素、边界框与骨骼姿态等多种控制信号,实现对生成物体几何结构、拓扑与姿态的精细控制。



  • 技术报告:Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets
  • 研发团队:Tencent Hunyuan3D Team, 2025.
  • 混元 3D 主页:https://3d.hunyuan.tencent.com
  • 代码下载:https://github.com/Tencent-Hunyuan/Hunyuan3D-Omni
  • 权重下载:https://huggingface.co/tencent/Hunyuan3D-Omni
  • 报告链接:https://arxiv.org/pdf/2509.21245

一、背景与挑战

随着 3D 数据规模不断扩大,基于原生 3D 表示(如点云、体素)的生成模型逐渐成为主流。这类方法通常结合 3D 变分自编码器(VAE)与潜在扩散模型(LDM),能够高效生成高质量 3D 模型。例如,Hunyuan3D 2.1 借助 VecSet 表示和 Diffusion Transformer(DiT),实现了从单图像到 3D 模型的快速生成。

然而,仅依赖图像输入存在诸多局限:

  • 单视角图像易受图像遮挡、光照或视角干扰,生成结果缺乏几何准确性;
  • 难以精细控制生成对象的比例、姿态和结构细节;
  • 无法适应多模态输入(如深度图、LiDAR 点云、骨架动作等),限制了在实际场景中的使用。

二、Hunyuan3D Omni 的核心创新



图 1:混元 3D-Omni 可支持多种模态作为控制条件,实现精细化 3D 资产生成

混元 3D-Omni 是一个支持多种控制条件的 3D 资产创建系统。它通过两个关键性的创新来推动尖端 3D 生成技术的发展: 其一,采用轻量化的统一控制编码器,实现多种控制条件的统一支持;其二,引入渐进式难度感知训练策略,提升模型对多模态融合的鲁棒性。

作为业界首个统一多种条件控制的 3D 生成模型,混元 3D-Omni 可融合多达四类控制条件,显著提升生成结果的可控性及质量。同时该系统将完整开放推理代码以及权重,加速可控 3D 生成模型在学术领域研究以及工业落地部署。创新点总结如下:

1. 多模态控制信号统一处理

Hunyuan3D-Omni 引入了四种控制信号:

  • 骨骼姿态(Skeleton):用于角色动作控制;
  • 边界框(Bounding Box):调整生成对象在标准空间中的长宽高比例;
  • 点云(Point Cloud):提供几何结构先验,增强细节还原;
  • 体素(Voxel):稀疏几何提示,改善比例与结构一致性。

2. 轻量化统一控制编码器

所有控制信号被统一表示为点云形式,并通过一个共享的控制编码器提取特征。该编码器对不同模态条件进行区分,避免控制目标之间的混淆。最终的控制特征与图像 DINO 特征拼接,作为 DiT 的联合输入。

3. 渐进式难度感知训练策略

在训练过程中,模型随机选择一种控制条件,并偏向采样难度较高的信号(如骨骼姿态),同时降低简单信号(如点云)的权重。这种策略提升了模型对多模态融合的鲁棒性,也能优雅处理输入缺失的情况。

三、关键实现方法



图 2:混元 3D-Omni 模型框架图

混元 3D-Omni 的模型架构建立在混元 3D 2.1的基础之上,通过引入统一的多模态控制编码机制,实现了对点云、体素、边界框和骨骼等多种控制信号的高效融合与处理。其整体框架延续了基于 VecSet 表示的 3D VAE 与 3D 扩散模型结合的主干结构,但在条件控制机制上进行了重要创新。

模型首先使用 3D VAE 将输入点云 (含坐标和法向信息)编码为潜在表示。解码器则从潜在表示重建符号距离函数(SDF)场,并通过等值面提取得到显式网格输出。在扩散阶段,模型采用基于流匹配的 3D Latent Diffusion Model(LDM)。

混元 3D-Omni 的核心创新在于设计了统一控制编码器(Unified Control Encoder),用于处理四种不同类型的控制信号:

  1. 骨骼条件控制采用 3D 骨骼起点坐标表示姿态,通过随机采样不同动作帧构建训练对,实现对生成模型姿态的灵活控制;
  2. 边界框条件将长宽比例转化为标准空间中的八个顶点坐标,通过对渲染图像或点云施加随机扰动,提升模型对比例控制的泛化能力;
  3. 点云支持多种输入来源(如深度相机、LiDAR 或重建模型),并引入随机丢弃与噪声扰动以模拟真实场景;
  4. 体素则通过将点云量化到 [0,16]^3 网格中,再映射至 [-1,1]^3 空间,形成稀疏几何提示。

所有控制信号均被统一表示为点云形式。编码器首先对输入点云进行位置编码,然后通过线性层提取特征,并叠加可学习的模态标识嵌入以区分不同控制类型,最终控制特征与图像特征拼接形成联合条件,输入至 DiT 模块参与去噪过程。

为提升模型对多模态信号的鲁棒性,训练过程中采用难度感知采样策略:1)每批次随机选择一种控制模态;2)对难度较高的信号(如骨骼姿态)赋予更高采样概率,对简单信号(如点云)进行降权重处理;3)支持部分控制信号缺失的容错训练。

四、实验结果



图 3:骨骼控制人物姿态

骨骼控制条件的核心目标在于调整输入图像的姿态特征,该功能主要应用于角色类物体的生成过程中。如图 3 所示,在以骨骼条件作为额外输入的前提下,我们的 Omni 模型能够生成高质量且与目标姿态精确对应的角色几何形体,包括 A 姿态、单手抬起姿态以及双手上举姿态等多种姿态。我们采用了多种风格的角色图像作为条件输入,其中包括从 3D 角色数据渲染得到的图像,以及通过生成式模型合成的图像。

值得注意的是,无论输入风格如何变化,我们的 Omni 模型均能持续生成具有精细几何细节的人体网格,且生成结果与输入骨架保持严格对齐,未出现任何畸变。



图 4:边界框控制不同比例



图 5:边界框控制解决单图生成 “纸片” 问题

边界框控制信号能够自由调节生成物体的长宽比例。如图 4 所示,在相同图像条件下,不同尺寸的边界框成功调控了生成模型的尺寸。需要特别指出的是,这种尺寸调控并非简单的线性拉伸:当沙发长度增加时,模型会自动生成额外的支撑腿结构;凯旋门模型在比例调整后同样保持合理的建筑形态。这证明边界框控制能触发生成网络的智能几何重构能力。

更为重要的是,如图 5 的对比实验所示,当仅用单视角图像作为条件生成 “纸片物体” 这类失败情况下,注入边界框信号能够提供线索,成功生成正确的 3D 资产。



图 6:点云控制补充三维信息

针对点云控制,我们展示了两种设置下的生成结果:仅使用图像输入,以及图像结合点云控制输入。对于后者,我们进一步考虑了三种点云输入类型:完整点云、深度图像生成的表面点云以及扫描获得的噪声点云。

在前两个案例中可以看到,提供完整点云作为控制信号能有效解决单视图输入固有的几何歧义问题,并成功还原被遮挡的内部结构。在第三和第四个案例中,通过深度图获取的表面点云同样减轻了单视图歧义,确保生成几何在尺度上与真实物体精确对齐。在第五个案例中,即使输入来自扫描的噪声表面点云,生成几何与原始物体的对齐效果仍明显优于仅使用图像的基线方法,有效解决了图像编码器容易忽略真实物体姿态的问题。

综上所述,一旦提供点云输入,我们的 Omni 模型能够有效将生成几何与真实几何结构对齐,即使是部分点云也能作为提升 3D 几何生成质量的重要线索,显著缓解了单视图歧义。



图 7:体素控制物体结构

与点云条件相似,体素条件通过提供稀疏几何线索,有效解决单张图像输入固有的歧义性问题。如图 7 所示,在第一个和第五个案例中,额外的体素控制条件确保生成物体在尺度上与真实几何结构精确对齐。案例 2、3、4 进一步展示了体素条件在恢复精细几何细节方面的显著效果:成功重建盾牌的平整表面、精准捕捉鸟类翅膀的形态特征,以及高度还原杯子的低多边形风格几何结构。

这些实例充分证明,引入体素条件后,模型能够同时准确重建物体的比例关系和细节特征,从而全面提升生成质量。









五、总结

混元 3D-Omni 作为一个轻量级、多模态、可控的 3D 生成框架,在不破坏基础模型能力的前提下,通过统一控制编码器整合多种几何与控制信号。

实验表明,该框架能够显著提升生成准确性、支持几何感知的变换,并增强生产流程的稳定性与鲁棒性。这项研究不仅推动了 3D 生成模型的可控性与实用性,也为未来融合多模态信号的通用 3D 生成奠定了基础。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
出乎意料!继王曼昱后,陈梦也避开跟孙颖莎打比赛,放弃女单一号

出乎意料!继王曼昱后,陈梦也避开跟孙颖莎打比赛,放弃女单一号

侃球熊弟
2025-11-19 17:44:51
杭州官宣取消灵隐寺门票

杭州官宣取消灵隐寺门票

界面新闻
2025-11-19 10:37:00
美国制裁即将生效 俄罗斯原油价格暴跌至每桶40美元以下!

美国制裁即将生效 俄罗斯原油价格暴跌至每桶40美元以下!

财联社
2025-11-19 16:11:19
54.3万人取消赴日机票,俄罗斯泰国争抢中国客源

54.3万人取消赴日机票,俄罗斯泰国争抢中国客源

21世纪经济报道
2025-11-19 20:20:05
施一公:这是中国潜伏的最大危机!(发人深省)

施一公:这是中国潜伏的最大危机!(发人深省)

霹雳炮
2025-11-18 20:38:34
击败吴艳妮的 “黑马” 刘景扬是谁?

击败吴艳妮的 “黑马” 刘景扬是谁?

后体工队长
2025-11-19 23:09:38
黄晓明和杨颖的结婚照,当时真是挺大胆的

黄晓明和杨颖的结婚照,当时真是挺大胆的

可乐谈情感
2025-11-20 01:26:37
中日在联合国爆发激战,联合国通告全日本:台湾是中国的一个省

中日在联合国爆发激战,联合国通告全日本:台湾是中国的一个省

时时有聊
2025-11-19 07:35:18
可耻的是,捅郭伟马蜂窝的是个学生

可耻的是,捅郭伟马蜂窝的是个学生

关尔东
2025-11-19 17:13:25
为什么越南女子劫法场,却让全世界刮目相看?

为什么越南女子劫法场,却让全世界刮目相看?

历史总在押韵
2025-11-20 00:17:37
男女食堂里亲热:肮脏画面流出,全过程披露,女方一动作令人作呕

男女食堂里亲热:肮脏画面流出,全过程披露,女方一动作令人作呕

博士观察
2025-11-19 10:45:17
加入CPTPP:关乎未来的“高难度闯关”搏杀

加入CPTPP:关乎未来的“高难度闯关”搏杀

墨心人
2025-11-19 19:42:48
中方暂停进口日本水产品 外交部:即使日本水产品向中国出口也不会有市场

中方暂停进口日本水产品 外交部:即使日本水产品向中国出口也不会有市场

每日经济新闻
2025-11-19 17:41:46
日官员沉默离华,日媒称中方一个举动罕见,这次会谈信息有点多

日官员沉默离华,日媒称中方一个举动罕见,这次会谈信息有点多

之乎者也小鱼儿
2025-11-19 15:50:30
荷兰政府:已暂停对安世半导体的干预

荷兰政府:已暂停对安世半导体的干预

半导体产业纵横
2025-11-19 18:27:31
排面!40岁C罗造访白宫+微笑握手特朗普,美国总统宣布:他是GOAT

排面!40岁C罗造访白宫+微笑握手特朗普,美国总统宣布:他是GOAT

我爱英超
2025-11-19 07:10:18
中日关系高度紧张:大量中国游客赴日!网友:富士山下都是中国人

中日关系高度紧张:大量中国游客赴日!网友:富士山下都是中国人

大国纪录
2025-11-19 15:52:44
请做好充分准备,世界即将变天!

请做好充分准备,世界即将变天!

水木然
2025-11-17 23:56:09
韩媒警告:一旦东亚开战,韩国导弹将降落北京,同时摧毁中国海军

韩媒警告:一旦东亚开战,韩国导弹将降落北京,同时摧毁中国海军

优趣纪史记
2025-11-20 00:06:12
浙江16岁小将陈妤颉夺女子200米冠军,成为本届全运会双冠王

浙江16岁小将陈妤颉夺女子200米冠军,成为本届全运会双冠王

懂球帝
2025-11-19 20:44:03
2025-11-20 04:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11756文章数 142508关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

手机
艺术
本地
公开课
军事航空

手机要闻

OPPO Find X9系列海外卖爆!销量接近上代2倍

艺术要闻

惊呆了!外国画家如何颠覆水浒108将的形象?

本地新闻

第十二届影展携手重庆来福士丨两江交汇,光影共生

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

量大管饱 中国军网在海外发布备战视频

无障碍浏览 进入关怀版