网易首页 > 网易号 > 正文 申请入驻

3D版ControlNet突破多模态控制,实现高精度3D资产生成

0
分享至



近年来,3D 原生生成模型在游戏、影视和设计领域的资产创建中展现出强大潜力。然而,大多数现有方法仍主要依赖图像作为条件输入,缺乏细粒度、多模态的控制能力,限制了其在实际生产流程中的应用。

为解决这一瓶颈,腾讯混元团队推出了混元 3D-Omni,一个基于 Hunyuan3D 2.1 构建的统一多模态可控 3D 生成框架。该框架不仅支持图像作为输入,还可接受点云、体素、边界框与骨骼姿态等多种控制信号,实现对生成物体几何结构、拓扑与姿态的精细控制。



  • 技术报告:Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets
  • 研发团队:Tencent Hunyuan3D Team, 2025.
  • 混元 3D 主页:https://3d.hunyuan.tencent.com
  • 代码下载:https://github.com/Tencent-Hunyuan/Hunyuan3D-Omni
  • 权重下载:https://huggingface.co/tencent/Hunyuan3D-Omni
  • 报告链接:https://arxiv.org/pdf/2509.21245

一、背景与挑战

随着 3D 数据规模不断扩大,基于原生 3D 表示(如点云、体素)的生成模型逐渐成为主流。这类方法通常结合 3D 变分自编码器(VAE)与潜在扩散模型(LDM),能够高效生成高质量 3D 模型。例如,Hunyuan3D 2.1 借助 VecSet 表示和 Diffusion Transformer(DiT),实现了从单图像到 3D 模型的快速生成。

然而,仅依赖图像输入存在诸多局限:

  • 单视角图像易受图像遮挡、光照或视角干扰,生成结果缺乏几何准确性;
  • 难以精细控制生成对象的比例、姿态和结构细节;
  • 无法适应多模态输入(如深度图、LiDAR 点云、骨架动作等),限制了在实际场景中的使用。

二、Hunyuan3D Omni 的核心创新



图 1:混元 3D-Omni 可支持多种模态作为控制条件,实现精细化 3D 资产生成

混元 3D-Omni 是一个支持多种控制条件的 3D 资产创建系统。它通过两个关键性的创新来推动尖端 3D 生成技术的发展: 其一,采用轻量化的统一控制编码器,实现多种控制条件的统一支持;其二,引入渐进式难度感知训练策略,提升模型对多模态融合的鲁棒性。

作为业界首个统一多种条件控制的 3D 生成模型,混元 3D-Omni 可融合多达四类控制条件,显著提升生成结果的可控性及质量。同时该系统将完整开放推理代码以及权重,加速可控 3D 生成模型在学术领域研究以及工业落地部署。创新点总结如下:

1. 多模态控制信号统一处理

Hunyuan3D-Omni 引入了四种控制信号:

  • 骨骼姿态(Skeleton):用于角色动作控制;
  • 边界框(Bounding Box):调整生成对象在标准空间中的长宽高比例;
  • 点云(Point Cloud):提供几何结构先验,增强细节还原;
  • 体素(Voxel):稀疏几何提示,改善比例与结构一致性。

2. 轻量化统一控制编码器

所有控制信号被统一表示为点云形式,并通过一个共享的控制编码器提取特征。该编码器对不同模态条件进行区分,避免控制目标之间的混淆。最终的控制特征与图像 DINO 特征拼接,作为 DiT 的联合输入。

3. 渐进式难度感知训练策略

在训练过程中,模型随机选择一种控制条件,并偏向采样难度较高的信号(如骨骼姿态),同时降低简单信号(如点云)的权重。这种策略提升了模型对多模态融合的鲁棒性,也能优雅处理输入缺失的情况。

三、关键实现方法



图 2:混元 3D-Omni 模型框架图

混元 3D-Omni 的模型架构建立在混元 3D 2.1的基础之上,通过引入统一的多模态控制编码机制,实现了对点云、体素、边界框和骨骼等多种控制信号的高效融合与处理。其整体框架延续了基于 VecSet 表示的 3D VAE 与 3D 扩散模型结合的主干结构,但在条件控制机制上进行了重要创新。

模型首先使用 3D VAE 将输入点云 (含坐标和法向信息)编码为潜在表示。解码器则从潜在表示重建符号距离函数(SDF)场,并通过等值面提取得到显式网格输出。在扩散阶段,模型采用基于流匹配的 3D Latent Diffusion Model(LDM)。

混元 3D-Omni 的核心创新在于设计了统一控制编码器(Unified Control Encoder),用于处理四种不同类型的控制信号:

  1. 骨骼条件控制采用 3D 骨骼起点坐标表示姿态,通过随机采样不同动作帧构建训练对,实现对生成模型姿态的灵活控制;
  2. 边界框条件将长宽比例转化为标准空间中的八个顶点坐标,通过对渲染图像或点云施加随机扰动,提升模型对比例控制的泛化能力;
  3. 点云支持多种输入来源(如深度相机、LiDAR 或重建模型),并引入随机丢弃与噪声扰动以模拟真实场景;
  4. 体素则通过将点云量化到 [0,16]^3 网格中,再映射至 [-1,1]^3 空间,形成稀疏几何提示。

所有控制信号均被统一表示为点云形式。编码器首先对输入点云进行位置编码,然后通过线性层提取特征,并叠加可学习的模态标识嵌入以区分不同控制类型,最终控制特征与图像特征拼接形成联合条件,输入至 DiT 模块参与去噪过程。

为提升模型对多模态信号的鲁棒性,训练过程中采用难度感知采样策略:1)每批次随机选择一种控制模态;2)对难度较高的信号(如骨骼姿态)赋予更高采样概率,对简单信号(如点云)进行降权重处理;3)支持部分控制信号缺失的容错训练。

四、实验结果



图 3:骨骼控制人物姿态

骨骼控制条件的核心目标在于调整输入图像的姿态特征,该功能主要应用于角色类物体的生成过程中。如图 3 所示,在以骨骼条件作为额外输入的前提下,我们的 Omni 模型能够生成高质量且与目标姿态精确对应的角色几何形体,包括 A 姿态、单手抬起姿态以及双手上举姿态等多种姿态。我们采用了多种风格的角色图像作为条件输入,其中包括从 3D 角色数据渲染得到的图像,以及通过生成式模型合成的图像。

值得注意的是,无论输入风格如何变化,我们的 Omni 模型均能持续生成具有精细几何细节的人体网格,且生成结果与输入骨架保持严格对齐,未出现任何畸变。



图 4:边界框控制不同比例



图 5:边界框控制解决单图生成 “纸片” 问题

边界框控制信号能够自由调节生成物体的长宽比例。如图 4 所示,在相同图像条件下,不同尺寸的边界框成功调控了生成模型的尺寸。需要特别指出的是,这种尺寸调控并非简单的线性拉伸:当沙发长度增加时,模型会自动生成额外的支撑腿结构;凯旋门模型在比例调整后同样保持合理的建筑形态。这证明边界框控制能触发生成网络的智能几何重构能力。

更为重要的是,如图 5 的对比实验所示,当仅用单视角图像作为条件生成 “纸片物体” 这类失败情况下,注入边界框信号能够提供线索,成功生成正确的 3D 资产。



图 6:点云控制补充三维信息

针对点云控制,我们展示了两种设置下的生成结果:仅使用图像输入,以及图像结合点云控制输入。对于后者,我们进一步考虑了三种点云输入类型:完整点云、深度图像生成的表面点云以及扫描获得的噪声点云。

在前两个案例中可以看到,提供完整点云作为控制信号能有效解决单视图输入固有的几何歧义问题,并成功还原被遮挡的内部结构。在第三和第四个案例中,通过深度图获取的表面点云同样减轻了单视图歧义,确保生成几何在尺度上与真实物体精确对齐。在第五个案例中,即使输入来自扫描的噪声表面点云,生成几何与原始物体的对齐效果仍明显优于仅使用图像的基线方法,有效解决了图像编码器容易忽略真实物体姿态的问题。

综上所述,一旦提供点云输入,我们的 Omni 模型能够有效将生成几何与真实几何结构对齐,即使是部分点云也能作为提升 3D 几何生成质量的重要线索,显著缓解了单视图歧义。



图 7:体素控制物体结构

与点云条件相似,体素条件通过提供稀疏几何线索,有效解决单张图像输入固有的歧义性问题。如图 7 所示,在第一个和第五个案例中,额外的体素控制条件确保生成物体在尺度上与真实几何结构精确对齐。案例 2、3、4 进一步展示了体素条件在恢复精细几何细节方面的显著效果:成功重建盾牌的平整表面、精准捕捉鸟类翅膀的形态特征,以及高度还原杯子的低多边形风格几何结构。

这些实例充分证明,引入体素条件后,模型能够同时准确重建物体的比例关系和细节特征,从而全面提升生成质量。









五、总结

混元 3D-Omni 作为一个轻量级、多模态、可控的 3D 生成框架,在不破坏基础模型能力的前提下,通过统一控制编码器整合多种几何与控制信号。

实验表明,该框架能够显著提升生成准确性、支持几何感知的变换,并增强生产流程的稳定性与鲁棒性。这项研究不仅推动了 3D 生成模型的可控性与实用性,也为未来融合多模态信号的通用 3D 生成奠定了基础。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世界上最旺自己的一个规律:1个字

世界上最旺自己的一个规律:1个字

知和大叔
2026-01-15 23:51:48
古特雷斯下课, 秘书长候选人诞生, 对华态度坚决, 中方看破美心思

古特雷斯下课, 秘书长候选人诞生, 对华态度坚决, 中方看破美心思

素年文史
2026-01-26 13:19:14
国际金价首破5000美元大关!金饰克价已超1570元,专家预测仍将震荡上行

国际金价首破5000美元大关!金饰克价已超1570元,专家预测仍将震荡上行

红星资本局
2026-01-26 12:27:06
韩国也没想到,入籍中国5年的林孝埈,如今竟成韩国“头号劲敌”

韩国也没想到,入籍中国5年的林孝埈,如今竟成韩国“头号劲敌”

情感大头说说
2026-01-26 15:47:06
甲状腺与莲子的关系,建议:若想保护甲状腺健康,最好少吃4种物

甲状腺与莲子的关系,建议:若想保护甲状腺健康,最好少吃4种物

垚垚分享健康
2026-01-25 09:20:05
时长超三小时的6部史诗级电影,每一部都堪称电影界的里程碑

时长超三小时的6部史诗级电影,每一部都堪称电影界的里程碑

小微看电影
2026-01-26 09:55:03
香港偶遇Lisa不敢认!素颜戴眼镜又黑又壮像菲佣,壮硕身材引热议

香港偶遇Lisa不敢认!素颜戴眼镜又黑又壮像菲佣,壮硕身材引热议

往史过眼云烟
2026-01-26 22:34:21
正式上任!王楠新岗位曝光,已抵达山东,郭斌支持,刘国梁期待

正式上任!王楠新岗位曝光,已抵达山东,郭斌支持,刘国梁期待

小鬼头体育
2026-01-27 00:24:40
英伟达的芯片,竟然被一家无锡公司在悄悄卡着脖子

英伟达的芯片,竟然被一家无锡公司在悄悄卡着脖子

奔流财经社
2026-01-26 08:11:25
蔡允革,赴任广西

蔡允革,赴任广西

新京报政事儿
2026-01-26 09:29:33
过75岁还每天喝牛奶,肠癌患病率要比其他人要高很多?赶紧看看

过75岁还每天喝牛奶,肠癌患病率要比其他人要高很多?赶紧看看

健康之光
2026-01-26 09:02:40
意外之喜:德约科维奇打破费德勒的澳网纪录

意外之喜:德约科维奇打破费德勒的澳网纪录

油泼辣不辣
2026-01-26 11:56:32
快船15胜3负!伦纳德谈球迷将直播“吃推”:换点别的东西吃吧

快船15胜3负!伦纳德谈球迷将直播“吃推”:换点别的东西吃吧

北青网-北京青年报
2026-01-26 20:30:03
“小刘亦菲”王楚然崛起,成为新一代仙系花朵!

“小刘亦菲”王楚然崛起,成为新一代仙系花朵!

时尚搭配Anne
2026-01-03 10:00:09
杨颖高定礼服搭配国货鞋款,遭设计师骂廉价,中国消费者被惹怒

杨颖高定礼服搭配国货鞋款,遭设计师骂廉价,中国消费者被惹怒

新金牌娱乐观察家
2026-01-26 09:55:14
中国股市:但凡主力吸筹完毕,股价在拉升前,都会出现这三个信号

中国股市:但凡主力吸筹完毕,股价在拉升前,都会出现这三个信号

股经纵横谈
2026-01-21 15:48:27
广西一精神小妹结婚,身上多处纹身新郎小她10岁,网友:相当炸裂

广西一精神小妹结婚,身上多处纹身新郎小她10岁,网友:相当炸裂

唐小糖说情感
2026-01-07 16:37:28
中纪委明确饭局红线:公职人员,这5类饭局别碰

中纪委明确饭局红线:公职人员,这5类饭局别碰

娱乐督察中
2026-01-16 16:25:33
霍震霆也没想到,被寄予厚望的儿媳郭晶晶,竟遭到一个这么大教训

霍震霆也没想到,被寄予厚望的儿媳郭晶晶,竟遭到一个这么大教训

银河史记
2026-01-26 16:14:29
傻丫头卖血给我凑路费,二十年后我衣锦还乡,她却瘸腿扫大街

傻丫头卖血给我凑路费,二十年后我衣锦还乡,她却瘸腿扫大街

白云故事
2026-01-20 17:25:06
2026-01-27 03:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12193文章数 142549关注度
往期回顾 全部

科技要闻

印奇再上牌桌,阶跃融资50亿

头条要闻

印度尼帕病毒现跨区域传播 世卫:或引起全球大流行

头条要闻

印度尼帕病毒现跨区域传播 世卫:或引起全球大流行

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被抵制成功!辽视春晚已将她除名

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

游戏
艺术
健康
数码
手机

分析师称PS6不会在2027年到来!停滞两年或不是坏事

艺术要闻

沙特急刹车,NEOM规模大缩水,线性摩天楼留小段

耳石脱落为何让人天旋地转+恶心?

数码要闻

苹果推出第二代AirTag 具备更远搜索距离、更响亮的扬声器等

手机要闻

华为Pura X2、OPPO Find N6、荣耀Magic V6,选择纠结了!

无障碍浏览 进入关怀版