清华北航等打造"Droplet3D"：从视频中学会3D创作的AI系统|编码器|droplet|图像生成基础模型

分享至

一项令人兴奋的技术突破正在改变我们创建3D内容的方式。由IEIT Systems、南开大学和清华大学的研究团队联合开发的"Droplet3D"系统，就像是给AI装上了一双"会看视频学3D"的眼睛。这项研究发表于2025年8月，感兴趣的读者可以通过arXiv:2508.20470v1访问完整论文。

想象一下，如果你看过无数部电影和视频，是不是对物体在不同角度下的样子有了直观的理解？比如，你知道一个苹果从侧面看是什么形状，从上面看又是什么样子。Droplet3D就是基于这样的思路工作的——它通过观看大量视频来学习物体的三维特征，然后能够根据一张图片和文字描述，创造出完整的3D模型。

这个系统最神奇的地方在于，它不仅仅依赖传统的3D数据进行学习，而是巧妙地利用了互联网上丰富的视频资源。就像一个勤奋的学生通过观看各种角度的教学视频来理解立体几何一样，Droplet3D通过分析视频中物体的多角度展示，掌握了创建3D内容的诀窍。

### 一、从数据稀缺到视频赋能：解决3D创作的根本难题

在传统的3D内容创作领域，研究人员面临着一个棘手的问题：3D数据太少了。这就像是想要教一个孩子认识动物，但只有寥寥几张动物图片，而没有足够多样化的素材供其学习。目前最大的开源3D数据集Objaverse-XL也仅包含1000万个样本，这相比于拥有数十亿样本的图像-文本数据集来说，简直是杯水车薪。

这种数据稀缺带来了两个严重后果。首先，有限的3D数据覆盖范围不够全面，就像用有限的食材很难烹饪出丰富多样的菜肴一样，现有的3D生成模型难以捕捉真实世界的全貌。其次，相比于文本和图像等其他媒体形式，3D生成模型学到的语义知识相对贫乏，这限制了它们生成多样化内容的能力。

研究团队意识到，网络上丰富的视频资源可能是解决这个问题的关键。视频本身就包含了物体从多个角度的信息，这种"天然的3D特性"为训练更强大的3D生成模型提供了新的可能。当你观看一个物体旋转的视频时，你实际上是在从不同视角观察同一个物体，这正是3D建模所需要的核心信息。

更重要的是，视频数据的规模优势使得模型能够学习到比传统3D数据更广泛的语义知识。比如，当模型需要生成一个"QR码"这样的物体时，虽然这类物体在3D数据集中很少见，但在视频数据中却相对常见。通过视频学习，模型能够理解这些概念并成功生成相应的3D内容。

### 二、构建史上最大多视角3D数据集：Droplet3D-4M

为了将"从视频学3D"的想法变成现实，研究团队构建了一个名为Droplet3D-4M的庞大数据集。这个数据集包含400万个3D模型，每个模型都配备了85帧的360度环绕视频和平均260个单词的详细文本描述。这就像是为每个3D物体拍摄了一部"纪录片"，从各个角度详细记录其外观特征。

整个数据集的构建过程就像是一个精心设计的制片工厂。研究团队首先从Objaverse-XL收集了630万个原始3D模型，然后采用了一套巧妙的"粗渲染-筛选-精渲染"流程。这种方法就像是电影制作中的"试拍-审查-正式拍摄"过程，既保证了质量，又大大提高了效率，将计算开销降低了4到7倍。

在渲染阶段，每个3D模型被放置在一个虚拟的摄影棚中，摄像机沿着一个固定半径的圆形轨迹进行拍摄，确保相邻帧之间的角度差距严格控制在5度以内。这种精确的设置保证了生成视频的连贯性，就像专业摄影师在拍摄产品展示视频时需要保持稳定的运镜速度一样。

数据集最独特的创新在于其文本描述系统。与传统数据集只提供简单的物体标签不同，Droplet3D-4M为每个物体提供了多视角层次的详细描述。这些描述不仅包含物体的整体外观特征，还特别注明了从不同角度观察时的变化。比如，在描述一个背着背包的卡通人物时，文本会详细说明"从侧面看可以看到背包的轮廓，从背面看背包完全显露"等视角相关的信息。

为了生成这些高质量的文本描述，研究团队采用了一套创新的训练方法。他们首先使用监督学习对多模态大语言模型进行微调，然后采用GRPO（Group Relative Policy Optimization）强化学习技术进一步优化。这个过程就像是训练一个专业的艺术品解说员，不仅要求其能准确描述物体的基本特征，还要能够详细解释从不同角度观察时的视觉变化。

### 三、Droplet3D技术架构：继承视频模型的智慧

Droplet3D系统的核心理念是继承预训练视频生成模型的强大能力，然后将这些能力迁移到3D内容生成任务上。这就像是让一个已经掌握了绘画技巧的艺术家去学习雕塑，虽然媒介不同，但底层的空间感知和创作能力是可以互相借鉴的。

系统选择DropletVideo作为基础模型并非偶然。DropletVideo是一个专门考虑时空一致性的视频生成模型，它在训练过程中接触了大量包含空间一致性约束的视频片段，比如街景漫游或人物环绕拍摄等。这些特性使其天然具备了3D一致性的潜力，就像一个经常观看旋转展示视频的人会对物体的立体结构有更好的直觉一样。

在技术架构上，Droplet3D包含两个核心组件：3D因果变分自编码器（3D Causal VAE）和3D模态专家变换器。3D因果VAE的作用就像是一个智能的视频压缩器，它能够将包含85帧图像的环绕视频压缩成紧凑的潜在空间表示，同时保持视频的时间连续性和空间一致性。这种设计确保了生成的视频不会出现闪烁或不连贯的问题。

3D模态专家变换器则负责融合文本和视觉信息。这个组件使用了3D全注意力机制，能够同时处理文本输入和视频输入。相比于传统的解耦方法，这种集成策略能够更好地捕捉视频中的动态变化，并增强生成内容在语义一致性和多样性方面的表现。

### 四、用户体验优化：让任意输入变得可能

为了让Droplet3D能够处理来自真实用户的各种输入，研究团队设计了两个关键的预处理模块：文本重写模块和图像视角对齐模块。

文本重写模块就像是一个贴心的翻译官，它能够将用户提供的简单文本描述转换成符合训练数据分布的详细描述。比如，当用户只输入"一个卡通熊猫宇航员"时，系统会自动扩展为包含外观细节、材质描述和多视角变化的完整叙述。这个模块通过LoRA技术对开源语言模型进行微调，使用约500个领域内样本就能达到理想的效果。

图像视角对齐模块解决了另一个实际问题：用户上传的图像可能来自任意角度。传统的3D生成方法通常只有在提供标准视角（如正面、侧面等）时才能达到最佳效果，这对用户来说是一个很大的限制。研究团队基于FLUX.1-Kontext-dev模型，通过LoRA微调技术训练了一个视角对齐模型。这个模型能够将任意角度拍摄的图像转换为标准的正面、左侧、右侧或背面视角，就像是一个智能的"角度校正器"。

这两个模块的设计体现了研究团队对用户体验的深入思考。它们不仅解决了技术上的挑战，更重要的是降低了普通用户使用系统的门槛，让3D内容创作变得更加便捷和直观。

### 五、实验验证：超越传统方法的全面表现

研究团队进行了全面的实验验证，结果表明Droplet3D在多个指标上都显著超越了现有方法。在与LGM和MVControl等同时支持图像和文本输入的3D生成方法比较中，Droplet3D在PSNR、LPIPS、MSE和CLIP-S等关键指标上都取得了最佳表现。

特别值得注意的是，Droplet3D在CLIP-S指标上的表现尤为出色，达到了0.866的高分，远超其他方法。CLIP-S指标衡量的是生成内容与文本描述之间的语义匹配程度，这一结果证明了视频预训练在增强模型语义理解能力方面的有效性。研究团队将这一优势归因于T5文本编码器的使用以及在大规模视频数据上的预训练。

消融实验进一步验证了各个组件的重要性。对比实验显示，相比于原始的DropletVideo模型，经过Droplet3D-4M数据集微调后的模型在空间一致性方面有了显著提升。这就像是一个原本只会画2D画的画家，通过专门的立体绘画训练后，能够创作出更加立体和一致的作品。

研究还对比了不同视频生成模型作为基础架构的效果。结果显示，DropletVideo确实比同等规模的其他模型（如Cogvideox-Fun）更适合作为3D生成的基础，甚至与参数量更大的模型（如Wan2.1-I2V-14B和Step-Video-TI2V-30B）相比也毫不逊色。这验证了选择具有内在空间一致性能力的视频模型作为基础的重要性。

### 六、创新应用展示：从可控创作到场景生成

Droplet3D展现出了多种令人印象深刻的应用能力，其中最突出的是基于语言提示的可控创作功能。这种能力就像是给了用户一支魔法画笔，能够根据文字描述精确地修改3D对象的特定部分。

在一个经典的演示案例中，研究团队展示了如何基于同一张熊猫宇航员的图像，通过不同的文字描述生成具有不同背包的3D模型。当描述中提到"太空背包"时，生成的模型会显示一个科技感十足的装备；当提到"橙色背包"时，背部会出现一个橙色的实验装备；而当描述为"彩虹色能量球"时，则会生成一个装有发光能量核心的透明背包。这种精细的控制能力在传统的3D生成方法中是很难实现的。

系统还表现出了强大的风格化输入处理能力。即使训练数据完全基于真实感渲染，Droplet3D仍然能够很好地处理手绘草图、漫画风格图像等风格化输入。这种泛化能力可能源自其视频预训练阶段接触的丰富视觉内容，使模型具备了更强的通用视觉理解能力。

更令人兴奋的是，Droplet3D展现出了场景级3D内容生成的潜力。虽然训练数据Droplet3D-4M只包含物体级别的样本，但系统能够处理包含复杂场景的输入，如城堡庄园、雷电岛屿、夜间河畔和太空站内部等。这种能力完全继承自DropletVideo的视频生成能力，展现了视频驱动方法的独特优势。

在实际应用方面，生成的多视角图像可以进一步转换为多种3D表示形式。研究团队展示了基于Hunyuan3D-2的纹理网格生成结果，以及基于3D高斯涂抹技术的点云重建效果。这些下游应用证明了系统生成内容的实用性和工业级质量。

### 七、技术细节与创新突破

Droplet3D的成功离不开一系列精心设计的技术细节。在模型训练方面，系统采用了DropletVideo-5B模型作为权重初始化，使用t5-v1_1-xxl作为文本编码器，并将最大token长度从226扩展到400，以适应更长的文本描述。这种扩展就像是给翻译官配备了更大的词汇库，能够处理更复杂和详细的描述内容。

模型架构基于MMDiT系列，包含42个层，每层48个注意力头，每个头的维度为64。时间步嵌入维度设置为512。在优化方面，使用Adam优化器，权重衰减为3×10^-2，学习率为2×10^-5。采样帧数固定为85帧，使用bfloat16混合精度训练方法。

在推理阶段，分类器无关引导尺度设置为6.5，以增强生成环绕视频的运动平滑性。当在Droplet3D-4M数据集上训练时，模型支持512分辨率的图像生成。这些参数的精心调节确保了生成内容的质量和一致性。

对于正则视角对齐训练，LoRA的网络维度设置为128，学习率为1e-4，使用AdamW8bit优化器。这种轻量级的微调方法既保证了效果，又控制了计算成本。

在数据质量控制方面，研究团队采用了严格的筛选标准。使用LAION美学模型计算美学分数，DOVER-Technical模型评估图像质量，只有同时超过4.0分的样本才会被保留。统计结果显示，约77%的样本达到了美学分数4.0以上的标准，约81%的样本在图像质量方面超过了4.0分，这确保了数据集的整体高质量水平。

### 八、未来展望与影响意义

Droplet3D的成功验证了"从视频学习3D"这一创新范式的可行性，为3D内容生成领域开辟了新的发展方向。这种方法的核心价值在于充分利用了互联网上丰富的视频资源，解决了传统3D数据稀缺的根本问题。

从技术发展趋势来看，视频驱动的3D生成方法可能会成为未来的主流方向。随着视频内容的持续增长和视频理解技术的不断进步，这类方法有望在数据规模、语义理解和生成质量等方面继续获得优势。特别是在处理复杂场景和理解抽象概念方面，视频预训练带来的语义知识将发挥越来越重要的作用。

对于内容创作产业而言，Droplet3D展示的能力具有重要的实践价值。支持图像和文本双重输入的特性使得创作者能够更精确地控制生成结果，这种细粒度的控制能力在游戏开发、动画制作、虚拟现实等领域都有广泛的应用前景。特别是系统展现出的场景级生成潜力，可能会改变传统的3D场景构建流程。

研究团队将所有资源完全开源，包括Droplet3D-4M数据集、完整的技术框架、代码实现和模型权重，这种开放态度将有助于推动整个领域的快速发展。开源资源的提供降低了其他研究者的入门门槛，有望催生更多创新应用和技术改进。

从更广阔的视角来看，这项研究体现了人工智能发展中的一个重要趋势：通过多模态学习和知识迁移来解决特定领域的数据稀缺问题。这种思路不仅适用于3D生成，也可能在其他面临类似挑战的领域发挥作用。

说到底，Droplet3D不仅仅是一个技术突破，更是一个思维方式的转变。它告诉我们，当直接数据不足时，我们可以从相关的丰富数据中学习迁移知识，这种"曲线救国"的策略往往能够取得意想不到的效果。对于普通用户而言，这意味着3D内容创作的门槛正在快速降低，未来我们可能只需要一张照片和几句话，就能创造出专业级的3D作品。这种技术进步不仅会改变内容创作的方式，也会为虚拟现实、增强现实和元宇宙等新兴领域提供强有力的技术支撑。有兴趣深入了解这项研究的读者，可以访问完整论文获取更多技术细节和实验结果。

Q&A

Q1：Droplet3D-4M数据集有什么特别之处？为什么比其他3D数据集更厉害？

A：Droplet3D-4M包含400万个3D模型，每个都配有85帧360度环绕视频和平均260词的详细文本描述。与其他数据集不同，它的文本描述是"多视角层次"的，会详细说明物体从不同角度看的变化，比如"从侧面能看到背包轮廓，从背面背包完全显露"。这就像给每个3D物体拍了纪录片并配了专业解说，比传统只有简单标签的数据集丰富得多。

Q2：为什么要用视频来训练3D生成模型？这样做有什么好处？

A：因为3D数据太稀缺了，最大的3D数据集也只有1000万样本，而图像数据集有几十亿样本。视频天然包含多角度信息，一个物体旋转的视频实际上就是从不同视角观察同一物体。更重要的是，视频包含更丰富的语义知识，比如生成"QR码"这种在3D数据中很少见但在视频中常见的物体。这就像让AI通过看电影学会了立体感知。

Q3：普通用户可以用Droplet3D做什么？需要什么技术基础吗？

A：用户只需提供一张图片和文字描述就能生成3D模型。系统很智能，会自动把简单描述扩展成详细文本，也会把任意角度的照片调整到标准视角。比如上传一张随手拍的熊猫照片，描述"橙色背包"，就能生成带橙色背包的3D熊猫模型。生成的结果可以转换成游戏用的网格模型或VR用的高斯涂抹格式，不需要专业3D建模知识。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.