NeurIPS 2025 | 效果拔群！GuideFlow3D：基于Rectified流的3D风格迁移框架|体素|纹理|正式版模型

NeurIPS 2025 | 效果拔群！GuideFlow3D：基于Rectified流的3D风格迁移框架

2025-12-23 08:24:50　来源: 将门创投

北京举报

分享至

随着3D生成技术的迅猛发展，数字内容创作在游戏开发、增强现实等领域的应用愈加广泛，尤其是将外观（包括纹理和精细几何细节）迁移到3D资产的需求也日益迫切。然而，现有方法在输入与参考对象几何差异较大时，往往难以协调全局结构保持与局部细节迁移之间的平衡，从而导致生成的结果失真。

本文介绍了一项由斯坦福大学和巴黎高科等研究团队共同完成的工作，该工作已发表在2025年人工智能顶级会议NeurIPS上。研究团队提出了一种优化引导的Rectified Flow方法GuideFlow3D，旨在无需微调预训练模型的情况下，在推理阶段精确调控3D外观的迁移效果。其核心创新在于构建了两种独立且互补的引导损失信号：

（1）部件感知外观损失，确保外观与语义部件对齐，严格控制几何与外观的不一致性；

（2）自相似结构损失可以保持纹理与目标几何的适配性，增强细节的丰富性。

GuideFlow3D不仅有效地解决了外观迁移中的几何不一致问题，还赋予了用户高度的可控性，使得用户能够根据外观源模态（图像/文本/3D模型）灵活选择迁移策略。

论文题目： GuideFlow3D: Optimization-Guided Rectified Flow For Appearance Transfer 文章链接： https://www.arxiv.org/pdf/2510.16136 代码地址： http://github.com/GradientSpaces/GuideFlow3D 项目链接： https://sayands.github.io/guideflow3d/

一、研究背景

在游戏开发、增强现实与数字内容创作等领域，实现高质量的三维外观迁移已成为行业发展的迫切需求。尽管2D风格迁移技术已相对成熟，但其在3D场景下的扩展仍面临多重挑战：

（1）三维数据表示（如点云、网格、隐式场）具有不规则性与结构稀疏性，难以像二维图像那样进行规整化处理；

（2）当输入模型与外观源对象之间存在显著几何差异时，现有方法往往难以在保持目标结构一致性的同时，实现细节的完整迁移；

（3）外观源本身具有多模态特性（如三维网格、二维图像或文本描述），如何构建统一框架以支持跨模态的高质量迁移，仍是当前研究中的关键难题。

此外，尽管目前已有不同的方法被提出以应对上述挑战，但在实际应用中仍存在明显的局限性。基于多视图的方法将3D问题转化为多视角2D生成任务，但由于不同视图之间的生成结果难以保持几何一致性，这常常导致结构失真和不一致。而直接应用预训练的3D生成模型则容易受到训练数据分布的限制，在输入与外观源几何差异较大时，往往生成结果的质量下降、泛化能力不足，难以实现细粒度控制。

本文的核心研究目标是突破现有方法的瓶颈，提出了一种无需重新训练的3D外观迁移框架GuideFlow3D。如上图所示，在保持其整体几何结构的前提下，有效迁移外观对象的纹理与局部几何细节，例如左上角桌子的圆角边缘得以自然重现，右上角床的底座与床垫之间的结构特征也被准确区分与保留。

二、本文方法

下图展示了GuideFlow3D的整体框架。给定输入3D对象网格与外观对象，GuideFlow3D旨在基于修改的外观，同时严格保持的几何结构，其中可表示为图像-网格对或文本。

该框架引入了Rectified Flow来解决外观迁移问题：首先构造结构化潜变量作为核心表示载体，通过部件感知外观损失和自相似结构损失对预训练Rectified Flow模型的采样过程进行引导，最终经过解码器生成保留输入几何、融合外观细节的3D模型。

2.1 结构化潜在表示

本文基于Trellis模型[1]采用结构化潜变量来表示3D对象。其形式化定义为：

其中，是指第个活跃体素在3D网格中的位置坐标，是与该体素相关联的潜在特征。

2.2 两种引导损失函数

为了实现更精细的生成和控制效果，作者分别定义了两个不同的优化目标，用于引导潜在特征在不同输入条件下的更新方向。下图（a）和（b）分别展示了部件感知外观损失和自相似结构损失这两种优化模式。

（1）部件感知外观损失：当外观对象以图像-网格对的形式提供时，采用 PartField[2]方法对输入网格和外观网格进行分割，将两者分解为语义一致的部件。然后，基于这些部件标签，针对查询对象的每个潜特征，在外观对象的潜特征集中寻找其对应部件内的最近邻潜特征，其可以形式化表达为：

（2）自相似结构损失：当外观对象仅以图像或文本形式提供时，采用该目标进行优化。其核心思想是在没有明确的3D外观参考情况下，依赖对象自身的结构先验。具体而言，通过几何特征聚类将输入网格的体素划分为不同的部件，并利用对比损失确保同一部件内体素特征相似，且不同部件间特征有区分度。为此，作者首先对输入网格进行几何聚类（例如，使用 PartField 特征进行 K-means 聚类），将体素划分为不同的簇，每个簇代表一个语义部件。分子项鼓励同一部件内体素特征相似（正样本），分母项鼓励不同部件间特征差异（负样本）。

2.3 Rectified Flow的采样过程

Rectified Flow通常由两个过程组成：前向过程（将样本从数据分布映射到噪声）和反向过程（将噪声样本映射回数据分布）。GuideFlow3D在反向过程引入外观和结构的引导信号来优化潜在空间。具体来说，框架采用以下更新规则：

其中，是Rectified Flow模型的输出，是由引导函数提供的额外优化项（包括部件感知外观损失和自相似性结构损失），是时间步长。

三、实验结果

针对现有公开数据集中缺乏专门面向跨几何外观迁移任务的benchmarks，作者首先构建了一个全新的评估数据集。该数据集整合了程序化生成的简单三维对象与来自ABO数据集的复杂模型，覆盖床、橱柜、椅子、桌子和沙发五类核心家具类别，并设计了四类迁移场景（同类/跨类、简单-复杂/复杂-复杂），每类包含250组输入-外观对象配对。

在评估方法上，为解决缺乏真实标注数据的问题，作者提出了基于GPT-5的人类排序体系，从风格保真度、结构清晰度、风格整合度、细节质量、形状适应性和整体质量六个维度对生成结果进行两两比较排序。这一评估机制的有效性通过了59人规模的用户研究验证，结果显示其与人类审美判断具有高度一致性。实验选取了五类代表性基线方法进行对比，包括基于基础UV纹理映射的UV Nearest Neighbor、结合二维风格迁移与三维重建的Image-to-3D、采用边缘感知条件扩散的EasiTex、无引导的流模型Trellis，以及文本引导的Text-to-3D模型，确保了对比实验的全面性。

3.1 定量评估

上表展示了GuideFlow3D在图像和文本两种条件下外观迁移任务中的综合性能评估结果。在图像条件（使用外观损失）下，该方法在风格保真度、结构清晰度等所有六个评估指标上均取得最佳排名，特别是在风格整合和细节质量方面表现突出。在文本条件（使用结构损失）下，该方法同样保持领先，显示出其通过自相似性约束保持几何合理性的能力。

上表展示了GuideFlow3D在简单和复杂同类物体外观迁移任务中基于GPT指标的定量评估结果。该实验设置了简单-复杂、复杂-复杂两种几何组合，并分别测试了同类与跨类迁移场景。结果表明，该方法在所有设置下均保持最优性能，特别是在几何差异显著的简单-复杂跨类迁移中优势最为突出，验证了其引导机制能有效解耦外观与结构，对几何和语义变化具有强鲁棒性。

3.2 定性评估

上图通过定性对比直观展示了不同方法在3D外观迁移任务中的视觉表现。该图包含同类物体迁移（椅子->椅子）和跨类物体迁移（柜->双层床）两个典型场景。结果显示对比baseline方法均存在明显缺陷，例如，MambaST出现纹理混合，EasiTex存在纹理缺失与重复，Cross Image Attention遗漏关键细节。而GuideFlow3D在保持输入物体原始几何结构（如床架侧边空洞、椅子扶手形态）的同时，成功实现了外观纹理的高质量迁移。

上图进一步展示了GuideFlow3D在跨类别场景下的外观迁移能力。GuideFlow3D能实现部件级语义映射（如将动物腿部特征对应到家具腿部，柜子把手对应到飞机螺旋桨），在保持目标物体整体结构的同时，完成既符合语义逻辑又保持视觉连贯的纹理与几何细节迁移。通过与Trellis基线结果的直接对比（图中小插图），凸显了GuideFlow3D高效的几何感知能力。

四、总结

本文提出了一种无需重新训练的3D外观迁移框架GuideFlow3D，通过优化引导的Rectified Flow机制，实现了在推理阶段对生成过程的精准控制。在优化过程中，框架引入了两种互补的引导信号，部件感知外观损失和自相似结构损失，确保在保留输入几何形态的同时，精准地迁移外观细节。该方法支持多模态输入（如网格、图像、文本），并允许用户灵活控制迁移的范围，例如基于网格进行“几何+纹理”迁移，或基于图像/文本进行“仅纹理”迁移。为更好地评估迁移效果，本文还提出了一种符合人类感知的评估体系，有效解决了传统指标在无标签场景下的局限性。这一方法将推动3D内容创作向更加高效和可控的方向发展。

参考

[1] Xiang, Jianfeng, et al. "Structured 3d latents for scalable and versatile 3d generation." Proceedings of the Computer Vision and Pattern Recognition Conference. 2025.

[2] Liu M, Uy M A, Xiang D, et al. Partfield: Learning 3d feature fields for part segmentation and beyond[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2025: 9704-9715.

llustration From IconScout By IconScout Store

-The End-

本周上新！

扫码观看！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线700+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信（michelle333_）投稿，沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.