网易首页 > 网易号 > 正文 申请入驻

NeurIPS 2025 | 突破渲染局限,IntrinsiX - 高质量的物理一致性生成模型

0
分享至

在现代人工智能的发展中,如何让模型在生成质量与物理一致性之间取得平衡,已成为实现真实可控内容生成的关键问题,尤其在三维内容创作、虚拟现实与影视特效等对光照一致性要求极高的应用中尤为重要。尽管现有的文本到图像生成模型(Text-to-Image Models)在视觉表现上已能生成极其逼真的结果,但其生成的图像通常包含烘烤光照(baked-in lighting),导致生成内容无法适配不同光照环境或进行物理编辑。本文介绍一篇来自慕尼黑工业大学的最新工作,刚刚发表在人工智能顶会NeurIPS 2025上。该工作提出了一种基于图像先验的高质量PBR生成方法IntrinsiX,通过引入跨模态注意力机制与可微分渲染监督,实现了从文本直接生成可重光照的贴图。IntrinsiX 在视觉真实感和细节一致性上显著优于传统反向渲染方法,为通用生成模型向物理世界一致性迈出了重要一步。


论文题目: IntrinsiX:High-Quality PBR Generation using Image Priors 文章链接: https://arxiv.org/abs/2504.01008
一、研究背景

物理基础渲染(Physically-Based Rendering, PBR)贴图是计算机图形学中用于精确描述物体表面光学属性的一组参数映射,共同定义了材质在光照下的真实视觉效果。典型的PBR贴图包括 Albedo(反射率)、Normal(法线)、Roughness(表面粗糙度)和 Metallic(金属度) 四种。这些贴图分别控制了物体的颜色反射、几何微结构、光线散射以及金属反射特性。PBR使得渲染系统能够通过物理一致的方式模拟光与物体表面的交互,从而生成具有真实光照变化和质感细节的图像。

当前主流的文本生成图像模型生成的图像是带有“烘焙光照”的RGB图像,即图像中已经包含了光照、阴影、高光等效果,导致生成内容无法直接用于游戏、虚拟现实(VR)等需要动态调整光照或编辑材质的场景,这类场景通常依赖独立的PBR映射图来实现物理真实的渲染效果。此外,传统的图像分解方法(如 IID [1]、RGBX [2])虽能从RGB图像中分离出PBR组件,但存在两大固有缺陷:

  1. 歧义性 :从单张RGB图像反推PBR组件的数学解不唯一,易导致结果过度平滑或细节丢失

  2. 泛化能力弱 :这类方法多基于合成数据集训练,对真实世界或分布外场景的分解效果差,且无法处理大规模3D场景的PBR生成需求。

二、本文方法

下图为IntrinsiX方法的整体框架图,IntrinsiX采用两阶段训练 + 对齐的整体设计。在阶段一中,分别为反射率、法线以及粗糙度与金属度独立训练 LoRA 模型,以学习各自的分布特征。在阶段二中,通过内在交叉注意力实现不同组件间的语义对齐,并结合渲染损失约束其物理一致性,从而实现从文本输入到四张高质量 PBR 映射图的联合生成。


2.1 阶段 一:PBR 先验训练

该阶段的训练目标是让预训练的文本图像生成模型分别学习反射率 、法线 、粗糙度与金属度 的生成规律。具体做法是在每个 attention block 中注入 LoRA 层,以捕获各 PBR 模态的特征分布。

该阶段采用条件流匹配损失(Conditional Flow Matching Loss)优化LoRA参数,该损失用于扩散模型的生成过程,公式如下:


2.2 阶段二:PBR 先验对齐

阶段一中训练得到的独立LoRA模型虽然能够分别生成各自的PBR组件,但其结果在语义上并不一致。为此,阶段二通过内在交叉注意力与RGB渲染损失实现了语义对齐与物理一致性约束。

(1)内在交叉注意力:在DiT的每个 block 中,作者用跨模态注意力替代标准的 self-attention,将不同模态的 query、key、value 拼接在序列维度上,使各PBR模态在一次去噪前向传播中能够相互传递信息,从而实现语义对齐。其计算形式如下:


这种机制确保模型在生成每个模态时能够参考其他模态的特征信息,避免局部结构的不一致问题。

(2)RGB 渲染损失:尽管内在交叉注意力保证了语义对齐,但仍无法确保各PBR模态在物理层面合理。因此,作者引入基于简化 Disney BRDF 模型的渲染损失,用生成的PBR组件重建对应的RGB图像,计算公式为:


其中, 表示BRDF函数, 为生成的PBR组件集合, 与 分别表示入射光强与方向。最终的渲染损失结合了像素级的L2误差与感知损失,以同时保证图像的数值准确性与视觉真实感:


通过这一机制,模型在优化过程中被迫生成符合物理规律的PBR映射图,从而在保持语义一致的同时提升整体物理可信度。

三、实验结果

本文在图像编辑生成和PBR场景纹理生成两大关键下游应用中验证了IntrinsiX方法的实用性。本文的对比实验选取了三种典型的反向渲染方法IID、RGBX和ColorfulShading,这些方法通过从RGB图像分解出PBR贴图来重建,而IntrinsiX则采用直接生成式建模策略。评估指标包括定量与感知两类,FID(A-ID-FID 与 A-OOD-FID)用于衡量生成图像的分布差异,R-PQ、S-PQ与PC分别评估渲染质量、语义一致性及物理合理性,同时通过用户偏好指标A-PP衡量主观感知效果。

3.1 定量分析

上表的实验结果充分展示了IntrinsiX在生成质量与实用性方面的综合优势。尽管在分布内场景(A-ID-FID)的反照率生成质量上略低于最优基线,IntrinsiX在更具实际意义的分布外泛化能力(A-OOD-FID)上表现最佳,显示出优异的场景适应能力。此外,其生成的反照率(A-PP)与渲染效果(R-PQ、S-PQ)均获得显著偏好,反映出所生成PBR贴图在物理正确性与视觉感知质量上的突出表现。消融实验同时验证,内在交叉注意力机制与渲染损失作为核心组件,对生成语义清晰、细节丰富的结果具有关键作用。

3.2 定性评估

下图展示了IntrinsiX与基于RGB图像输入的图像分解方法(如IID、RGBX)的生成效果对比。


实验结果显示,传统分解方法受限于合成室内数据集的训练分布,在面对“卡通民谣歌手”等分布外场景时,其分解结果易出现细节模糊(粗糙度图纹理缺失)与语义不一致(反照率图中残留非本征阴影)等问题。相比之下,IntrinsiX生成了语义更准确、细节更丰富的PBR贴图,其反照率图纯净无阴影残留,粗糙度与金属度图也表现出更高的清晰度与材质区分度。

3.3 图像编辑生成效果

IntrinsiX生成的PBR贴图可直接接入标准物理渲染,实现灵活的编辑与渲染。如上图所示,IntrinsiX在三种典型编辑任务中均表现出优异性能。

1) 重新打光:在固定光源高度下旋转其方向,场景的光影与阴影能够随之自然、连贯地变化。2) 反照率编辑:例如降低月亮颜色的饱和度,编辑后的表面属性能与动态光照无缝融合。3) 镜面反射编辑:通过降低粗糙度并提高金属度值,可使宇航员头盔等区域产生更强烈、准确的镜面高光。

所有这些编辑效果均能随光源角度变化而保持一致性与物理合理性,充分证明了IntrinsiX在光影控制与材质属性编辑方面出色的灵活性与实用性。

3.4 场景纹理生成效果

上图展示了IntrinsiX为三维场景生成PBR纹理的流程与效果。IntrinsiX通过分数蒸馏采样技术,以场景几何信息(如法线贴图)为条件进行迭代优化,可以自动生成风格统一的全套PBR贴图。生成的漫反射、粗糙度、金属度及法线贴图细节丰富,使得最终渲染的室内场景在多种光照条件下均表现出高度的真实感与视觉一致性。这充分证明了IntrinsiX能够将文本描述有效地转化为可直接用于游戏或VR应用的全场景PBR,显著降低了高质量场景纹理制作的技术门槛。

四、总结

本文提出的IntrinsiX方法,首次实现了从文本描述直接生成高质量PBR材质贴图的突破。其核心创新在于一个两阶段训练策略。IntrinsiX首先利用LoRA技术为各类材质属性分别训练独立的生成先验,随后引入内在交叉注意力机制与基于物理渲染的损失函数,实现多模态材质的语义对齐与协同生成。生成质量媲美甚至超越现有文本生图模型,且在图像编辑、场景纹理生成等下游任务均有不错的表现,未来可以为游戏、VR可编辑内容等领域的创作开辟高效的新路径。

参考

[1] Kocsis P, Sitzmann V, Nießner M. Intrinsic image diffusion for indoor single-view material estimation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 5198-5208.

[2] Zheng Zeng, Valentin Deschaintre, Iliyan Georgiev, Yannick Hold-Geoffroy, Yiwei Hu, Fujun Luan, Ling-Qi Yan, and Milos Hasan. Rgb↔x: Image decomposition and synthesis using material- and lighting-aware diffusion models. In ACM SIGGRAPH 2024 Conference Papers, SIGGRAPH 2024, Denver, CO, USA, 27 July 2024- 1 August 2024, page 75. ACM, 2024.

llustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信(michelle333_)投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
101岁奶奶每天熬夜追剧到凌晨2点,平常爱吃薯片等零食;曾是旅游达人,89岁登上南京中山陵,其女儿总结长寿秘诀:心态好

101岁奶奶每天熬夜追剧到凌晨2点,平常爱吃薯片等零食;曾是旅游达人,89岁登上南京中山陵,其女儿总结长寿秘诀:心态好

扬子晚报
2026-01-16 07:21:15
湖南省委常委、常务副省长张迎春,调任新疆

湖南省委常委、常务副省长张迎春,调任新疆

观察者网
2026-01-17 08:10:33
李亚鹏人品救了公益,李国庆带头资助,房东套路太明显,网友不满

李亚鹏人品救了公益,李国庆带头资助,房东套路太明显,网友不满

你食不食油饼
2026-01-17 22:11:18
为什么上完厕所体重没变轻?有时候还更重了?

为什么上完厕所体重没变轻?有时候还更重了?

科普中国
2026-01-17 19:40:30
阿韦洛亚:嘘主席的人不热爱皇马

阿韦洛亚:嘘主席的人不热爱皇马

体坛周报
2026-01-18 01:40:22
14+3!绿凯血赚交易!直奔最佳第六人奖项

14+3!绿凯血赚交易!直奔最佳第六人奖项

篮球实战宝典
2026-01-17 22:06:32
何穗产后日常曝光:穿棉袄驱寒、咖啡不离手,自拍卖萌投喂陈伟霆

何穗产后日常曝光:穿棉袄驱寒、咖啡不离手,自拍卖萌投喂陈伟霆

无处不风景love
2026-01-15 22:14:10
特朗普对台湾问题表态,马上又改口,新加坡媒体:中美俄一模一样

特朗普对台湾问题表态,马上又改口,新加坡媒体:中美俄一模一样

现代小青青慕慕
2026-01-16 17:36:24
江苏南通一司机加完油未拔油枪驾车离开,油枪被拉断,加油站:断裂油枪已修复,未要求赔偿

江苏南通一司机加完油未拔油枪驾车离开,油枪被拉断,加油站:断裂油枪已修复,未要求赔偿

黄河新闻网吕梁频道
2026-01-17 09:33:12
探访伊朗德黑兰超市

探访伊朗德黑兰超市

新华社
2026-01-17 01:07:00
对手教练:詹姆斯太不可思议!我41岁只是执教完背靠背都有点累!

对手教练:詹姆斯太不可思议!我41岁只是执教完背靠背都有点累!

氧气是个地铁
2026-01-17 10:14:37
中加签署2000亿协议,特朗普顿时明白,加拿大这颗棋子已经没用了

中加签署2000亿协议,特朗普顿时明白,加拿大这颗棋子已经没用了

南宗历史
2026-01-18 00:22:47
首钢遭重创!周琦眼睛再受伤,球队迎来伤病潮,新大外援即将到位

首钢遭重创!周琦眼睛再受伤,球队迎来伤病潮,新大外援即将到位

体坛鉴春秋
2026-01-17 09:30:25
向太曝马伊琍已再婚:当年文章过不了心理那关

向太曝马伊琍已再婚:当年文章过不了心理那关

娱乐看阿敞
2025-12-12 15:50:00
我国存款最安全的3大银行,永远都不会倒闭,你知道是哪3家吗?

我国存款最安全的3大银行,永远都不会倒闭,你知道是哪3家吗?

小熊侃史
2026-01-07 11:17:59
曼城连续4轮英超不胜,本轮过后可能落后阿森纳9分

曼城连续4轮英超不胜,本轮过后可能落后阿森纳9分

懂球帝
2026-01-17 22:37:35
江苏一厅级干部任上被查

江苏一厅级干部任上被查

兴化论谈
2026-01-17 17:16:49
深度解析:G点在哪里?用这个技巧,让她一碰就爽

深度解析:G点在哪里?用这个技巧,让她一碰就爽

精彩分享快乐
2026-01-18 00:10:02
AI应用有望接棒商业航天,投资者可借路ETF布局

AI应用有望接棒商业航天,投资者可借路ETF布局

证券市场周刊
2026-01-17 15:35:37
特战部队进驻台北!赖清德当局终于开始慌了,下令加强防斩首演练

特战部队进驻台北!赖清德当局终于开始慌了,下令加强防斩首演练

起喜电影
2026-01-18 01:07:29
2026-01-18 02:44:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2302文章数 596关注度
往期回顾 全部

科技要闻

两枚火箭发射失利,具体原因正排查

头条要闻

李昊发挥神勇 U23国足点球战胜乌兹别克斯坦晋级四强

头条要闻

李昊发挥神勇 U23国足点球战胜乌兹别克斯坦晋级四强

体育要闻

三巨头走了俩,联盟笑柄却起飞了

娱乐要闻

马年春晚首次联排场外细节!

财经要闻

保不准,人民币会闪击6.8!

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

亲子
本地
教育
游戏
军事航空

亲子要闻

欢迎小小的新人类-卜卜

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

教育要闻

颠鸾倒凤神魂颠倒混天黑地吸小册子下周上线

《孤岛惊魂3》《孤岛:原始杀戮》将迎来60帧更新

军事要闻

普京谈及当前国际局势:世界太危险了

无障碍浏览 进入关怀版