网易首页 > 网易号 > 正文 申请入驻

NeurIPS 2025 | TC-Light:面向具身场景的生成式渲染器

0
分享至

TC-Light 是由中科院自动化所张兆翔教授团队研发的生成式渲染器,能够对具身训练任务中复杂和剧烈运动的长视频序列进行逼真的光照与纹理重渲染,同时具备良好的时序一致性和低计算成本开销,使得它能够帮助减少 Sim2Real Gap 以及实现 Real2Real 的数据增强,帮助获得具身智能训练所需的海量高质量数据。


论文题目: TC-Light: Temporally Coherent Generative Rendering for Realistic World Transfer 论文链接: https://arxiv.org/abs/2506.18904 代码链接: https://github.com/Linketic/TC-Light 项目主页: https://dekuliutesla.github.io/tclight/
一、研究背景

光线及其与周围环境的交互共同塑造了人类以及具身智能体感知数字世界和现实世界的基本方式,在不同光照条件下对世界的观测使得我们理解光线与物质的交互关系,使得我们形成对周边环境物质和几何属性的基本判断,并且也使得我们能够在不同的光照条件下都能够鲁棒且正确地完成与世界的交互。

然而,在现实环境中采集不同光照与场景条件下的数据代价高昂,而仿真环境中尽管可以获得近乎无限的数据,但受限于算力资源,通常需要对光线的多次折射衍射以及纹理精度进行近似和简化,使得视觉真实性无可避免地受到损失,在视觉层面产生 Sim2Real Gap。而如果能够借助生成式模型根据所需的光照条件对现实或仿真环境下采集到的视频数据进行重渲染,不仅能够帮助获得增加已有真实数据的多样性,并且能够弥合计算误差带来的 CG 感,使得从仿真器中得到视觉上高度真实的传感器数据,包括 RL-CycleGAN 在内的许多工作已经证实,这一策略能够帮助减少将具身模型迁移到真实环境中所需微调的数据量和训练量。

尽管这一任务意义重大,但实际解决过程面临许多挑战。用于训练的视频数据往往伴随复杂的运动以及前景物体的频繁进出,同时视频序列有着较长的长度以及较高的分辨率。我们的定量和定性实验证据(参见论文实验部分及 Project Page)表明,在这些复杂且困难的输入条件下,已有的算法要么受制于训练所用视频数据的分布(如 COSMOS-Transfer1,Relighting4D),要么难以承受巨大的计算开销(如 Light-A-Video, RelightVid),要么难以保证良好的时序一致性(如 VidToMe, RAVE 等)。


图 1 TC-Light 效果展示

为了推动这一问题的解决,我们提出了 TC-Light 算法,在提升视频生成模型计算效率的同时,通过两阶段在线快速优化提升输出结果的一致性,如图 1 和视频Demo所示所示,本算法在保持重渲染真实性的同时,时序一致性和真实性相比于已有算法取得了显著提高。下面对算法细节进行详细介绍。

二、TC-Light 算法介绍 2.1 零样本时序模型扩展

TC-Light 首先使用视频扩散模型根据文本指令对输入视频进行初步的重渲染。这里我们基于预训练好的 SOTA 图像模型 IC-Light 以及 VidToMe 架构进行拓展,同时引入我们所提出的 Decayed Multi-Axis Denoising 模块增强时序一致性。

具体而言,VidToMe 在模型的自注意力模块前后分别对来自不同帧的相似 token 进行聚合和拆分,从而增强时序一致性并减少计算开销;如图 2 中 (a) 所示,类似 Slicedit,Decayed Multi-Axis Denoising 模块将输入视频分别视作图像 (x-y 平面) 的序列和时空切片(y-t 平面)的序列,分别用输入的文本指令和空文本指令进行去噪,并对两组噪声进行整合,从而使用原视频的运动信息指导去噪过程。不同于 Slicedit,我们在 AIN 模块对两组噪声的统计特性进行了对齐,同时时空切片部分的噪声权重随去噪步数指数下降,从而避免原视频光照和纹理分布对重渲染结果的过度影响。


图 2 TC-Light 管线示意图 2.2 两阶段时序一致性优化策略

尽管通过引入前一小节的模型,视频生成式重渲染结果的一致性得到了有效改善,但输出结果仍然存在纹理和光照的跳变。因此我们进一步引入两阶段的时序一致性优化策略,这同时也是 TC-Light 的核心模块。在第一阶段,如图 2 中 (b) 所示,我们为每一帧引入 Appearance Embedding 以调整曝光度,并根据 MemFlow 从输入视频估计的光流或仿真器给出的光流优化帧间一致性,从而对齐全局光照。这一阶段的优化过程非常快速,A100 上 300 帧 960x540 分辨率只需要数十秒的时间即可完成。

在第二阶段,我们进一步对光照和纹理细节进行优化。如图 2 中 (c) 所示,这里我们首先根据光流以及可能提供的每个像素在世界系下的位置信息,快速将视频 压缩为码本 (也即图中的 Unique Video Tensor),即:


其中 κ(x,y,t) 为视频帧给定像素依据光流及空间信息得到的码本索引,这一基于时空先验的压缩方式在原视频上近乎可以保持无损。不同于 Vector Quantization 仅考虑颜色相似性的做法,这一压缩方案保证了被聚合的像素之间的时空关联性,使得对应同一个码本值的不同像素具有相似的时空一致性优化目标和梯度。随后,我们以码本 作为优化目标,以解码后的帧间一致性作为主要优化目标,并且以 TV Loss 抑制噪声,同时以 SSIM Loss 使得与一阶段优化结果保持一定程度的结构相似性。实验结果表明,这一阶段的优化能显著改善时序一致性,同时非常快速,A100 上 300 帧 960x540 分辨率通常只花费 2 分钟左右,且由于以压缩后的码本作为优化目标,不仅避免了以往工作以 NeRF 或 3DGS 为载体带来的 10-30 分钟的训练代价,显存开销上也能得到优化。

三、实验与分析


表 1 与主流算法的定量性能比较,其中 VidToMe 和 Slicedit 的基模型都换成了 IC-Light 以进行公平比较。Ours-light 指不用 Multi-Axis Denoising 模块的结果,相当于对 VidToMe 直接应用两阶段优化算法。

为了验证算法在长动态序列的重渲染表现,我们从 CARLA、Waymo、AgiBot-DigitalWorld、DROID 等数据集收集了 58 个序列进行综合评测,结果如表 1 所示。可以看到我们的算法克服了已有算法在时序一致性和计算开销等方面的问题,取得了最佳的综合性能表现。图 3 的可视化对比也表明,我们的算法在保持内容细节的同时得到了高质量的重渲染性能表现。


图 3 一致性与生成质量可视化对比。TC-Light 避免了 (a) 中像 Slicedit 和 COSMOS-Transfer1 那样不自然的重渲染结果和 (b) 中展现出的模糊失真,或 (c) 中像 IC-Light 和 VidToMe 那样的时序不一致性。

此外,我们也在有 GT 数据的仿真数据集 Virtual KITTI 上进行了比较,从而可以使用 SSIM 和 LPIPS 等指标替换 CLIP-T 等代理指标获得更客观的性能评估。表 2 的结果同样表明,我们的算法很好地取得了计算开销和性能之间的平衡,取得了最佳的重渲染效果。


表 2 Virtual KITTI 数据集上与主流算法的定量性能比较 四、总结

TC-Light 作为一种新的生成式渲染器,克服了具身环境下视觉传感器数据重渲染面对的时序一致性和长序列计算开销两大挑战,在性能表现上优于现有技术,不仅为 Sim2Real 和 Real2Real 数据扩展带来了新的思路,也为视频编辑领域带来了新的模型范式。TC-Light 的论文和代码均已开源,希望能够相关领域带来不同的思考和启发。

来源:公众号【机器之心】

llustration From IconScout By IconScout Store

-The End-

本周上新!

扫码观看!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信(michelle333_)投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
演技烂得像混子《沉默的荣耀》里混进关系户,于和伟都带不动

演技烂得像混子《沉默的荣耀》里混进关系户,于和伟都带不动

洲洲影视娱评
2025-10-14 15:04:37
东契奇44+12创历史第2神迹,湖人逆转灰熊!里夫斯创联盟第1纪录

东契奇44+12创历史第2神迹,湖人逆转灰熊!里夫斯创联盟第1纪录

一将篮球
2025-11-01 12:33:49
1965年,毛主席劝蒋介石回大陆,老蒋提出6个要求,毛主席:同意

1965年,毛主席劝蒋介石回大陆,老蒋提出6个要求,毛主席:同意

诺言卿史录
2025-07-17 14:23:29
分手传闻5个月,鹿晗罕见发文,关晓彤一反常态,原来杨幂没说错

分手传闻5个月,鹿晗罕见发文,关晓彤一反常态,原来杨幂没说错

古木之草记
2025-10-30 21:35:23
宁静做梦也没想到,美国前夫留给她的儿子,如今竟成她唯一的依靠

宁静做梦也没想到,美国前夫留给她的儿子,如今竟成她唯一的依靠

银河史记
2025-10-29 17:09:41
王祖蓝自曝怕不能活过明年,已立遗嘱财产归太太,父亲46岁离世成心坎

王祖蓝自曝怕不能活过明年,已立遗嘱财产归太太,父亲46岁离世成心坎

In风尚
2025-10-28 18:26:15
这一次,高调官宣新恋情的葛荟婕,终究没给凉薄的汪峰留一丝体面

这一次,高调官宣新恋情的葛荟婕,终究没给凉薄的汪峰留一丝体面

八斗小先生
2025-11-01 11:19:14
OK!星座| 十二星座一周运势(11.2-11.8)

OK!星座| 十二星座一周运势(11.2-11.8)

精彩OK
2025-11-01 20:07:16
面子里子都丢了!离婚半月前妻爆料调解细节,撕下猴哥仅剩的体面

面子里子都丢了!离婚半月前妻爆料调解细节,撕下猴哥仅剩的体面

千言娱乐记
2025-10-23 21:21:23
可控核聚变一旦实现,100克的核燃料,可以让一辆汽车跑多远?

可控核聚变一旦实现,100克的核燃料,可以让一辆汽车跑多远?

禾寒叙
2025-10-04 15:13:25
“治港败类”曾荫权:治理香港7年,为何却在卸任后,获刑20个月

“治港败类”曾荫权:治理香港7年,为何却在卸任后,获刑20个月

卷史
2025-09-15 11:50:59
离谱!全国一半钻石、一半鹅肝、一半蓝宝石,全都藏在山东?

离谱!全国一半钻石、一半鹅肝、一半蓝宝石,全都藏在山东?

青眼财经
2025-10-31 10:30:52
中美这轮交手过后,李显龙对中国的看法,又上了一个新的台阶

中美这轮交手过后,李显龙对中国的看法,又上了一个新的台阶

井普椿的独白
2025-11-01 19:18:32
尹锡悦出庭受审,因检察官直呼金建希名字大怒:至少后面加个“夫人”吧

尹锡悦出庭受审,因检察官直呼金建希名字大怒:至少后面加个“夫人”吧

闪电新闻
2025-11-01 15:27:20
直线猛拉!芯片,重大利好!

直线猛拉!芯片,重大利好!

数据宝
2025-10-31 20:20:32
蒋介石临终前告诉蒋经国:我这一生只敬佩一人,畏惧两人!

蒋介石临终前告诉蒋经国:我这一生只敬佩一人,畏惧两人!

浪子阿邴聊体育
2025-11-01 10:57:22
杨振宁高规格的葬礼上,49岁翁帆的表现,让真爱具象化了

杨振宁高规格的葬礼上,49岁翁帆的表现,让真爱具象化了

普陀动物世界
2025-11-01 15:26:18
艾顿:今天带伤参加比赛后背部伤情加重,预计会打与热火比赛

艾顿:今天带伤参加比赛后背部伤情加重,预计会打与热火比赛

雷速体育
2025-11-01 20:08:26
刚刚,我国引进的首架A330neo落地海口!

刚刚,我国引进的首架A330neo落地海口!

中国民航人
2025-11-01 19:18:36
中国外交官已全部离开立陶宛,立总理对华递交建议书,想重建关系

中国外交官已全部离开立陶宛,立总理对华递交建议书,想重建关系

律便利
2025-07-03 15:20:03
2025-11-01 20:48:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2247文章数 595关注度
往期回顾 全部

科技要闻

事关安世半导体,商务部最新发声!

头条要闻

美财长吹嘘:我们立规矩对付中国 谁敢不从

头条要闻

美财长吹嘘:我们立规矩对付中国 谁敢不从

体育要闻

NBA球员,必须吃夜宵

娱乐要闻

王家卫这波录音,撕烂了遮羞布

财经要闻

前CTO索赔42.87亿 158亿股权归属成谜?

汽车要闻

连续8个月销量破万 阿维塔10月销量13506辆

态度原创

本地
数码
家居
时尚
公开课

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

数码要闻

AMD 完成 ZT Systems 数据中心制造业务剥离出售,买家为 Sanmina

家居要闻

吸睛艺术 富有传奇色彩

50+女性秋日别瞎打扮,这3招让你告别油腻感,优雅好气质

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版