网易首页 > 网易号 > 正文 申请入驻

提速63%!中科院生成式渲染器突破效率瓶颈,一致性提升20%

0
分享至

TC-Light团队 投稿
量子位 | 公众号 QbitAI

具身这么火,面向具身场景的生成式渲染器也来了。

中科院自动化所张兆翔教授团队研发的TC-Light,能够对具身训练任务中复杂和剧烈运动的长视频序列进行逼真的光照与纹理重渲染,同时具备良好的时序一致性和低计算成本开销。

它能够帮助减少Sim2Real Gap以及实现Real2Real的数据增强,帮助获得具身智能训练所需的海量高质量数据。

论文Demo代码均已公开。



研究背景

光线及其与周围环境的交互共同塑造了人类以及具身智能体感知数字世界和现实世界的基本方式。

然而,在现实环境中采集不同光照与场景条件下的数据代价高昂,而仿真环境中尽管可以获得近乎无限的数据,但受限于算力资源,通常需要对光线的多次折射衍射以及纹理精度进行近似和简化,使得视觉真实性无可避免地受到损失,在视觉层面产生Sim2Real Gap。

而如果能够借助生成式模型根据所需的光照条件对现实或仿真环境下采集到的视频数据进行重渲染,不仅够帮助获得增加已有真实数据的多样性,并且能够弥合计算误差带来的CG感,使得从仿真器中能够得到视觉上高度真实的传感器数据,包括RL-CycleGAN在内的许多工作已经证实,这一策略能够帮助减少将具身模型迁移到真实环境中所需微调的数据量和训练量。

尽管这一任务意义重大,但实际解决过程面临许多挑战。

用于训练的视频数据往往伴随复杂的运动以及前景物体的频繁进出,同时视频序列有着较长的长度以及较高的分辨率,这使得已有的算法要么受制于训练所用视频数据的分布(如COSMOS-Transfer1,Relighting4D),要么难以承受巨大的计算开销(如Light-A-Video, RelightVid),要么难以保证良好的时序一致性(如VidToMe, RAVE等)。

△图1 TC-Light效果展示



为了推动这一问题的解决,团队提出了TC-Light算法,在提升视频生成模型计算效率的同时,通过one-shot两阶段快速优化提升输出结果的一致性,本算法在保持重渲染真实性的同时,时序一致性和计算效率方面实现相比于已有算法的显著提高。下面对算法细节进行详细介绍。

TC-Light算法介绍

零样本时序模型扩展

TC-Light首先使用视频扩散模型根据文本指令对输入视频进行初步的重渲染。基于预训练好的SOTA图像模型IC-Light以及VidToMe架构进行拓展,同时引入Decayed Multi-Axis Denoising模块增强时序一致性。

具体而言,VidToMe在模型的自注意力模块前后分别对来自不同帧的相似token进行聚合和拆分,从而增强时序一致性并减少计算开销;

如图2中(a)所示,类似Slicedit,Decayed Multi-Axis Denoising模块将输入视频分别视作图像(x-y平面)的序列和时空切片(y-t平面)的序列,分别用输入的文本指令和空文本指令进行去噪,并对两组噪声进行整合,从而使用原视频的运动信息指导去噪过程。

不同于Slicedit,团队在AIN模块对两组噪声的统计特性进行了对齐,同时时空切片部分的噪声权重随去噪步数指数下降,从而避免原视频光照和纹理分布对重渲染结果的过度影响。

△图2 TC-Light管线示意图



两阶段时序一致性优化策略

尽管通过引入前一小节的模型,视频生成式重渲染结果的一致性得到了有效改善,但输出结果仍然存在纹理和光照的跳变。

因此进一步引入两阶段的时序一致性优化策略,这同时也是TC-Light的核心模块。

在第一阶段,如图2中(b)所示,为每一帧引入Appearance Embedding以调整曝光度,并根据MemFlow从输入视频估计的光流或仿真器给出的光流优化帧间一致性,从而对齐全局光照。这一阶段的优化过程非常快速,A100上300帧960x540分辨率只需要数十秒的时间即可完成。

在第二阶段,进一步对光照和纹理细节进行优化。如图2中(c)所示,这里首先根据光流以及可能提供的每个像素在世界系下的位置信息,快速将视频压缩为码本(也即图中的Unique Video Tensor),即:

其中κ(x,y,t)为视频帧给定像素依据光流及空间信息得到的码本索引,这一基于时空先验的压缩方式在原视频上近乎可以保持无损。不同于Vector Quantization仅考虑颜色相似性的做法,这一压缩方案保证了被聚合的像素之间的时空关联性,保证对应同一个码本值的不同像素具有相似的时空一致性优化目标和梯度。

随后,以码本作为优化目标,以解码后的帧间一致性作为主要优化目标,并且以TV Loss抑制噪声,同时以SSIM Loss使得与一阶段优化结果保持一定程度的结构相似性。

实验结果表明,这一阶段的优化能显著改善时序一致性,同时非常快速,A100上300帧960x540分辨率通常只花费2分钟左右,且由于以压缩后的码本作为优化目标,不仅避免了以往工作以NeRF或3DGS为载体带来的10-30分钟的训练代价,显存开销上也能得到优化。

实验与分析

△表1 与主流算法的定量性能比较



其中VidToMe和Slicedit的基模型都换成了IC-Light以进行公平比较。Ours-light指不用Multi-Axis Denoising模块的结果,相当于对VidToMe直接应用两阶段优化算法。

为了验证算法在长动态序列的重渲染表现,从CARLA、Waymo、AgiBot-DigitalWorld、DROID等数据集收集了58个序列进行综合评测,结果如表1所示。可以看到该算法克服了已有算法在时序一致性和计算开销等方面的问题,取得了最佳的综合性能表现。

图3的可视化对比也表明,新算法在保持内容细节的同时得到了高质量的重渲染性能表现。

△图3 一致性与生成质量可视化对比。



TC-Light避免了(a)中像Slicedit和COSMOS-Transfer1那样不自然的重渲染结果和(b)中展现出的模糊失真,或(c)中像IC-Light和VidToMe那样的时序不一致性。量化以及video比较可以从project page找到。

最后总结一下,TC-Light作为一种新的生成式渲染器,克服了具身环境下视觉传感器数据重渲染面对的时序一致性和长序列计算开销两大挑战,在性能表现上优于现有技术,不仅为Sim2Real和Real2Real数据扩展带来了新的思路,也为视频编辑领域带来了新的模型范式。TC-Light的论文和代码均已开源,希望能够相关领域带来不同的思考和启发。

项目主页: https://dekuliutesla.github.io/tclight/
论文链接: https://arxiv.org/abs/2506.18904
代码链接: https://github.com/Linketic/TC-Light

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一场同学聚会换来的惨痛教训:人过了60岁,还是别聚会了

一场同学聚会换来的惨痛教训:人过了60岁,还是别聚会了

蝉吟槐蕊
2025-11-09 09:58:48
演员于适任中国骑射运动中心执行主任,曾在《封神三部曲》饰演姬发

演员于适任中国骑射运动中心执行主任,曾在《封神三部曲》饰演姬发

澎湃新闻
2025-11-09 16:58:35
49岁赵薇近况再曝,胃癌传闻真相大白,善恶终有报

49岁赵薇近况再曝,胃癌传闻真相大白,善恶终有报

一娱三分地
2025-11-07 18:40:38
事出反常,东大为什么忽然沉默了?

事出反常,东大为什么忽然沉默了?

每日一见
2025-11-09 12:33:19
“青云租”爆雷员工揭内幕:每个员工每月需投资30台手机,11万台集中流向两个村庄 丨封面头条

“青云租”爆雷员工揭内幕:每个员工每月需投资30台手机,11万台集中流向两个村庄 丨封面头条

封面新闻
2025-11-09 18:45:20
俄媒:俄军即将攻占乌克兰“第三首都”!俄副总理自曝参战:用狙击步枪还击乌军!俄对乌发动大规模空袭

俄媒:俄军即将攻占乌克兰“第三首都”!俄副总理自曝参战:用狙击步枪还击乌军!俄对乌发动大规模空袭

每日经济新闻
2025-11-08 22:55:11
学生偷东西被抓后续:小偷没事,被偷的反退学,更多恶心细节曝光

学生偷东西被抓后续:小偷没事,被偷的反退学,更多恶心细节曝光

奇思妙想草叶君
2025-11-08 21:13:10
赵本山抢救无效!?

赵本山抢救无效!?

八卦疯叔
2025-11-09 10:43:20
陕西一小伙结婚当天驾自制“飞机”成功飞天?村民称是他朋友来助兴,飞机5年前就首飞过,民航空管局回应

陕西一小伙结婚当天驾自制“飞机”成功飞天?村民称是他朋友来助兴,飞机5年前就首飞过,民航空管局回应

极目新闻
2025-11-08 23:56:08
碧桂园彻底暴雷!裁掉8万人、负债8000亿,碧桂园还想着翻身!

碧桂园彻底暴雷!裁掉8万人、负债8000亿,碧桂园还想着翻身!

历史伟人录
2025-11-08 16:12:29
博主称甘肃临夏有货车私自向大夏河中排放粉紫色不明液体,经检测为含高锰酸钾的运鱼水,环保部门回应

博主称甘肃临夏有货车私自向大夏河中排放粉紫色不明液体,经检测为含高锰酸钾的运鱼水,环保部门回应

极目新闻
2025-11-09 14:57:41
俄大规模袭击乌克兰,乌国有火电站陷入瘫痪,德军司令:若与俄开战,德将成北约集结地

俄大规模袭击乌克兰,乌国有火电站陷入瘫痪,德军司令:若与俄开战,德将成北约集结地

扬子晚报
2025-11-09 15:18:17
太惨了!烟台渣土车压扁宝马车,死亡司机身份曝光,是年轻女教师

太惨了!烟台渣土车压扁宝马车,死亡司机身份曝光,是年轻女教师

火山诗话
2025-11-09 16:09:29
钓鱼岛究竟有多大?上面能住人吗?终于揭开钓鱼岛神秘的面纱

钓鱼岛究竟有多大?上面能住人吗?终于揭开钓鱼岛神秘的面纱

缘史记
2025-11-07 18:14:40
江苏:34岁女子独自住院,没人照顾,流泪哭诉:熬不住了想结婚

江苏:34岁女子独自住院,没人照顾,流泪哭诉:熬不住了想结婚

阿芒娱乐说
2025-11-09 07:03:22
台风“凤凰”或登陆我国,外围环流将影响江苏

台风“凤凰”或登陆我国,外围环流将影响江苏

扬子晚报
2025-11-09 20:06:27
DNA之父沃森去世。天才科学家歧视女性和黑人,走完了争议的一生

DNA之父沃森去世。天才科学家歧视女性和黑人,走完了争议的一生

英国那些事儿
2025-11-08 23:16:14
小学生给校车敬礼后续:官方通报,最让人恶心的一幕却在评论区

小学生给校车敬礼后续:官方通报,最让人恶心的一幕却在评论区

奇思妙想草叶君
2025-11-08 20:18:19
唐朝古籍里发现月亮的离奇记载:表面凹凸不平,有8万名专人维修

唐朝古籍里发现月亮的离奇记载:表面凹凸不平,有8万名专人维修

丞丞故事汇
2025-11-09 12:50:18
拦婚车索要50条香烟的3人,已社会性死亡,结局舒适,评论区炸锅

拦婚车索要50条香烟的3人,已社会性死亡,结局舒适,评论区炸锅

三农老历
2025-11-09 14:46:14
2025-11-09 20:31:00
量子位 incentive-icons
量子位
追踪人工智能动态
11647文章数 176329关注度
往期回顾 全部

科技要闻

黄仁勋亲赴台积电“讨要更多芯片”

头条要闻

英伟达被华尔街大佬做空 4天市值蒸发4551亿美元

头条要闻

英伟达被华尔街大佬做空 4天市值蒸发4551亿美元

体育要闻

他只想默默地拿走最后一亿美元

娱乐要闻

《繁花》事件影响:唐嫣工作被取消

财经要闻

10月CPI同比涨0.2% PPI同比下降2.1%

汽车要闻

钛7月销破2万 霜雾灰与青峦翠配色正式开启交付

态度原创

旅游
家居
艺术
数码
亲子

旅游要闻

成都银杏地图正式上线,解锁全城最美赏叶打卡地

家居要闻

现代自由 功能美学居所

艺术要闻

高234米!南非第一高楼,曾问鼎非洲之巅

数码要闻

AMD统治CPU市场:月销量占比近84%!9800X3D一款接近Intel全系

亲子要闻

硬核体能课走红!一所乡间幼儿园甚至还吸引了上千名外省家长咨询 (来源:央视网)

无障碍浏览 进入关怀版