网易首页 > 网易号 > 正文 申请入驻

攻克视频生成难题!合工大、清华、智谱开源「多图像参考生视频」框架Kaleido

0
分享至


近年来,视频生成技术,尤其是基于扩散模型(Diffusion Model)的技术,发展极为迅速,从文本到视频(Text-to-Video,T2V)、图像到视频(Image-to-Video,I2V)等任务不断取得突破。商业化系统(如 Sora、Veo3、Kling、Vidu)已经能生成媲美专业制作的视频内容,极大提升了创作效率,同时降低了成本。

在此过程中,主体到视频(Subject-to-Video, S2V)生成任务开始备受关注。S2V 的目标是:给定一个或多个参考图像,生成主体外观一致、背景可控的动态视频。这种方法结合了文本生成的创造性和图像生成的精准性,适合数字人、虚拟试穿、电商广告、艺术创作等场景。

然而,现有开源 S2V 模型难以在多主体场景中保持主体一致性,也难以实现背景信息的有效解耦



论文地址:https://arxiv.org/pdf/2510.18573

代码地址:https://github.com/CriliasMiller/Kaleido


为应对这些挑战,来自合肥工业大学、清华大学和智谱的研究团队提出了开源多主体参考视频生成框架——Kaleido,旨在让开源模型在一致性与背景解耦方面达到最优水平。


图|Kaleido的S2V生成,涵盖单人和多人场景中的人物、物体及可控背景生成。

实验表明,Kaleido 在一致性、保真度和泛化能力方面均优于先前的方法,代表了 S2V 生成领域的重要进展。


图|S2V 评估(左)和用户研究结果(右)。

研究框架


现有 S2V 方法在保持多主体一致性和处理背景解耦方面仍存在不足,在多图像条件下,这通常会导致较低的参考保真度和语义漂移,可归因于几个因素:

  • 训练数据不足且质量不高:包括采样覆盖不足、低质量样本污染,以及惯用的“视频帧取图”方式,使模型倾向于原封不动复制参考图像内容,连不相关的背景都保留,难以泛化。

  • 条件注入策略不佳:现有方法在将多参考图像特征引入视频生成时,容易出现主体信息混叠、空间位置冲突,导致生成视频中多主体错误融合或丢失细节。

基于此,研究团队提出新的数据构造流水线及对应的条件注入方案,创新点主要体现在三点:

1.高质量多样化数据构建流水线

  • 多类主体采样与细颗粒度过滤(尺寸、模糊度、亮度、类别一致性)。

  • 引入跨配样本(Cross-Paired Data) 生成:将主体图像与不相关视频配对打乱背景信息,迫使模型学习主体与背景的解耦。

  • 背景擦除与位姿动作增强:利用图像修复与姿态变化扩展主体的表现形式。

2.Reference Rotary Positional Encoding (R-RoPE) 条件注入机制

  • 将多参考图像编码后的 token 与视频 token 序列拼接,但在空间–时间坐标上人为偏移,确保模型区分“视频帧”与“参考图片”。

  • 避免多主体场景下的 token 混淆,使各主体在生成视频中保持独立与一致。

3.两阶段训练策略

  • 在 200 万组数据上进行预训练,建立通用生成能力。

  • 之后在 50 万组高质量数据上进行监督微调(SFT),提升主体一致性与背景解耦效果。





实验结果与效果

在多个维度评测中,Kaleido 展现了强大的性能:

  • 主体一致性(S2V Consistency):在测试集中达到 0.723,达到测试模型的最高水平。

  • 背景解耦(S2V Decoupling):得分 0.319,显著优于现有方法,几乎消除了参考背景污染。

  • 美学质量与视频平滑度:在 VBench 框架下的美学质量在开源模型中排名第一,视频中的运动平滑性接近闭源模型 Kling。

  • 主观评测:用户调查中,Kaleido 在视频质量、主体一致性、背景解耦等方面均获最高平均分。


更具体地,消融实验表明:

  • 有了 Cross-Paired 数据,背景解耦能力显著提升(+0.013 分)。

  • R-RoPE 同时在宽与高维度偏移时表现最好,避免了多主体场景下主体混淆。

  • 在卡通、动物、复杂人群等多样化场景中,Kaleido 生成的视频均保持主体细节和动态动作合理。





不足与未来方向

虽然 Kaleido 在开源体系中表现突出,但仍存在一些局限性:

  • 极端背景与多主体超载场景:在背景异常复杂或主体数量极多时,可能出现细节丢失或轻微身份混淆;

  • 长视频一致性:当前模型在长视频中保持主体连续性仍有进一步提升空间。

未来探索方向包括:

  • 研究更轻量的多参考条件融合机制,提高推理速度与可移植性;

  • 针对长视频生成优化时间一致性;

  • 持续扩展开源数据集,使模型覆盖更多风格与主体类型;

  • 将 S2V 扩展到多任务统一框架(如视频编辑、虚拟试穿、角色动画),实现“一体化视频生成”。

如需转载,请直接在本文章评论区内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小区楼上天天晚上都有女的大声叫。。。

小区楼上天天晚上都有女的大声叫。。。

微微热评
2025-12-24 00:26:04
男子半夜叫美女上门按摩,让美女在楼道里做,怕惊醒睡觉的妻子

男子半夜叫美女上门按摩,让美女在楼道里做,怕惊醒睡觉的妻子

江山挥笔
2026-01-04 17:35:25
被美军烟雾弹给骗了,马杜罗本来该登机离开,结果却回屋睡...

被美军烟雾弹给骗了,马杜罗本来该登机离开,结果却回屋睡...

顺静自然
2026-01-04 14:31:59
广东队最失败操作,杜锋怒瞪裁判7秒被警告,两大番薯太坑了

广东队最失败操作,杜锋怒瞪裁判7秒被警告,两大番薯太坑了

宗介说体育
2026-01-04 20:52:48
卡米拉王后悲痛发声:查尔斯国王健康更新令人揪心

卡米拉王后悲痛发声:查尔斯国王健康更新令人揪心

智慧生活笔记
2026-01-05 01:22:31
中国为何不救马杜罗?

中国为何不救马杜罗?

洞见报告
2026-01-04 11:37:58
据说全球仅20例!巴西一女子在同一晚与2名男子发生了关系

据说全球仅20例!巴西一女子在同一晚与2名男子发生了关系

忠于法纪
2025-12-04 11:25:07
宇树科技澄清:我司未涉及申请“绿色通道”相关事宜,上市工作正常推进

宇树科技澄清:我司未涉及申请“绿色通道”相关事宜,上市工作正常推进

澎湃新闻
2026-01-04 20:54:33
演员孙涛直播间聊天,被网友喊话:给闫学晶捐点钱!回复亮了

演员孙涛直播间聊天,被网友喊话:给闫学晶捐点钱!回复亮了

丫头舫
2026-01-02 20:56:05
CBA主帅下课狂潮!天津男篮官宣换帅:张德贵担任球队主教练

CBA主帅下课狂潮!天津男篮官宣换帅:张德贵担任球队主教练

狼叔评论
2026-01-04 12:30:08
2026年田朴珺翻身,告别王石再钓大鱼

2026年田朴珺翻身,告别王石再钓大鱼

东方不败然多多
2026-01-03 13:28:16
大陆需做好随时接管台湾的准备,评围岛时台海洋主官大吃喝

大陆需做好随时接管台湾的准备,评围岛时台海洋主官大吃喝

青仔的世界
2026-01-05 02:23:57
一场大胜!两场加时赛!CBA疯狂一夜:辽宁终于赢了 最新排名如下

一场大胜!两场加时赛!CBA疯狂一夜:辽宁终于赢了 最新排名如下

大秦壁虎白话体育
2026-01-04 22:36:56
幸好我国没有采纳这5位专家的建议,不然老百姓就真跟着遭殃了!

幸好我国没有采纳这5位专家的建议,不然老百姓就真跟着遭殃了!

小lu侃侃而谈
2025-12-19 18:22:37
一夜之间,中国传来2个爆炸性突破,美国从88%降到9%,中国猛追

一夜之间,中国传来2个爆炸性突破,美国从88%降到9%,中国猛追

法老不说教
2025-11-19 22:46:19
齐麟26分伤退新疆加时双杀福建 阿不都18+5+6特莱斯41+12

齐麟26分伤退新疆加时双杀福建 阿不都18+5+6特莱斯41+12

醉卧浮生
2026-01-04 21:55:34
跟高市早苗通完电话,特朗普马上发总统令,他要跟中国好好搏一把

跟高市早苗通完电话,特朗普马上发总统令,他要跟中国好好搏一把

前沿天地
2026-01-05 03:25:22
进口车厘子价格跳水,40元一斤划算吗?有商家预测过年前还要降

进口车厘子价格跳水,40元一斤划算吗?有商家预测过年前还要降

齐鲁壹点
2026-01-04 07:36:37
92年,成都军区司令员张太恒去北京开会,却被中央降职调去了南京

92年,成都军区司令员张太恒去北京开会,却被中央降职调去了南京

禾所思
2024-12-30 11:39:32
马杜罗为何宁做美国阶下囚,不做俄罗斯座上宾

马杜罗为何宁做美国阶下囚,不做俄罗斯座上宾

民间胡扯老哥
2026-01-04 10:09:54
2026-01-05 05:16:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1427文章数 5081关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

拘押马杜罗的拘留中心"环境令人作呕" 内部画面披露

头条要闻

拘押马杜罗的拘留中心"环境令人作呕" 内部画面披露

体育要闻

女子世界第一,9年前在咖啡店洗碗

娱乐要闻

《小城大事》上星央八 热血筑梦正当时

财经要闻

李迅雷:扩内需必须把重心从"投"转向"消"

汽车要闻

最高续航310km 岚图泰山8或将上半年发布

态度原创

健康
旅游
房产
公开课
军事航空

这些新疗法,让化疗不再那么痛苦

旅游要闻

一票“畅玩”京津冀

房产要闻

单盘最高狂卖64亿!海南楼市2025年最全榜单发布!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军突袭抓获马杜罗 三个细节值得关注

无障碍浏览 进入关怀版