网易首页 > 网易号 > 正文 申请入驻

AI「看不懂」、「做不好」视频的问题,混元用「MTSS」解决了

0
分享至

来源:市场资讯

(来源:机器之心)


导读:腾讯混元团队提出了 Multi-Stream Scene Script(MTSS),一种全新的视频描述范式 —— 将传统的 "一段话描述整个视频" 升级为 "多流结构化剧本",通过 Stream Factorization 和 Relational Grounding 两大核心原则,让视频描述既忠实又可扩展,在视频理解和生成任务中均取得显著提升。


  • 论文标题:Script-a-Video: Deep Structured Audio-visual Captions via Factorized Streams and Relational Grounding

  • 论文链接:https://arxiv.org/abs/2604.11244

多分镜、ID 保持、音画同出…… 当视频生成模型开始具备这些核心能力时,一个容易被忽略的瓶颈开始浮出水面:你拿什么来描述一段视频,才能获得更好的效果?

当前主流的做法,是把视觉、听觉、人物、场景、镜头运动等所有信息,全部揉进一段密密麻麻的自然语言段落里 —— 这就是所谓的 Monolithic Caption,我们姑且叫它「流水账」式描述。

这种写法的问题,其实和写剧本一样直观:把演员表、分镜表、音效表全写在一篇散文里,导演没法用,演员看不懂,后期更没法改。

那有没有可能,给视频写一份真正的、更高效的「结构化剧本」?

腾讯混元团队给出的答案是:MTSS——Multi-Stream Scene Script。


「流水账」到底差在哪?

三个绕不开的问题

要理解 MTSS 为什么值得关注,得先看看传统 Monolithic Caption 在实际应用中到底碰到了什么墙。

  • 语义冗余与歧义。 同一角色在不同镜头中被反复描述,容易产生不一致的身份引用。一段话里出现三次 "穿西装的男人",到底是不是同一个人?模型不确定,生成出来也就容易串。

  • 可扩展性差。 想改一个局部细节 —— 比如换个镜头运动、加一段音效 —— 可能需要重写整段描述才能保持叙事连贯性。牵一发动全身,效率极低。

  • 对小模型不友好。 密集交织的信息增加了认知负担,小参数模型很难从中有效学习。大模型或许还能凑合理解,换成 7B 级别的开源模型,表现就断崖式下跌。

这些不是理论上的困难 —— 当你想要实现多分镜生成、跨镜头身份保持、音画同出时,「流水账」就成了最大的瓶颈。

不写流水账,改写分镜剧本:

「MTSS」怎么设计的?

MTSS 的核心思想非常直观:不写流水账,改写 JSON 格式的分镜头剧本。 它的两大核心设计原则:Stream Factorization 与 Relational Grounding。


Stream Factorization:把一段视频拆成四条并行的信息流

MTSS 将复杂的音视频动态剥离开来,变成四个专门的、并行的信息流,并互相引用,实现了对视频信息更本质的表达方式:Reference Stream(资产信息)—— 特征锚点核心;Event Stream(事件信息)—— 发生了什么;Shot Stream(镜头信息)—— 如何呈现;Global Stream(全局信息)—— 全局信息。

Relational Grounding:让四条流 "活" 起来

仅仅分解是不够的 —— 孤立的信息流无法形成连贯的脚本。MTSS 通过 Relational Grounding 在两个维度上重新建立联系:身份锚定实现实体全局引用,时间锚定实现多轨道并行对齐。

这样一来,修改任何一条流中的局部信息(如改变一个角色的台词),不会影响其他流的内容,真正实现了「局部编辑,全局一致」。

与 Monolithic Caption 的效果对比

与传统 Monolithic Caption 相比,MTSS 具备以下核心优势:

  • 符合视频数据本质形式:解耦 身份(Who)、事件(What)、呈现(How)等,并彼此精准关联。

  • 全局一致性:全局身份信息统一管理与引用,避免反复的冗余描述带来误差。

  • 易扩展、易理解:从时间和空间对视频进行结构化拆解,降低理解难度,实现局部编辑。

  • 专业剪辑技巧表达:支持 ReactionShot("说话人 - 听众" 模式)、L-Cut(声音延续)、J-Cut(声音先行)等专业剪辑技巧。


理解与生成两手抓:

MTSS 到底有多能打?

说一千道一万,不如数据说话。针对 MTSS 范式设计的有效性验证,团队在视频理解和视频生成两个赛道上都进行了详尽的实验和评估。

视频理解:格式一换,效果就来

在实验设计上,团队同时评估了 Zero-shot Prompting(直接让模型输出 MTSS 格式)和 Supervised Fine-tuning(在 MTSS 数据上微调)两种使用方式,从而将「格式本身的优势」和「训练带来的优势」进行了有效分离。

  • 遵循 MTSS 范式,Zero-shot Prompting 即可带来普遍提升

  • MTSS 范式设计显著降低认知负担,使得小模型效果提升更加显著

  • 适当的 SFT 能够释放 MTSS 范式设计的最大潜力

  • MTSS 对推理的提升幅度远超对描述任务本身的提升

  • One More Thing:MTSS 作为 "认知脚手架" 缩小模型差距



视频生成:从「理解端的描述格式」到「生成端的控制接口」

随着视频生成模型发展至具备多分镜、ID 注入保持、音画同出等核心能力,如何高效地让视频生成模型具备这些能力,数据表达是最关键变量之一。

为了验证 MTSS 范式对视频生成模型的有效性和高效性,团队以音画同出的开源模型 LTX-2 为基础,进行了适配训练验证。主要改动包括:Shot-Aware Structured Attention(镜头感知结构化注意力)和 Identity Customization(身份定制模块)。


效果分析:

  • 多分镜:MTSS 的 Shot 时间戳提供了有效的分镜信号,轻量级的 Attention 模块即可带来强有力的约束。

  • ID 注入保持:MTSS 的分流设计与跨镜头 Reference Grounding 机制对 ID 注入保持 提升显著。

  • 音画同出:MTSS Event Stream 中显式的 “line” 字段和 “description” 字段为音频生成提供了清晰的 "说什么" 和 "怎么说" 的指令,从根本上改变了音频输出的性质,从近乎随机的环境噪声转变为语义正确的对话。

结语:从「流水账」到「剧本时代」

长期以来,视频理解、视频生成领域一直试图让模型通过海量的 "糙数据" 自己去领悟视频规律。然而,MTSS 工作证明了:更接近数据本质的表达范式能释放出远超架构微调的红利。

MTSS 不仅是一种 Caption 数据格式,它更像是一个友好的 "认知脚手架",帮助人类和模型更轻易地理解视频、生成视频。

虽然我们仍然面临视角剧烈变化时仍有角色身份维持的挑战,但 MTSS 无疑为下一代 可控、超长、多镜头联合音视频生成大模型 指明了一条极具潜力的数据工程道路。告别 "流水账",迎接 "剧本时代",视频大模型正在进入更加专业化的工业级工作流。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
梁朝伟和汤唯在《色戒》里“假戏真做”?网友爆出截图:一目了然

梁朝伟和汤唯在《色戒》里“假戏真做”?网友爆出截图:一目了然

姜糖先生
2025-06-08 19:31:00
伊朗最高领袖,“最详细伤情”披露

伊朗最高领袖,“最详细伤情”披露

中国新闻周刊
2026-04-30 16:23:05
934元平板背后:小米在赌一个被忽视的市场

934元平板背后:小米在赌一个被忽视的市场

我是一个粉刷匠2
2026-04-21 14:58:01
老人离世房产未过户,2026年法律新规:继承权真的会作废吗?

老人离世房产未过户,2026年法律新规:继承权真的会作废吗?

复转这些年
2026-03-22 17:48:38
母亲和情夫一起10年,父亲默不作声纵容,却在他50岁生日那天反击

母亲和情夫一起10年,父亲默不作声纵容,却在他50岁生日那天反击

白云故事
2025-04-24 10:35:08
什么暴雨不花妆,纯属营销噱头,看看玲花就知道多假!

什么暴雨不花妆,纯属营销噱头,看看玲花就知道多假!

小光侃娱乐
2026-04-04 11:50:07
738km!沃尔沃新车:最高降价22万

738km!沃尔沃新车:最高降价22万

手机评测室
2026-04-29 11:49:54
海关查获7个女王凤凰螺,内藏宝珠曾卖2400万!至今人工无法养殖

海关查获7个女王凤凰螺,内藏宝珠曾卖2400万!至今人工无法养殖

狸猫之一的动物圈
2026-04-30 11:45:54
全美热搜第1!老鹰半场一度落后51分 多兰爆粗口庆祝马布里笑惨了

全美热搜第1!老鹰半场一度落后51分 多兰爆粗口庆祝马布里笑惨了

颜小白的篮球梦
2026-05-01 08:37:36
为啥韩国女团无法攻破中国男性市场?网友:中国男人以读书为荣

为啥韩国女团无法攻破中国男性市场?网友:中国男人以读书为荣

解读热点事件
2026-04-01 00:05:03
今日最佳:捞酸菜的少女。

今日最佳:捞酸菜的少女。

差评XPIN
2026-05-01 00:06:00
陈坤与黄晓明晒北电表演系96班30年合照,赵薇罕见露面

陈坤与黄晓明晒北电表演系96班30年合照,赵薇罕见露面

韩小娱
2026-04-30 11:47:42
梁靖崑承认沦落原因!输雨果没缓过来,央视讲了实话,王皓托大了

梁靖崑承认沦落原因!输雨果没缓过来,央视讲了实话,王皓托大了

三十年莱斯特城球迷
2026-04-30 19:02:21
泰国政坛大变!昔日流亡总理获释走出牢笼

泰国政坛大变!昔日流亡总理获释走出牢笼

生活魔术专家
2026-05-01 09:53:04
白宫记协晚宴枪击案在美社媒引发阴谋论狂潮

白宫记协晚宴枪击案在美社媒引发阴谋论狂潮

参考消息
2026-04-30 18:40:07
抵制躺平,应该注意什么

抵制躺平,应该注意什么

关尔东
2026-04-29 23:13:39
佛山最大的医院,竟然不是佛山市第一人民医院?看完数据我惊呆了

佛山最大的医院,竟然不是佛山市第一人民医院?看完数据我惊呆了

荷兰豆爱健康
2026-05-01 19:28:22
很多小饭馆,都往碗上套个塑料袋,热汤直接倒里面,会不会有毒?

很多小饭馆,都往碗上套个塑料袋,热汤直接倒里面,会不会有毒?

江江食研社
2026-04-30 12:40:43
大陆为什么不拦?美最后一批坦克送达台岛,博主:他们甚至没保密

大陆为什么不拦?美最后一批坦克送达台岛,博主:他们甚至没保密

混沌录
2026-04-28 21:04:57
今年“五一”广东高速允许“逆行”?网友吵翻了:感觉比“电鸡”逆行更可怕...

今年“五一”广东高速允许“逆行”?网友吵翻了:感觉比“电鸡”逆行更可怕...

广东最生活v
2026-05-01 10:35:18
2026-05-01 20:52:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3093591文章数 7051关注度
往期回顾 全部

科技要闻

苹果上季在华收入继续大增 iPhone收入新高

头条要闻

70岁法国老人骑浙江品牌摩托车 穿越多国抵达杭州

头条要闻

70岁法国老人骑浙江品牌摩托车 穿越多国抵达杭州

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

马筱梅产后身材恢复超好 现身户外直播

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

数码
健康
手机
艺术
公开课

数码要闻

三星T7存储卡发售:提供128GB至1TB可选,329元起

干细胞治烧烫伤面临这些“瓶颈”

手机要闻

硬件守正,体验出奇 | 华为 Pura90 Pro Max 影像测评

艺术要闻

Nikolai Vryasov:当代俄罗斯画家

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版