网易首页 > 网易号 > 正文 申请入驻

AI「看不懂」、「做不好」视频的问题,混元用「MTSS」解决了

0
分享至



导读:腾讯混元团队提出了 Multi-Stream Scene Script(MTSS),一种全新的视频描述范式 —— 将传统的 "一段话描述整个视频" 升级为 "多流结构化剧本",通过 Stream Factorization 和 Relational Grounding 两大核心原则,让视频描述既忠实又可扩展,在视频理解和生成任务中均取得显著提升。



  • 论文标题:Script-a-Video: Deep Structured Audio-visual Captions via Factorized Streams and Relational Grounding
  • 论文链接:https://arxiv.org/abs/2604.11244

多分镜、ID 保持、音画同出…… 当视频生成模型开始具备这些核心能力时,一个容易被忽略的瓶颈开始浮出水面:你拿什么来描述一段视频,才能获得更好的效果?

当前主流的做法,是把视觉、听觉、人物、场景、镜头运动等所有信息,全部揉进一段密密麻麻的自然语言段落里 —— 这就是所谓的 Monolithic Caption,我们姑且叫它「流水账」式描述。

这种写法的问题,其实和写剧本一样直观:把演员表、分镜表、音效表全写在一篇散文里,导演没法用,演员看不懂,后期更没法改。

那有没有可能,给视频写一份真正的、更高效的「结构化剧本」?

腾讯混元团队给出的答案是:MTSS——Multi-Stream Scene Script。



「流水账」到底差在哪?

三个绕不开的问题

要理解 MTSS 为什么值得关注,得先看看传统 Monolithic Caption 在实际应用中到底碰到了什么墙。

  • 语义冗余与歧义。 同一角色在不同镜头中被反复描述,容易产生不一致的身份引用。一段话里出现三次 "穿西装的男人",到底是不是同一个人?模型不确定,生成出来也就容易串。
  • 可扩展性差。 想改一个局部细节 —— 比如换个镜头运动、加一段音效 —— 可能需要重写整段描述才能保持叙事连贯性。牵一发动全身,效率极低。
  • 对小模型不友好。 密集交织的信息增加了认知负担,小参数模型很难从中有效学习。大模型或许还能凑合理解,换成 7B 级别的开源模型,表现就断崖式下跌。

这些不是理论上的困难 —— 当你想要实现多分镜生成、跨镜头身份保持、音画同出时,「流水账」就成了最大的瓶颈。

不写流水账,改写分镜剧本:

「MTSS」怎么设计的?

MTSS 的核心思想非常直观:不写流水账,改写 JSON 格式的分镜头剧本。它的两大核心设计原则:Stream Factorization 与 Relational Grounding。



Stream Factorization:把一段视频拆成四条并行的信息流

MTSS 将复杂的音视频动态剥离开来,变成四个专门的、并行的信息流,并互相引用,实现了对视频信息更本质的表达方式:Reference Stream(资产信息)—— 特征锚点核心;Event Stream(事件信息)—— 发生了什么;Shot Stream(镜头信息)—— 如何呈现;Global Stream(全局信息)—— 全局信息

Relational Grounding:让四条流 "活" 起来

仅仅分解是不够的 —— 孤立的信息流无法形成连贯的脚本。MTSS 通过 Relational Grounding 在两个维度上重新建立联系:身份锚定实现实体全局引用,时间锚定实现多轨道并行对齐

这样一来,修改任何一条流中的局部信息(如改变一个角色的台词),不会影响其他流的内容,真正实现了「局部编辑,全局一致」。

与 Monolithic Caption 的效果对比

与传统 Monolithic Caption 相比,MTSS 具备以下核心优势:

  • 符合视频数据本质形式:解耦 身份(Who)、事件(What)、呈现(How)等,并彼此精准关联。
  • 全局一致性:全局身份信息统一管理与引用,避免反复的冗余描述带来误差。
  • 易扩展、易理解:从时间和空间对视频进行结构化拆解,降低理解难度,实现局部编辑。
  • 专业剪辑技巧表达:支持 ReactionShot("说话人 - 听众" 模式)、L-Cut(声音延续)、J-Cut(声音先行)等专业剪辑技巧。



理解与生成两手抓:

MTSS 到底有多能打?

说一千道一万,不如数据说话。针对 MTSS 范式设计的有效性验证,团队在视频理解和视频生成两个赛道上都进行了详尽的实验和评估。

视频理解:格式一换,效果就来

在实验设计上,团队同时评估了 Zero-shot Prompting(直接让模型输出 MTSS 格式)和 Supervised Fine-tuning(在 MTSS 数据上微调)两种使用方式,从而将「格式本身的优势」和「训练带来的优势」进行了有效分离。

  • 遵循 MTSS 范式,Zero-shot Prompting 即可带来普遍提升
  • MTSS 范式设计显著降低认知负担,使得小模型效果提升更加显著
  • 适当的 SFT 能够释放 MTSS 范式设计的最大潜力
  • MTSS 对推理的提升幅度远超对描述任务本身的提升
  • One More Thing:MTSS 作为 "认知脚手架" 缩小模型差距





视频生成:从「理解端的描述格式」到「生成端的控制接口」

随着视频生成模型发展至具备多分镜、ID 注入保持、音画同出等核心能力,如何高效地让视频生成模型具备这些能力,数据表达是最关键变量之一。

为了验证 MTSS 范式对视频生成模型的有效性和高效性,团队以音画同出的开源模型 LTX-2 为基础,进行了适配训练验证。主要改动包括:Shot-Aware Structured Attention(镜头感知结构化注意力)Identity Customization(身份定制模块)



效果分析:

  • 多分镜:MTSS 的 Shot 时间戳提供了有效的分镜信号,轻量级的 Attention 模块即可带来强有力的约束。
  • ID 注入保持:MTSS 的分流设计与跨镜头 Reference Grounding 机制对 ID 注入保持 提升显著。
  • 音画同出:MTSS Event Stream 中显式的 “line” 字段和 “description” 字段为音频生成提供了清晰的 "说什么" 和 "怎么说" 的指令,从根本上改变了音频输出的性质,从近乎随机的环境噪声转变为语义正确的对话。

结语:从「流水账」到「剧本时代」

长期以来,视频理解、视频生成领域一直试图让模型通过海量的 "糙数据" 自己去领悟视频规律。然而,MTSS 工作证明了:更接近数据本质的表达范式能释放出远超架构微调的红利。

MTSS 不仅是一种 Caption 数据格式,它更像是一个友好的 "认知脚手架",帮助人类和模型更轻易地理解视频、生成视频。

虽然我们仍然面临视角剧烈变化时仍有角色身份维持的挑战,但 MTSS 无疑为下一代可控、超长、多镜头联合音视频生成大模型指明了一条极具潜力的数据工程道路。告别 "流水账",迎接 "剧本时代",视频大模型正在进入更加专业化的工业级工作流。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
私家车撞上高速公路施工人员致2死2伤事故调查报告:建议严查不安全施工行为

私家车撞上高速公路施工人员致2死2伤事故调查报告:建议严查不安全施工行为

澎湃新闻
2026-04-28 14:00:31
民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

李橑在北漂
2026-04-02 10:22:26
50岁大叔血糖从14.5降到5.2,医生:他的3个降糖习惯,值得学习

50岁大叔血糖从14.5降到5.2,医生:他的3个降糖习惯,值得学习

荷兰豆爱健康
2026-04-25 21:54:23
回国后我才敢说:印尼是我去过的所有东南亚国家中,最被低估的

回国后我才敢说:印尼是我去过的所有东南亚国家中,最被低估的

千秋文化
2026-04-28 20:20:16
信仰不是法外之地,全国开始雷霆出击整顿寺庙

信仰不是法外之地,全国开始雷霆出击整顿寺庙

世界圈
2026-04-17 08:50:05
女子给男主播刷4万礼物,私下见面想亲热被拒绝,气得要求退钱

女子给男主播刷4万礼物,私下见面想亲热被拒绝,气得要求退钱

新游戏大妹子
2026-04-27 10:57:55
初中生秘而不宣的校园潜规则,90%家长毫不知情,别再忽视!

初中生秘而不宣的校园潜规则,90%家长毫不知情,别再忽视!

朗威谈星座
2026-04-28 18:52:40
90年贵州夫妻花60万囤茅台酒,25年后急用钱,才发现其真实价值

90年贵州夫妻花60万囤茅台酒,25年后急用钱,才发现其真实价值

红豆讲堂
2025-06-16 10:35:39
中年人抗衰老的尽头——多做力量训练

中年人抗衰老的尽头——多做力量训练

增肌减脂
2026-04-28 19:15:12
先是海参崴,再是图瓦和库页岛,俄罗斯对中国,心态完全变了

先是海参崴,再是图瓦和库页岛,俄罗斯对中国,心态完全变了

观察者小海风
2026-04-17 16:11:00
“大龄剩女”正在集体消失!不是嫁人了,是被现实一巴掌扇到隐形

“大龄剩女”正在集体消失!不是嫁人了,是被现实一巴掌扇到隐形

王二哥老搞笑
2026-04-23 18:52:04
东部有点热闹了

东部有点热闹了

静易墨
2026-04-28 21:20:48
上海女博士在家8年未出门,警察破门后,看到屋内景象顿时傻眼了

上海女博士在家8年未出门,警察破门后,看到屋内景象顿时傻眼了

诡谲怪谈
2025-05-02 00:08:52
立夏吃饺子,提醒大家:少吃茴香荠菜,多吃4样,应季鲜嫩又好吃

立夏吃饺子,提醒大家:少吃茴香荠菜,多吃4样,应季鲜嫩又好吃

阿龙美食记
2026-04-25 12:58:04
中方必须无条件割让领土?美发话后,马来西亚叫嚣:中国放弃南海

中方必须无条件割让领土?美发话后,马来西亚叫嚣:中国放弃南海

诗酒趁的年华
2026-04-22 05:07:02
有人花钱劝你躺平!境外组织资助网红批量灌毒,靠“摆烂”渗入

有人花钱劝你躺平!境外组织资助网红批量灌毒,靠“摆烂”渗入

听心堂
2026-04-28 09:49:25
国安部:反华势力炮制“阶层固化=努力无用”叙事

国安部:反华势力炮制“阶层固化=努力无用”叙事

观察者网
2026-04-28 07:03:05
喝小米粥别只放小米,加这2样,营养翻倍还饱腹

喝小米粥别只放小米,加这2样,营养翻倍还饱腹

周哥一影视
2026-04-28 00:17:24
72岁成龙拒演800万美元片酬《尖峰时刻4》,他嫌少?我嫌寒碜

72岁成龙拒演800万美元片酬《尖峰时刻4》,他嫌少?我嫌寒碜

陈意小可爱
2026-04-27 12:19:50
毛主席和董必武各推荐一人进黄埔军校,1个流芳百世,1个遗臭万年

毛主席和董必武各推荐一人进黄埔军校,1个流芳百世,1个遗臭万年

春秋砚
2026-04-28 20:45:03
2026-04-28 21:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12881文章数 142638关注度
往期回顾 全部

科技要闻

10亿周活目标落空!传OpenAI爆发内部分歧

头条要闻

女子花4080元买演唱会门票 想退退不了票还被他人用了

头条要闻

女子花4080元买演唱会门票 想退退不了票还被他人用了

体育要闻

季后赛最新局势:雷霆4-0晋级首队 4队3-1

娱乐要闻

蔡卓妍官宣结婚,老公比她小10岁

财经要闻

政治局会议:加强算力网等规划建设

汽车要闻

拒绝疯狂套娃!现代艾尼氪金星长在未来审美点上

态度原创

旅游
教育
房产
游戏
手机

旅游要闻

河北丰南:春日采摘正当时 农旅融合“果”香浓

教育要闻

不要培养“廉价”的孩子

房产要闻

红利爆发!海南,冲到全国人口增量第4省!

不被定义的“猛攻”,不被设限的狂欢

手机要闻

终于来了!小米澎湃OS 3.0定档4.27,9款机型率先尝鲜流畅新体验

无障碍浏览 进入关怀版