又一国产全模态视频大模型杀入Artificial Analysis榜单Top 2|top|新论文|actor

分享至

编辑｜Panda、冷猫

1895 年，卢米埃尔兄弟的无声电影《火车进站》曾让观众惊叹甚至惊慌失措；而直到 1927 年，当电影《爵士歌手》让演员的声音与嘴唇动作同步时，电影这项艺术才算真正「活」了过来。

爵士歌手片段，1927 年

在人类的感知中，视觉提供空间结构与构图语境，听觉则传递着时间节奏、情感纹理与叙事的连贯性。如今的 AI 视频大模型领域，也正在经历一场从单模态视觉合成向音视频联合生成的决定性范式转变。

2026 年 2 月 27 日，昆仑天工正式发布多模态视频基础模型SkyReels-V4。该模型支持最高 1080p 分辨率、32 FPS 帧率、最长 15 秒的电影级画质输出，实现了音频与画面精准同步，并可全面覆盖从创意构思到精细修辑的一站式视频创作工作流。

根据独立分析机构 Artificial Analysis 最新公布的标准化测试结果，SkyReels-V4 在文本生成视频 T2V（含音频）的现役模型榜单中取得全球第 2的成绩，并在全球历史所有 T2V 模型总榜中位列第 4。成绩超过了 Veo 3.1、Sora 2、Vidu Q3 以及 Wan 2.6 等当前主流模型。

榜单地址：https://artificialanalysis.ai/video/leaderboard/text-to-video?audio-output=true&include-non-current=true

空口无凭，我们不妨直接看效果。以冬奥会为契机的冰雪运动依然热度不减，下面这段由 SkyReels-V4 生成的滑雪视频，直观展示了其在复杂场景下的生成实力：

文本生成视频（T2V），简版提示词：电影级质感开场：中远景中，@Actor-1 身穿亮橙色滑雪服、黑色头盔与橙黄雪镜，在雪脊上腾跃，远处雪峰与蓝天铺陈背景。镜头切至低角度跟拍：他在陡坡深雪中 carving，雪雾翻飞；中景展现压低姿态控板，远景铺开辽阔山谷。快速剪辑穿插特写与广角：急转弯时雪粒飞溅，侧向横切雪坡掠过松林，腾空跳跃与层叠山脊形成戏剧构图。最后侧后跟拍特写，毛皮饰边随风扬起，手套紧握雪杖，雪沫炸裂。画面定格在夕阳下，@Actor-1 滑向坡底。

这个视频是 SkyReels-V4 基于纯文本提示词生成的，其中展现出了模型对高度复杂的多镜头叙事指令的惊人理解力。从低角度跟拍到远景横切，再到雪沫飞溅的动态特写，SkyReels-V4 完美扛住了极高频的镜头调度。它不仅保持了人物主体和场景在多重机位切换下的高度一致性，更将提示词中要求的「电影级质感」与物理运动学特征呈现得淋漓尽致。

如果说复杂的镜头调度是对视觉能力的考验，那么下面这个「关公战秦琼」视频，则直观展示了其原生音视频同步生成的硬实力：

图像生成视频（I2V），提示词：史诗级电影镜头，@Actor-0 与 @Actor-1 在一片雷鸣交加的荒芜之地中对峙。@Actor-0 横刀向前，怒喝道：「来者何人，竟敢挡我去路？！」@Actor-1 高举双锏，厉声回吼：「大唐秦叔宝，看锏！」吼声在荒野中回荡。瞬间两人冲锋，刀锏相撞，火星四溅。动态动作，激烈的决斗，周围烟尘旋绕，高对比度光线，慢动作，体积光，史诗氛围，特写他们嘴唇翕动和凶狠表情。

这段视频的初始提示包括两张人物图像和一段文本。可以看到，在这个充满张力的桥段里，模型做到了音画维度的深度咬合。兵器相撞的清脆音效与火星四溅的视觉反馈严丝合缝；更难得的是，在特写镜头下，人物高亢激烈的台词发音与嘴唇肌肉的翕动完美对齐。这种原生的视听耦合能力，让数字生成的角色具备了真实的生命力。

SkyReels-V4 也能生成高质量的竖屏短视频：

I2V，同样使用了两张人物图像和一段文本，简版提示词：短剧风格，奢华室内场景。#Role_1 近景，神情隐忧。切至 #Role_2 接电话，语气坚定：「我说我现在回来。好。」大厅远景，两人对立而站。#Role_2 放下手机，中近景说道：「那我让二妹过来，让她送你回去。」反打 #Role_1，轻摇头回应：「不用，不用这么麻烦。」回到 #Role_2，伸手欲触她肩，语气坚决，背景响起低沉紧张氛围音乐：「不行。」

在这段主打微表情与对白交互的文戏片段中，模型展现了对内敛情感与视听同步的精准控制力。从广角全景的空间调度到逆向机位的特写反打，镜头的连贯性得到了极好维持。更值得探究的是其在中文语境下的声画耦合表现，当角色讲出「那我让二妹过来，让她送你回去」与轻声婉拒的「不用，不用这么麻烦」时，不仅中文口型咬字准确无误，连同眉头微蹙、眼神错愕等细微的面部肌肉调度，也与台词的重音及情绪起伏高度对齐。伴随着底层富有律动感的低音悬疑配乐适时切入，系统将一段日常的对话拉扯，渲染出了极具沉浸感的戏剧张力。看起来，SkyReels-V4 有望成为短剧制作者们的得力工具。当然，看得出来，SkyReels-V4 在生成画面中的文字方面还有待提升。

不仅如此，SkyReels-V4 甚至还能编辑视频，比如我们可以输入一张图像、一段视频和一段简单指令，让北极狼跳起迈克尔・杰克逊标志性的捂裆动作。

视频编辑，提示词：Replace the dancer in the middle of the stage in @video_1 with the wolf from @image_1, ensuring consistent movements.

目测，要火。

从上面几个 demo 可以看到，SkyReels-V4 支持文本、图像、视频等多种模态的输入。要知道，在当前的视频生成生态中，主流系统普遍存在模态割裂与功能分散的痛点。SkyReels-V4 成功实现了突围，成为了全球首个同时支持多模态输入、联合音视频生成以及统一生成与编辑任务的视频基础模型

该模型主打「全模态参考」的核心优势，能够无缝接收文本、图像、视频片段、掩码以及音频参考等丰富指令。

这意味着，创作者无需在多个工具间繁琐切换，即可在单一网络内完成从创意构思到专业级音视频同步输出的端到端创作。

技术报告：SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model
报告地址：https://arxiv.org/abs/2602.21818

三大核心突破，让 AI 能画也能说

现阶段的 AI 视频大模型往往像是一个偏科的优等生。它们大多擅长画面生成，但如果在生成画面的同时还要配上同步的声音，往往就会显得力不从心。这种浅层的技术缝合往往会导致画面里的人口型对不上，或者音效比动作慢半拍。

针对这个行业通病，昆仑天工团队在底层架构上进行了大刀阔斧的改进。

新提出的方法概览

让音视频成为「双胞胎」：双流 MMDiT 架构与混合注意力

SkyReels-V4 采用了一种对称的双流架构，如上图左侧所示。

你可以把它想象成一对双胞胎，视频分支和音频分支拥有各自的独立通道，但共享着同一个基于 MMLM 的「大脑」来处理文本输入。

为了平衡模态对齐与参数效率，这套架构包含了混合的双流与单流处理模块。在前 M 层中，视频和音频保留各自独立的参数空间（如层归一化和 MLP 等），但通过联合自注意力机制进行交互；而在随后的 N 层里，模型会切换到单流架构，使用共享参数以提高计算效率。

在整个生成过程中，这两个分支还会通过双向跨注意力机制不断地「交换眼神」。音频流会关注视频特征，视频流也会反向关注音频特征，从而在特征层面上实现了真正的咬合与同步。

现在，虽然架构对称了，但还有一个问题：音视频天生的时间流速也完全不同。打个比方，同样生成 5 秒的内容，视频潜变量跨越 21 帧，但音频潜变量却包含着高达 218 个特征 token （相当于 44.1 kHz ）。

为了解决这种时间尺度的错位，昆仑天工团队引入了RoPE 旋转位置编码频率缩放技术

他们将音频的 RoPE 频率按照 21 与 218 的比值（约等于 0.09633 ）进行了专门调整，使其与视频较粗的时间分辨率相匹配。此外，为了区分输入条件和生成目标，模型还采用了带偏移的 3D RoPE ，为条件潜变量赋予负数的时间索引。

这种底层的数学对齐可确保两个模态能够按照相同的时间节奏去相互关注，彻底治好了 AI 视频长期以来的音画不同步顽疾。

把所有复杂编辑变成一道「填空题」：通道拼接统一框架

为了处理繁杂的编辑操作，系统将带有噪声的视频潜变量、VAE 编码的条件帧以及二进制掩码在通道维度上直接拼接起来。

于是，一切都被简化为特定掩码配置下的修复问题。

例如，如果掩码全为 0 ，意味着让模型从头生成视频，即文本到视频（T2V）任务；如果仅第一帧的掩码为 1 ，那就是让模型依据首帧向下续写，即图像到视频（I2V）任务。当然，也可以通过让前 k 帧的掩码为 1 来实现视频扩展，或让需要编辑的区域的掩码为 0 来实现视频编辑。

据介绍，通过调整时空掩码的参数，局部重绘、主体替换甚至是复杂的元素消除都可以被无缝覆盖。

比如在下面的例子中，一段简单指令就移除了画面中两位指定的角色：

原视频

移除了其中两位角色后的视频，提示词：Remove the young man with short blond hair holding a flashlight on the far right and the woman with long, wavy blonde hair in a dark purple top in @video_1.

凭此能力，SkyReels-V4 也可成为一个去水印或字幕的利器：

视频去字幕演示，左为原视频，右为处理后的视频，提示词：Remove the subtitles in @video_1.

更巧妙的是，在处理这类视觉修复任务时，音频分支还可以根据修改后的视频内容从零开始生成声音，确保修改后的视觉和听觉始终保持逻辑一致。

先起草再精修：引入 VSA 稀疏注意力的超分降本策略

生成 1080p 分辨率、 32 FPS 帧率以及 15 秒时长的视频对算力的消耗是惊人的。

昆仑天工团队设计了联合生成低分辨率全序列与高分辨率关键帧的高效机制：系统先快速打好草稿，随后再交由专用的超分辨率和帧插值模块来补充细节。

视频超分辨率与帧插值方法的流程。F 表示基础模型的输出隐含表示，KF 表示基础模型的关键帧隐含表示。

这中间最硬核的提效手段是引入了可训练的视频稀疏注意力机制（VSA）

VSA 架构概览，来自 arXiv:2505.13389

VSA 通过两阶段分层处理，先粗略聚合时空块找到关键区域，然后再对这些 top-K 的关键块进行密集的注意力计算。这套方案能在保证画质不降低的前提下，将注意力计算成本降低约 3 倍！

当然，庞大的视频基础模型需要一套严谨的学习路径，昆仑天工团队为此采用了一种多阶段的渐进式训练范式

为了让模型稳步掌握空间概念与时间动态，整个训练过程被拆解为多个明确的阶段。

在最初的阶段，模型先从基础的 256px 文本到图像预训练开始，这一阶段使用了 30 亿张图像，专门用于打好空间构图和语义理解的底子。随后模型开始引入基础的视频片段，并在后续的训练中逐步扩展到 480px、720px 以及 1080px 的多分辨率混合训练。在最后的有监督微调阶段，该团队使用了 500 万条多模态视频数据，并叠加了 100 万条经过人工精选的高质量视频进行最终打磨。

所有阶段的完整训练规划。这种渐进策略会逐步提高分辨率、时间长度和任务复杂度。

正是这种精细的策略，最终促成了模型在视觉质量、运动流畅度以及声音自然度上的全面飞跃。

全场景・全流程・全模态

过去的视频模型更偏向「单点生成」。

这是比较好理解的。输入一句提示词，输出一段画面。或者基于一张图就能够延展出几秒视频。生成、编辑、修复、配音往往分散在不同工具中，音频多为后期叠加，创作流程也被拆分成多个阶段。

虽然说模型能力在不断提升，也能生成一些让人眼前一亮的效果，但这距离 AI 视频生成向真正能用好用的内容创作工具的转变仍然有一段距离。

真正让人震撼的是「整合」，是把文本、图像、视频片段、音频参考整合进同一生成体系的能力。也就是 SkyReels-V4 所强调的「全模态参考」，是多模态信息在底层架构中的协同。

柴可夫斯基和《魔兽世界》吉安娜共跳爱乐之城，基于两张图像和一段视频的视频编辑，提示词：Replace the skirt-wearing woman on the left in @video_1 with the man from @image_1, and replace the white-shirt-wearing man on the right in @video_1 with the woman from @image_2, ensuring consistent movements.

音频与视频在扩散过程中同步生成，多种参考条件在同一时空框架内共同作用，各种生成任务被统一进一套计算逻辑中

创作者因此拥有更高的控制精度。人物形象可以保持，动作可以迁移，音色能够复刻，局部区域可定向修改，整体风格可以调整，这些控制条件可以在一次生成过程中同时发挥作用。视频生产从一次性输出，转向可控、可迭代的创作流程。

这种架构带来的直接结果，是创作过程的连续性提升。创作者可以基于参考图像锁定人物外观，利用参考视频迁移动作，通过音频样本保持音色与情绪表达，同时对局部区域进行精细修改。1080p、32FPS、15 秒输出规格，使这些控制能力具备实际生产价值。音视频在生成阶段深度协同，减少后期补偿环节，提升整体一致性。

SkyReels-V4 就像一把瑞士军刀，真正打造了一个能够覆盖全场景，全流程，全模态的生成工具。

还记得 Seedance 2.0 发布，初步让创作者感受到了全模态「整合」的意义。影视飓风 Tim 在视频里对全模态整合的生成模型这样评价：

「这不是一个小的技术革新，这是一个会推走行业所有过去流程和沉淀的一个海啸，我就会这么形容它。」

而 SkyReels-V4 的发布，标志着 AI 视频生成技术从「单一功能合成」进入「全流程一体化创作」的新阶段

开启创作「全栈时代」

以 Tim 为代表的创作者们很焦虑，似乎「越努力做越比不过 AI 的进步速度，以前学的东西越没有价值」。

这种焦虑其实并不必要。过去我们围绕「素材」进行剪辑，如今开始围绕「语义」和「意图」进行调度与生成。模型不再只是执行指令的工具，而逐渐成为理解创作结构、参与创作决策的系统。

AI 生成模型愈发整合，正是行业扩展的强大工具箱，形成覆盖创意输入到成片输出的完整链路，而创作者永远是调用工具的舵手。

在 Seedance 2.0 给行业展示了多模态整合生成的潜力后，产品进入了一个风控收紧的阶段。SkyReels-V4 正是在这个时间节点推出，凭借多模态理解和视听同步生成的底层突破，深刻重塑了内容生产的工作流，为寻求替代方案的专业用户提供了极具竞争力的选择。

放眼整个昆仑天工 AI 生态，底层大模型与前端产品正在形成紧密的双向驱动，构建起一个相辅相成的繁荣生态。目前，昆仑天工已确立了四大模型家族：Skywork 系列大模型、Mureka 音乐音频模型、SkyReels 视频大模型和 Matrix Game 游戏世界模型。

在这个矩阵之中，技术基座与应用场景已经实现了深度融合。一方面，Skywork 系列文本大模型与多模态 Skywork R1V 系列等、音乐生成模型 Mureka V8 等前沿基座，为天工超级智能体（Skywork Super Agents）、AI 音乐创作平台 Mureka、AI 社交 Linky 和 AI 游戏「猫森学园」等业务提供了强大的底层引擎；另一方面，这些高频活跃的前端产品也在不断拓展技术的落地边界，以真实的交互需求反哺大模型的持续进化。

新发布的 SkyReels-V4 填补了这一生态在全模态视听内容生产上的关键拼图。这种模型赋能产品、产品滋养模型的生态闭环，将实质性地打通广告与影视等产业的商业链路，把内容创作的广阔想象落到实处。

未来，SkyReels-V4 将支持 60 秒以上的视频生成、实时交互编辑，并开放 API 与全系产品协同。随着这一模型工具的迭代进化，内容生产也将进入一个全新的工业化的「全栈时代」

文中视频链接:https://mp.weixin.qq.com/s/bEi9bIHN0z8ebB89Pei5eQ

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.