网易首页 > 网易号 > 正文 申请入驻

杀进全球榜TOP2!国产视频模型黑马刚刚出现了

0
分享至

全球视频大模型榜单,国产模型杀进前2。

就在最近,权威第三方机构Artificial Analysis更新了排行榜——

来自昆仑天工的SkyReels-V4,直接干到了文转视频(含音频)全球榜第2,位列Veo 3.1、Sora 2之前。



历史榜(包括所有模型的那种)也冲到第4位,稳居全球第一梯队:



要知道Artificial Analysis可是目前公认的“AI领域的Gartner”,其所有测试均在内部独立进行,不依赖各家实验室自行报告的数据,所以上述成绩背后的含金量可想而知。

而且更关键的是,这不单单是一次“纯文生视频”的胜利。

当大多数模型还在卷文生视频时,SkyReels-V4已经玩起了组合技:

「图像A的主体」+「视频B的动作」+「音频C的背景音」= 一条完整视频。

文本、图像、视频片段、掩码、音频参考全部可混合输入,主打一个全模态参考、一体化生成

好好好,一个月前才刚开源SkyReels-V3,这次V4直接带着全球TOP2的成绩单登场。

只能说这公司节奏够快,成绩够硬。

全球第2,现场表演一个

不过还是那句老话,光说不练假把式,咱这不得召唤SkyReels-V4给大家表演一个(doge)。

锵锵锵锵上场,先给大家来个自我介绍:

  • (我是)全球首个同时支持多模态输入、联合音视频生成、统一生成/修复/编辑任务的视频基础模型。

没记住不要紧,四个技能show这就给观众姥爷献上:

多模态精准控制

先来点有意思的,用图像的主体+视频的动作和音乐生成新视频。

  • 把@video_1中左侧身穿白上衣配牛仔裤跳舞的女性替换为@image_1里的狗, 并将@video_1中右侧身穿全套西装跳舞的男性替换为@image_2 里的猫,确保动作保持一致。

SkyReels-V4看一眼两张参考图:把狗和猫的毛色、身形全都扒下来,但摒弃了两张图的背景。



再看一眼原视频(来自昆汀电影《低俗小说》片段):噢~俩人在跳舞,女生在左边,男生在右边,他们原来是这么跳的。



然后直接开干,人物主体无缝切换了,狗替女生,猫替男生;但舞台、观众、音乐、动作可都没变。

就连这生成的视频中,狗狗弯腰的动作变化时机都和原版女生动作变化的时机对得上,大概在10s左右,这波动作和音乐可是真·卡点了~



视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

这个案例的背后,体现的是SkyReels-V4对多模态参考的精准控制。

首先,咱可以看出来,模型支持文本、图像、视频片段等多种输入组合。

而且实际上掩码音频它也能参考,参考完了就能实现:


  • 基于参考图像的风格迁移与主体保留:就拿上面参考的狗和猫图像来说,从毛色、体态到身形大小的细节,都被精准保留并迁移到了视频人物身上;
  • 音频驱动的动作生成:参考视频的背景音乐,模型能让两者的舞步踩准节拍,甚至连动作变化都精准卡点;
  • 多参考融合创作:这个替换案例的整个指令本身就是典型的多模态参考,有多个图像的主体形象、视频的舞蹈动作和音乐节拍,好几种素材都无痛融在了一起。

专业级视频修复

放完组合技之后,再来个更高级的。

SkyReels-V4还支持对已有内容进行专业级修复——

在不破坏整体结构的前提下,替换视频主体、去除水印、抹掉字幕等,几乎都是手拿把掐。

  • 区域智能修复:能精准替换视频中的主体、修改属性(如服装颜色、物体形状)、更换背景;
  • 元素智能移除:能自动识别并去除水印、字幕、Logo,保持背景内容自然连贯;
  • 参考引导修复:可基于参考图像的风格一致性修复,确保编辑前后视觉统一。

就拿去字幕这事儿来说吧,真到了要用的时候那可真是急得人团团转,往往社交媒体全扒一遍也没有真正好用的。



但交给SkyReels-V4,它还真行。

你瞅,原视频是一个10s左右、含大量英文字幕的小片段:



视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

但魔法这么一施,字幕这就没!了!整个画面立马变得干干净净。



视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

该说不说,SkyReels-V4真是一位后期小能手,它能在保留大部分原视频的情况下,实现局部精准改动。

全维度视频编辑

当然了,既然专业后期的活都能干,那各种日常编辑岂不是轻轻松松。

一次生成不满意,SkyReels-V4也支持随心改、自由改。

插一嘴,虽然都是改,但“专业级视频修复”和“全维度视频编辑”侧重的点还不一样。

用一个例子来区分就是,假设原视频为一个女生在草地上走路,“专业级视频修复”追求的是极致的真——消除路人、改衣服颜色等,改完之后,她还是走在那片草地上,整个视频结构不变;

而“全维度视频编辑”追求的是创造的自由——比如让草地瞬间变为赛博朋克都市,甚至让镜头从定点拍摄变为电影级的推拉摇移,整个视频想要表达的意境内容可能都变了。

针对后者当中的局部编辑,先给SkyReels-V4上个开胃小菜,给视频凭空增加素材

一张帽子图+一段女团舞视频,要求模型给c位dancer戴上帽子。

  • 将@image_1中的蓝色罗纹针织无檐帽添加到@video_1中中央舞者的头上。

注意看细节,帽子的颜色和logo需要记住,下面要考。



5s练习室视频也多看几眼:



视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

然后,SkyReels-V4交卷了。拿着我的放大镜仔细瞅,没想到还真没挑出毛病。



视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

帽子和原图一致,而且也确实按要求戴在了c位女生头上,整个视频几乎就是她戴上帽子重新又跳了一遍。

光增加元素怎么够,再来个反向操作:直接删除视频中的人物或元素

原视频是几个小伙伴一起深夜探险:



视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

结果镜头一转,“消失的他们”原地上演,惊悚感扑面而来:

  • 移除@video_1中最右边那位手持手电筒的浅金色短发年轻男子,以及那位身穿深紫色上衣、留着金色长卷发的女子。



视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

敲黑板,SkyReels-V4不仅支持上述局部编辑,而且还能一键替换视频风格(全局编辑)、改变运镜(相机运动控制)等等。

高品质音频生成

来来来,还没完,接下来是演技大赏。

先挑三个演员(从左到右依次为扮演者A、B、C):



再给个剧本(简化版):

A眼神中透露着玩味和审视,用从容且略带挑衅的语气说:“这么多年来,这十亿明明在身边却花不了,是不是很可惜?”

B原本正闭目沉思,听到话语后缓缓睁眼看向A;

C突然出现在画面中,他愤怒地弯下腰,发出一声重重地拍击桌面的撞击声;

镜头再次转向B,他神色紧张地抬起手指向前方,语气急促而担忧地低吼道 :“志杰,你说什么呢!”



视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

短剧拍完咱一看,这情绪表现力够专业啊,你就说演技和台词功底夯不夯吧。

除了看演技,咱也往深处扒一扒细节。

首先,能演得这么好,肯定离不开AI优秀的指令遵循能力。

除此之外,最让人意外的就是这音频生成质量了,台词不糊嘴,还充分表现出了玩味和审视的人物情绪,敲击桌子的声音真实到能听出是木质的桌面,仔细听还有环境回音。

这是因为模型内置了多语言语音合成、音效生成、背景音乐适配等一系列能力,支持情感语音、歌词同步演唱这些高阶玩法。

整体音频质量在信号清晰度、音色真实度、动态范围这些硬指标上,确实做到了不输专业音频生成工具的水准。

表演看完了,想必你也对SkyReels-V4的实力有了近距离感受。

我们看下来,SkyReels-V4的核心优势几乎可以用两个词来概括:全面、全能

全面体现在多模态上,包括但不限于图像、音频、文本,它基本都能消化吸收,给出的结果也都符合预期。

全能则体现在这种一体化创作能力上,从灵感激发、脚本设计,到音视频生成、后期剪辑、音效配乐,甚至多语言配音和字幕同步,整个流程几乎都能在同一个平台上完成,全部All in one。

而基于“多模态输入+全功能集成”,无论是搞创意还是回到实际应用,整个应用想象空间一下子就被打开了。

从以往实践来看,今后用SkyReels-V4快速生成产品宣传视频、进军短剧制作、视效大片生成,甚至制作教学课件或多语言科普内容,都变得可行且门槛更低了。

那么问题来了,SkyReels-V4到底怎么做到的?

答案,全都藏在论文里了。



双流架构,一体生成

老实说,虽然当下AI视频生成看起来玩法很多,但要真正做到好用实属不易。

痛点呢绕不开三个:

  • 画面没声音:后期配乐对口型耗时费力还容易翻车;
  • 输入方式单一且编辑不灵活:大多模型只认文字,想塞参考图、丢参考视频?不支持;想给视频改个背景、给人物换件衣服?只能再重来一遍;
  • 画质和速度难兼得:要高清就得等,要流畅就只能忍受马赛克画质。



而SkyReels-V4就是冲着这三刀下去的。



它采用双流MMDiT架构,把音、视频从底层就焊在了一起。

视频和音频两个分支并行跑,共享同一个多模态大语言模型(MLLM)编码器。

画面和声音在模型内部就能完成联合生成,不再依赖后期拼凑的模式。

团队还在每个Transformer模块里都加了双向交叉注意力——

视频看音频调整节奏,音频看视频匹配细节。

再配合RoPE(旋转位置编码)频率缩放,哪怕视频与音频的Token数量级完全不同,也能在微秒级的时间轴上精准对齐。

嘴唇动几下、脚步声踩在哪一帧,都能严丝合缝,画面一出,声音就同步到位。

一个月前的上一代V3还要手动提供音频,现在V4的音频分支已经可以直接生成对白、环境音和配乐,并支持音频参考引导。

(这迭代速度真得手动给个大拇指)

输入和编辑也不再是死穴。

它搞了套通道拼接+时序拼接的双维玩法,把文字、图片、视频、遮罩、音频参考全都吃进去。



通道维度上,把带噪视频、条件帧、遮罩叠在一起,不管文生视频、图生视频、视频延长还是局部编辑,本质上都变成“带掩码的修复类”任务。

想改哪,打个遮罩就改哪,不影响别处。

时序维度上,参考图或视频帧直接拼进生成序列前端,模型像翻参考册一样学里面的风格、动作、人物特征。

加上多模态大语言模型的指令跟随能力,你甚至可以说:

“让参考图A里这个女孩,在参考视频B的海边,跳参考视频C的舞,配参考D音频的轻音乐”。

SkyReels-V4是真能听懂,也真能一次生成出来。



画质和速度极限二选一的问题,它也给出了工程解法。

采用先快速出低清全序列,再单独拎几个高清关键帧,然后用专门的超分和插值模型补细节、优化过渡的策略。

训练上走的是“逐级爬坡”的路线,从低分辨率到高分辨率,从单模态到音视频联合,一步步抬高难度。

音频分支单独训练后再和视频分支合练,最后两阶段精修收尾。

每一步踩实了,生成的画面才稳、动作才顺、音视频才真的长在一起。

此外,再配合视频稀疏注意力(VSA)机制,把长序列注意力计算压缩到原来的约1/3。

计算量降下来,效率提上去,最终画面稳在1080p、32帧、15秒的电影级水准。

从文生视频到音视频同步生成,再到多模态输入、全流程编辑,SkyReels-V4这一步,算是把AI视频生成从单点工具推到了全流程的一体化创作



当然这事还没完。团队表示后面还有更长视频、更高分辨率、4K甚至8K的难题要啃;

跨语言创作、复杂场景的音视频协同要优化;另外还会继续降推理成本,让这套工具落到更多行业、更多场景里。

单看昆仑天工这“月更”速度,估计咱不久后就又能用上了~

昆仑天工真跟多模态死磕到底了

说实话,“多模态”三个字,现在谁都在喊,但真正从底层架构去做原生统一的玩家并不算多。

而在这个赛道中,昆仑天工还是比较“执拗”的一个,从天工系列大模型开始,就坚持自研多模态原生对齐。

统一编码、统一对齐逻辑、统一训练范式……这些听着抽象,但一旦走上这条路,基本就是烧时间、烧算力、烧耐心。

当然了,现在看上去好处也非常直接——

当SkyReels做到V4时,音视频的协同是结构级的,而不是外挂式的。

从产品节奏上看,它的路径并不跳跃,一步一个脚印。

  • 早期从文生图、图生图打底,夯实视觉生成与指令对齐能力;
  • 随后推出SkyReels系列,把能力推向时间维度,做文生视频、图生视频;
  • 再到自研音乐模型Mureka系列,补齐音频生成链路,让声音正式进入多模态主干框架。
  • 上个月的SkyReels-V3阶段强化参考驱动,支持图像、视频、音频多模态条件输入,验证跨模态对齐稳定性;
  • 到了V4,就把音视频同步生成、编辑与inpainting统一进同一架构,音频从外挂能力变成了原生分支。

这一步步看似功能扩张,实则是从token对齐到架构共享、再到训练范式统一的持续收束,逐步逼近原生多模态一体化

△图片由AI生成

另外值得留意的是,昆仑天工不只是闷头做模型,还在用产品矩阵把多模态能力真正落地到创作场景里。

有了自研技术打底之后,他们会快速推出面向垂直场景的产品和平台,再配合昆仑万维在游戏出海这块积累的全球化运营经验,这些AI能力在海外的起量速度相当快。

产品本身是各司其职,但到了其旗下DramaWave和FreeReels这种短剧平台,就变成了多模态能力的综合试验场。

创作者剪片子,视频从SkyReels来,配乐从Mureka调,字幕和脚本靠文本模型生成,更不用说现在还能音画同步生成……一个作品里就能把多模态能力全用上。

用户用完了,数据回来了,模型再迭代,这套正向循环一旦跑起来,比单纯堆参数要扎实得多。



当然,这种打法也不轻松。

重资产自研加上高频迭代,本身就是高风险模式,尤其是当分辨率、时长继续往上卷时,算力成本会再度成为压力点。

昆仑天工未来在更长序列、更高分辨率、跨语言音视频协同上能走多远,还要看后续表现。

但至少从现阶段来说,在多模态视频生成这条线上,他们已经成了存在感很强的竞争者。

你看昆仑天工目前的更新频率和能力跃升就能发现,他们这股“死磕”的劲头,还在继续……

SkyReels-V4技术报告:
https://arxiv.org/abs/2602.21818

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
华为Mate 90首发!鸿蒙7已在路上:打破垄断 和安卓iOS三分天下

华为Mate 90首发!鸿蒙7已在路上:打破垄断 和安卓iOS三分天下

快科技
2026-03-25 16:07:00
中东大战,真正让特朗普害怕的是:中国的已读不回!

中东大战,真正让特朗普害怕的是:中国的已读不回!

似水流年忘我
2026-03-26 02:13:59
四川井研一公交车身标语引争议 官方:系个人自费5000元投放的广告,已整改清除

四川井研一公交车身标语引争议 官方:系个人自费5000元投放的广告,已整改清除

红星新闻
2026-03-25 20:09:43
成都“牵手门”事件女主现今状况曝光,太惨了......

成都“牵手门”事件女主现今状况曝光,太惨了......

许三岁
2026-03-17 07:34:05
自作自受!欧尔班硬刚欧盟阻援乌,160亿欧元信贷被直接冻结

自作自受!欧尔班硬刚欧盟阻援乌,160亿欧元信贷被直接冻结

老马拉车莫少装
2026-03-26 10:24:28
森林狼逆火箭:申京努力了,然而杜兰特啊

森林狼逆火箭:申京努力了,然而杜兰特啊

张佳玮写字的地方
2026-03-26 13:03:18
14.99万!“史上最便宜”特斯拉来了

14.99万!“史上最便宜”特斯拉来了

首席品牌观察
2026-03-24 16:18:39
国防部:菲方侵权挑衅只会遭到更加坚决应对

国防部:菲方侵权挑衅只会遭到更加坚决应对

界面新闻
2026-03-26 16:00:27
发生了什么?午后,沪指再度失守3900点

发生了什么?午后,沪指再度失守3900点

每经牛眼
2026-03-26 15:25:31
FIFA系列赛新规:比赛需决出胜负 打平将互射点球

FIFA系列赛新规:比赛需决出胜负 打平将互射点球

体坛周报
2026-03-26 15:53:18
这4种鱼,可能含有甲醛和重金属,建议:还是少吃比较好!

这4种鱼,可能含有甲醛和重金属,建议:还是少吃比较好!

阿龙美食记
2026-03-24 21:52:23
美以军事打击已致伊朗243名师生丧生

美以军事打击已致伊朗243名师生丧生

新京报
2026-03-25 15:05:13
美军首批阵亡遗体送回,遗体箱拥挤堆放,高层的着装与规定相悖

美军首批阵亡遗体送回,遗体箱拥挤堆放,高层的着装与规定相悖

知识TNT
2026-03-25 12:14:18
老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

小羽叨叨叨
2026-03-26 13:24:34
怀孕传闻真相大白后,翁帆突传“喜讯”,杨振宁终于可以放心了!

怀孕传闻真相大白后,翁帆突传“喜讯”,杨振宁终于可以放心了!

丁丁鲤史纪
2026-03-25 16:35:13
中东突发!刚刚,直线拉升

中东突发!刚刚,直线拉升

中国基金报
2026-03-26 12:35:21
初代丑男何润东的突然爆火,狠狠抽了内娱一巴掌

初代丑男何润东的突然爆火,狠狠抽了内娱一巴掌

娱乐圈笔娱君
2026-03-24 16:08:36
重返广东!李春江有了新工作,亮相篮球场,岗位曝光,杜锋期待

重返广东!李春江有了新工作,亮相篮球场,岗位曝光,杜锋期待

萌兰聊个球
2026-03-26 13:02:53
老板娘的丝袜都破了,我要不要告诉她买一双?

老板娘的丝袜都破了,我要不要告诉她买一双?

太急张三疯
2026-03-26 12:50:15
东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

湖人崛起
2026-03-26 09:32:48
2026-03-26 17:08:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
本地
艺术
家居
公开课

亲子要闻

妈妈是时尚小达人爸爸是朴素老模范!我要当爸爸的专属赞助人

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

艺术要闻

哪一座桥不是风景?

家居要闻

傍海而居 静观蝴蝶海

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版