网易首页 > 网易号 > 正文 申请入驻

中国AIGC「全家桶」来了!三箭齐发杀入全球第一梯队

0
分享至


新智元报道

编辑:好困 犀牛

【新智元导读】当中国AI还常被贴着「追赶者」标签时,天工AI却在中关村论坛一口气拿出视频、音乐、世界模型三张王牌,宣告中国AIGC正从单点突破迈向真正的全模态领跑。

天下苦AI「盲盒」久矣。

去问问游戏制作人,被吹上天的「世界模型」简直是重度失忆症患者,角色跑三步地平线就扭曲,稍微转个身旁边的房子就会凭空消失。

去问问短剧操盘手,镜头刚切走男主角的西装变成了夹克,生成的画面全是「无声默片」后期硬贴配音,爆炸火光亮起两秒后才听到轰隆声。

再去问问专业音乐人,AI作曲听着热闹但就是有塑料味。你既不能精准地在第15秒加一段压抑的大提琴,更没法让它在副歌前学会屏住呼吸。

AI游戏、AI视频、AI音乐,三条最火的AIGC赛道,三个最深的行业顽疾。


3月27日,2026中关村论坛,一场发布会给出了三个解法。

游戏世界模型Matrix-Game 3.0、视频大模型SkyReels V4、音乐大模型Mureka V9同时登场,全部杀入世界第一梯队。

这一天,中国AIGC迎来了自己的「全模态时刻」


三条赛道,三个顽疾,三剂解药

杀入第一梯队是结果,怎么把行业最头疼的病治好的才是真的。

Matrix-Game 3.0

在生成的城市里走上一遭,回头一切照旧

今年1月,图灵奖得主Yann LeCun专门为「世界模型」这个方向创了公司AMI,种子轮融了10.3亿美元。

AMI首席科学官谢赛宁做出的全球首个多人世界模型Solaris,技术底座正是天工AI开源的上一代Matrix-Game 2.0。

图灵奖得主创业选中的技术底座,来自这家中国公司。这本身就说明了天工AI在这条赛道上的位置。


但2.0有一个没解决的问题:失忆症。

你在AI生成的世界里走了一分钟再回头,房子消失了,路灯换了位置,整个世界面目全非。

3.0就是来治这个病的。

在这条秋意盎然的街道上,我们刻意让视角穿过斑马线,大范围环顾四周,然后再折返回来。

注意看,镜头转了一大圈重回原地,那栋顶着巨大青蛙雕像的绿色小楼原封不动,墙上的粉红灯笼还在,路口的绿色公交车也没有凭空消失或扭曲变形。

看完效果,我们来拆一下背后的技术。

世界模型最大的瓶颈不是算法,是数据。

互联网上的视频只有画面,缺少相机位姿和操作指令,AI没法从中学会「我按了方向键,世界应该怎么变」的因果关系。

Matrix-Game 3.0为此搭建了一套工业级的无限数据引擎,双管线并行。

一条线基于Unreal Engine 5自动生成覆盖1000+场景的高精度交互数据,强化学习驱动的AI Agent在场景中自主探索,每一帧都同步记录视频、6-DoF相机位姿和操作指令,毫秒级对齐。

另一条线则是从3A游戏里全自动提取动态交互数据,7×24小时无人值守,TB级数据持续产出。

世界模型要「记住」世界,首先得「见过」足够多的世界。





在模型层面,Matrix-Game 3.0从三个维度做了系统性升级。

第一是记忆注入。

模型在生成当前画面时,不只看最近几帧,还会根据相机位姿检索出更早期的「记忆帧」,只取与当前视角相关的内容,放进同一个注意力空间联合建模。走过的路、看过的楼,模型都记得。

第二是Error Buffer抗漂移机制。

长时序生成中模型会逐渐偏离真实状态,3.0在训练时就显式建模生成结果与真实帧之间的误差,并把误差作为条件重新注入,让模型大量接触「已经跑偏」的状态,逼它学会自我纠正。

第三是蒸馏加速。

要让5B参数的模型在720P分辨率下跑到40FPS实时生成,光有好架构不够,还得把推理步数压下来。

3.0用了多段自回归蒸馏框架,在训练阶段就让学生模型连续生成多个视频段,完全模拟真实长视频推理的误差累积环境,配合模型量化和VAE解码器蒸馏,最终实现了分钟级长时序一致性下的实时交互。


可交互基础模型结构示意图


记忆增强基础模型结构示意图


多段自回归蒸馏示意图

(左右滑动查看)

三层技术叠满,5B轻量模型就跑出了720P、40FPS的实时生成,分钟级长时序一致性。这在一年前是不可想象的。

更大的MoE-28B模型,则在泛化性和动态表现上进一步拉满。它为第一人称和第三人称分别训练独立的动作模型,共享同一个视觉细节模型,既能做沉浸式第一人称探索,也能跑第三人称游戏视角,可生成时长约60秒。

放眼全球,可交互世界模型这条赛道上,Google DeepMind的Genie 3是闭源标杆,Matrix-Game 2.0是该技术范式首个开源实现。3.0在记忆、分辨率和实时性上全面超越2.0,是目前与Genie齐头并进的方案。


主页:https://matrix-game-v3.github.io/

代码:https://github.com/SkyworkAI/Matrix-Game/tree/main/Matrix-Game-3

模型:https://huggingface.co/Skywork/Matrix-Game-3.0

以前的世界模型是「能看不能摸」的橱窗展品,现在的Matrix-Game 3.0是一个可以真正走进去玩的虚拟世界。

世界的问题解决了,接下来看画面。

SkyReels V4

画面里人开口说话的瞬间,声音就跟上了

注意「听」,漫天黄沙里,女主开口说「谢谢你救了我」的瞬间,声音是不是严丝合缝跟上了?男主回应时,背景音乐的节奏是不是也刚好踩在了画面的情绪点上?

这段荒凉凄美的戈壁戏,不仅演员的表情极其自然,连呼啸的风声都跟画面完美交融。

这就是SkyReels V4最炸裂的地方。

以前的AI视频都有一个毛病,先生成画面,再找另一个模型配音。两套系统各干各的,经常出现音画对不上的情况。

SkyReels V4直接从底层把这事治了。

它自研了一套双流MMDiT架构,视频和音频不再是两个模型各生成各的,而是在同一个模型内部通过双向交叉注意力同时生成,音画从第一帧起就是锁死同步的。


但光解决声音还不够。短剧操盘手的另一个噩梦是控制失灵,镜头一转主角就变脸。

SkyReels V4的解法是全模态强化学习加上精准控制系统。

强化学习搭了一套覆盖全场景的语义Reward模型,教AI「看大局」,不只是死磕每个像素好不好看,而是让画面整体在「讲一个逻辑自洽的故事」。

关键帧参考能自动补全节点间的画面,网格图参考更狠,上传最多9张剧情帧,一键生成角色不走形、场景不跳跃的连贯短剧。

不仅如此,多角色对话场景也能跑,正反打镜头切换、台词分配、表情匹配自动完成,中英法日多语种通吃。

同一套框架还覆盖去水印、去台标、删除或添加角色等后期编辑,对影视后期来说全是刚需。

我们只需给模型喂一张静图加一段实拍视频,真人演员就被无缝替换了。不仅动作节奏分毫不差,衣服在动态走位中不走形,而且原版海滩阳光、渔船背景、平移运镜也能被完美保留。




再比如,下面这个视频里有一个戴黑帽穿黑大衣的女人,手里拿着一瓶紫色液体。我们只需给模型一条指令「找到这个人和这瓶东西,删掉」,人和瓶子就能干干净净消失,背景无缝填补。




视频的问题解决了,接下来看声音。

Mureka V9

唱对了,混对了,该停的地方也停了

先说一个事实。

前一代Mureka V8,已经靠自研MusiCoT(Music Chain-of-Thought)技术在Artificial Analysis音乐模型榜单上同时拿下人声和乐器双料冠军,碾压Suno V4.5和Udio。

全球第一了,V9还升什么?

两个字:「好控」。

过去AI音乐最让人抓狂的不是「能不能生成」,而是生成了却控不住,歌词落不到对的段落,人声唱不对重点,离创作者真正想要的总差最后一层。

V9重点攻克的就是这个。

段落级歌词语义控制更精准,人声不只是「唱出来」而是「唱对了」,混音质感更通透,生成速度更快,同一创意方向下的结果也更有新鲜度。

而且,V9还多了一个能力:知道什么时候不该唱。

换句话说就是,不必要的哼唱和模糊唱词大幅减少,该留白就留白,不硬加戏。

在产品层面,同一创意可以快速出多版本,支持在旋律、人声、结构上局部保留替换,创作从「写一首歌然后定稿」变成了版本化的迭代工作流。

一句话概括就是:从「能做出作品」走向「能稳定做出你真正想要的作品」。

数据也印证了这个判断。

在主观评分中,V9在音乐旋律性(7.25)、音乐表现力(6.89)、编配编曲(6.98)三个维度全部拿下第一,超越Suno V5和Minimax 2.5。而涨幅最大的恰恰是精准控制维度,从V8的6.93直接跳到V9的7.24。


说完升级方向,直接听这首实测曲。

强烈建议空降1:08秒。短短20秒内,主唱人声在中、英、法、西四种语言间无缝穿梭。

不管语言怎么切,慵懒的民谣腔调、换气节奏甚至咬字气声都保持着惊人的一致,用四种语言的丝滑流转,硬是唱出了一种跨越国界的电影级浪漫。

但Mureka的野心不止于一个AI作曲工具。它瞄准的是AI音乐时代的Spotify。

逻辑很简单,当AI让音乐创作从「少数专业人的低频行为」变成「所有人的高频表达」,音乐就不再只是被动消费的内容,而是一种新的自我表达语言。

这种AI原生的内容形态需要一个全新的平台来承载,Mureka正是在这个判断下构建的,模型能力做底座,版本化创作工作流做引擎,表达与社交做飞轮,同时面向B端开放API嵌入场景。

市场已经在用脚投票。Mureka的ARR已经达到竞品同类模型的10倍以上,不到两年迭代九个大版本,是MusiCoT技术闭环一步步卷出来的系统能力。

在论坛现场的Mureka V9互动展区,大家体验完之后的第一反应,几乎都是:「这……真的是AI做的?!」

大概,这就是对一个AI音乐模型最高的赞美了吧。


中国AI的「全模态时刻」

现在,世界能记住了,画面能听见了,音乐能控住了。

三个行业最头疼的病,在同一场发布会上同时给出了解法。

但这件事的意义,远不止于三个模型本身。

DeepSeek在大语言模型领域的突破,说明中国AI有能力在单个赛道上挑战全球最强。

而天工AI在游戏、视频、音乐三条赛道上的同时登顶,指向一件更重要的事——

中国AI企业有能力构建全模态的技术体系,而不仅仅是在某个单点上追赶。

从单点突破到全面开花,从追赶者到领跑者,这就是「全模态时刻」的真正含义。

2026 AGI战略:从全模态突破到AI平台经济

技术登顶只是上半场。

在同一场发布会上,天工AI董事长兼CEO周亚辉发布了2026 AGI战略,核心是「3+1」布局——

三大场景大模型(Matrix-Game + SkyReels + Mureka)加上天工超级智能体。


三个模型是三把尖刀,分别插入游戏、视频、音乐三个百亿级内容产业。

天工超级智能体则是串联它们的超级平台,面向C端用户提供一站式AI创作体验,面向B端开发者开放API和生态接口。


这就是天工AI在发布会上正式亮出的「AIGC全家桶」——不是单个模型的秀技,而是一整套从生成到编辑到分发的全链条能力。

配合AI短剧平台Dramawave、AI音乐平台Mureka、AI游戏平台猫森学园2.0等产品矩阵,文本、音乐、视频、游戏四大领域全覆盖。


用周亚辉的话说,模型是引擎,平台是工厂,创作者是老板。

天工AI要做的不只是模型提供商,而是AI创作者经济的平台运营者,把最顶尖的能力开放出来,让开发者、创作者和合作伙伴都能从中受益。

这套全家桶意味着什么?

想象一下,一个人加DramaWave就能出品一部短剧,加Mureka就能发行一张全球专辑,加猫森学园就能创造一个游戏世界。

每一项在三年前都需要一个团队甚至一家公司才能完成,现在一个人就够了。

这就是周亚辉所说的「一人公司时代」。


技术不是从天上掉下来的,是一行一行代码、一篇一篇论文磨出来的。

回过头来看,最让人感慨的不是某个具体参数,而是一种整体的「势」。

2023年昆仑万维宣布All in AGI时,外界充满质疑。2023年天工大模型1.0发布,有人说是百模大战里的又一个跟风者。2024年AIGC矩阵逐渐成型但还没拿到决定性优势,依然有人观望。

到了2026年3月,四年的坚持给出了自己的答案。

全球月活近4亿,海外收入占比93%,三大模型同时站到世界第一梯队。


而这只是起点。

按照路线图,2026年是基础设施年,四大模型全部就位,能力锁定全球第一梯队。

2027年是生态爆发年,Skills生态全面开放,创作者变现通路打通,B端API对外输出。

2028年是平台经济年,三大平台冲各自领域的全球头部,Skywork Super Agent成为创作者标配。


当「全模态」从PPT上的口号变成榜单上的排名、API接口里的能力、用户手中可感知的产品,中国AIGC的「全模态时刻」,确实来了。

参考资料:

https://matrix-game-v3.github.io/

https://github.com/SkyworkAI/Matrix-Game/tree/main/Matrix-Game-3

https://huggingface.co/Skywork/Matrix-Game-3.0

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
和没教养的人一起吃饭,能恶心到啥程度?如果我是这样,请打死我

和没教养的人一起吃饭,能恶心到啥程度?如果我是这样,请打死我

夜深爱杂谈
2026-06-02 21:07:12
蝉联欧冠后开启重建,大巴黎队长马尔基尼奥斯等五人或离队

蝉联欧冠后开启重建,大巴黎队长马尔基尼奥斯等五人或离队

星耀国际足坛
2026-06-02 22:59:16
游客吃潮汕火锅嫌“口太淡”要挟写“5000字差评”要免单,火锅店最新回应:高峰期排队上千桌,为顾全大局妥协

游客吃潮汕火锅嫌“口太淡”要挟写“5000字差评”要免单,火锅店最新回应:高峰期排队上千桌,为顾全大局妥协

洪观新闻
2026-06-02 13:19:43
女老师上课汗流浃背,博主感叹老师不容易,反遭全网谩骂、泼冷水

女老师上课汗流浃背,博主感叹老师不容易,反遭全网谩骂、泼冷水

谭谈社会
2026-06-01 17:39:07
54岁吴越下厨被拍,单身生活细节让无数人沉默

54岁吴越下厨被拍,单身生活细节让无数人沉默

天马幸福的人生
2026-05-31 14:54:35
你最接近生理极限的一次经历是什么?网友分享让人目瞪口呆!

你最接近生理极限的一次经历是什么?网友分享让人目瞪口呆!

夜深爱杂谈
2026-04-09 19:39:13
“不理解但尊重”,家长打扮粉嫩幼态送娃上学,网友:很不得体

“不理解但尊重”,家长打扮粉嫩幼态送娃上学,网友:很不得体

蝴蝶花雨话教育
2026-06-03 00:05:12
菲戈:不能拿姆巴佩和C罗比较

菲戈:不能拿姆巴佩和C罗比较

懂球帝
2026-06-02 12:28:06
3年斩获12个冠军!恩里克和大巴黎续约四年,冲击欧冠三连冠!

3年斩获12个冠军!恩里克和大巴黎续约四年,冲击欧冠三连冠!

海浪星体育
2026-06-02 11:32:20
37岁奚梦瑶!嫁给何猷君生一对儿女,如今补办婚礼超幸福

37岁奚梦瑶!嫁给何猷君生一对儿女,如今补办婚礼超幸福

小妹讲史
2026-06-02 16:13:11
蒋中正亲笔书写的任命状冲上热议!书法的好坏,永远意见不一?

蒋中正亲笔书写的任命状冲上热议!书法的好坏,永远意见不一?

书画相约
2026-06-01 07:23:51
帕克:在曼联没人规劝加纳乔吗?他现在600次传球有555次回传

帕克:在曼联没人规劝加纳乔吗?他现在600次传球有555次回传

懂球帝
2026-06-02 20:59:08
被骂疯子的米莱终结阿根廷几十年赤字

被骂疯子的米莱终结阿根廷几十年赤字

桂系007
2026-04-28 15:20:23
深圳K11店员讥讽顾客穷逛后续:脸丢光,工作没了,商场惨遭牵连

深圳K11店员讥讽顾客穷逛后续:脸丢光,工作没了,商场惨遭牵连

老特有话说
2026-06-02 21:21:03
普京亮剑,下达立陶宛“灭国”警告,不到24小时,立总统紧急灭火

普京亮剑,下达立陶宛“灭国”警告,不到24小时,立总统紧急灭火

李健政观察
2026-06-02 19:05:48
豆包预计6月下旬正式收费 每月最低68元 你还会继续用吗?

豆包预计6月下旬正式收费 每月最低68元 你还会继续用吗?

TechWeb
2026-06-02 09:19:35
打脸!巴萨 8000 万核心刚表忠心,转头就接近加盟阿森纳

打脸!巴萨 8000 万核心刚表忠心,转头就接近加盟阿森纳

澜归序
2026-06-02 07:29:35
7年败光2个亿,邹市明冉莹颖共同发文,终究还是踏出了这一步

7年败光2个亿,邹市明冉莹颖共同发文,终究还是踏出了这一步

林轻吟
2026-02-11 11:29:40
罗马诺爆料!曼联全力挖角皇马巨星,有望成B费之后队史最佳引援

罗马诺爆料!曼联全力挖角皇马巨星,有望成B费之后队史最佳引援

夜白侃球
2026-06-02 11:05:46
中央5台直播女排时间表:6月3日CCTV5直播中国女排,李盈莹缺阵

中央5台直播女排时间表:6月3日CCTV5直播中国女排,李盈莹缺阵

薇说体育
2026-06-02 11:49:56
2026-06-03 02:44:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15369文章数 66896关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

房产
旅游
游戏
亲子
艺术

房产要闻

5200巨量投资曝光!未来五年,海南格局大变!

旅游要闻

北京位列全球数字旅游引领型城市榜首

离发售不远了!《寂静岭》系列新作已公开游戏评级

亲子要闻

这才是新手爸妈应该刷到的儿童急救知识!

艺术要闻

抖音砸60个亿,要盖一座“不像医院”的医院?

无障碍浏览 进入关怀版