网易首页 > 网易号 > 正文 申请入驻

李飞飞看中的万亿赛道,中国首个自研空间智能AI登场!单张图即生3D世界

0
分享至

新智元报道

编辑:编辑部 HYZ

【新智元导读】中国首个全自研空间智能AI诞生了,单图即可生成360度无限3D场景,实时互动自由探索。这不仅是技术的革新,更预示着,游戏电影等领域即将迎来颠覆性的变革。

就在刚刚,昆仑万维正式发布了一款全新自研的Matrix-Zero世界模型。

Matrix-Zero世界模型包含两款子模型:昆仑万维自研的3D场景生成大模型与昆仑万维自研的可交互视频生成大模型。包括两部分功能:

  1. 支持将用户输入的图片转化为可自由探索的真实合理的3D场景;

  2. 支持根据用户输入实时生成互动视频效果。

至此,昆仑万维正式成为中国第一家同时推出3D场景生成、可交互视频生成模型的探索空间智能的企业。

大模型赛道卷了两年,谁都在观望,下一个破局的方向在何方。

李飞飞躬身入局,仅3个月就估值10亿的World Labs令业内恍然大悟:AI教母瞄准的,就是能进行推理的空间智能!

各家的重磅布局说明,做3D场景生成、视频生成模型、空间智能的必要性,已经迫在眉睫。

诚如英伟达高级计算机科学家Jim Fan所言,「空间智能,是计算机视觉和实体智能体的下一个前沿」。

空间智能,几大痛点亟待突破

不过仔细看就会发现,目前市面上相关的技术路线,尚存一些痛点未被解决。

比如市面上的一些2D图像或视频生成工具,仍然受制于像素空间和3D空间的差异,生成结果往往不一致、物理不合理。

由于2D图像或视频仅限于二维,创建复杂的动作和摄像机角度就极有挑战性,不适合动作场景

而TripoAI、Meshy等3D工具,则更关注单个物体的生成,因而无法生成完整、合理的3D场景。

即使已经走在前面的WorldLabs,也存在不少限制。比如在探索空间上的不足,就会极大地影响游戏制作和视频渲染。

有没有一种技术路线,能将上述痛点全部解决?

巧了,看完Matrix-Zero,你会收获大大的惊喜!

360度无死角生成,还可交互

这次昆仑万维推出的Matrix-Zero,主要包括3D场景生成和可交互视频生成两部分。

3D场景生成

首先,它支持将用户输入的图片,转化为可自由探索的真实合理的3D场景,同时极大避免了一些视频模型或自回归方法中极易出现的前后不一致现象。

那么如何从3D场景渲染出视频的呢?正如下图所示,在3D场景中放置一个摄像机(橘红色线框所示),并指定其运动控制。

3D场景中的相机运动轨迹

每一个时刻都可以根据相机位置和朝向将3D场景渲染为图片,将这些图片拼接即可得到视频。

最后,我们就能够得到3D场景渲染出的视频。

渲染视频效果

这样,不仅视频内容非常符合用户意图,还能拓展在虚拟环境、交互式应用和沉浸式体验中的应用场景,可以用在3D游戏场景中快速可控建模,以及在具身智能中快速搭建模拟场景。

另外,Matrix-Zero可以支持在场景中进行任意方向长距离、大范围的探索,这就为电影、短剧场景镜头生成,提供更多可能。

在这些场景中,你可以先环视再前进、前进后右转、360度俯视、180度回头等等,各种操作只有你想不到,没有它做不到。

而且,无论你输入的是卡通或写实风格的图片,都能生成合理的3D场景。

Matrix-Zero还支持风格迁移,我们可以把一张写实图片转化为卡通风格,或者干脆把房屋变为红瓦白墙。

最后,Matrix-Zero生成3D的场景中的动态物体,也绝对令人惊喜。

无论是光照、海浪、云雾、水流,动态都极度符合真实世界的物理规律,因而可以由之构建真正的世界模型。

为何Matrix-Zero的3D场景生成能有如此惊艳的效果?

这都要归功于昆仑万维自研的3D场景生成大模型。

它包含了两个核心模块,场景布局生成模块和纹理生成模块。

前者能借助可微渲染和扩散模型技术,创造出和输入图片一致的3D场景布局;后者则是在图片生成模型和视频生成模型基础上训练的,能实现符合场景布局的纹理材质生成。

而用户在场景中运动时,3D场景生成大模型就会不断对场景缺失区域进行几何和纹理的补全,因此用户无论在任何位置、任何角度,都能看到合理、一致的场景。

可交互视频生成

AI视频模型不断推陈出新,但真正能让创作者「身临其境」地参与生成过程的AI,却是凤毛麟角。

Matrix-Zero,正是打破这一僵局的革命性产品。

无论是在虚拟环境、交互应用,还是沉浸式场景中,它都能以惊人的效率输出高质量视频。

更重要的是,生成的视频始终保持流畅连贯,符合情境逻辑。

在案例中,它展现出令人惊叹的自由度,以及更加真实的3D场景生成。

当你在键盘上点击方向键,或是移动鼠标,AI会立即响应你的指令,生成与你意图完美契合的画面。

好比这张街景图生成的视频画面,你可以前后左右移动,随心所欲地调整视角,就像在真实世界中探索一样。

还有这张科幻风图片的交互,瞬间给人一种错觉:这不就是Martix中的世界么。

团队的方法建立在自研的生成式视频模型之上,依托大规模开放数据的预训练模型,同时结合了自主研发的用户输入交互模型。

最终,实现了一种以用户指令输入为核心驱动的空间智能视频生成方案。

这就保证了在开放视频领域生成能力的同时,进一步增强了对视频内容中视角移动的精确控制,从而更符合用户的交互需求和预期。

具体来说,Matrix-Zero包括基础视频生成模型和用户输入交互模型两个核心部分。

Matrix-Zero 主要由两个核心部分组成:一个是视频生成模型,另一个是用户交互模型。

前者是整个系统的核心,相当于一位「元帅」。而后者,则是一位「军师」。

元帅负责根据初始视频帧生成连贯的视频内容,军师则负责解析用户输入信息,转化为视频调整信号。这样,Matrix-Zero就既能生成清晰、稳定、有逻辑的视频,还能准确响应,让交互更直观流畅。

具体来说,视频生成模型包含以下关键技术:

  • 通过基于Transformer架构的扩散模型,增强视频序列的时序依赖性和帧间连贯性,有效避免画面跳跃问题。

  • 通过VAE进行数据降维,在提升计算效率的同时减少信息冗余。

  • 通过时间步长优化策略保证生成视频的物理合理性和时序稳定性,确保画面流畅自然。

而用户交互模型则包含四个核心部分:

  1. 「离散运动控制模块」负责处理基本运动指令如前进、跳跃等;

  2. 「连续视角控制模块」用于实时处理视角变化等连续控制信号;

  3. 「3D场景位置追踪模块」通过空间定位技术确保视角转换的稳定性;

  4. 「滑动窗口机制」利用历史输入预测用户操作,优化控制响应。

总之,以上特性让Matrix-Zero真正成为一款足够实用性的产品,在电影、短剧、游戏、具身智能等领域有广泛的应用空间。

游戏开发者和影视剧从业者等相关人员,可以用它实现明显的降本增效。

比如,游戏开发者可以用它轻松实现3D游戏场景搭建。

《黑神话:悟空》中的场景令人心潮澎湃

影视剧从业者,则可以轻松生成电影/短剧中的镜头。为了一个镜头动辄烧上百万甚至上千万美元经费的情况,从此可以彻底告别。

《阿凡达:水之道》是史上经费最高的电影之一,整部电影的预算为4.6亿美元左右,但单个VFX的成本可能就达到每秒数百万美元

由此显露的产品领先性也体现出,昆仑万维在科研、产品、应用上具备足够的前瞻性,已经形成了闭环的产业链。

空间智能,AI下一个里程碑

何谓空间智能?

在「AI教母」李飞飞看来,空间智能不仅仅是让AI看见世界,还要让AI理解三维世界,并具备与之互动的能力。

ImageNet所代表,只是对「智能」一半的理解,另一半还存在于物理世界中。

回顾AI发展历程,我们见证了其从文本到2D图像、视频的跨越。

以往的一些经验也告诉我们一个深刻的道理:高维度的理解和生成,绝非低维度模型所能企及。

不论是LLM还是多模态语言模型(MLLM),其底层架构仍局限于一维的表征。

这种一维表示在处理语言方面得心应手,但当处理图像、视频等其他模态数据时,本质上不过是将多维信息「压缩」进一维序列中,就不会可避免地造成信息损失。

NeurIPS 2024上,李飞飞提到最领先的多模态模型在HourVideo基准上依旧与人类有很大差距

就像文字难以完整描绘出图像的细节,2D模型在处理3D世界时也面临着严峻的挑战。

举个栗子,当前AI生成的视频中,在涉及物体/人物大幅度移动变化的情景下,往往难以保持一致性。

这恰恰暴露出这些低维度的模型,对3D世界理解的局限性。

当然,空间智能也绝不止于简单的3D生成,如果仅依靠维度scaling是远远不够的。

我们还需要做的是,在大模型训练过程中,还需要将3D世界的几何和物理规则系统植入,从而让AI拥有对这个世界的推理、理解、生成能力。

空间智能这一愿景,在2024年底已见雏形。

除了李飞飞World Labs、谷歌Genie 2,在国内,一些团队也做了类似的研究,比如中科院等团队的SceneX、智源研究院的See3D等等。

与他们不同的是,昆仑万维走正出自己独一份的空间智能路线。

从生成的视频中不难看出,Matrix-Zero自由探索的范围任意大,任意广。而且,可以直接交互输出视频,在稳定一致性方面做到业界领先。

那么,能做到中国第一家自研,第一家发布空间智能大模型的上市公司,具备了怎样的优势?

全矩阵布局,All in AGI

2020年,GPT-3横空出世后,昆仑万维做出了一个重要的决定——全面布局大模型。

两年后,AIGC全系列算法与模型「昆仑天工」首次亮相,其能力覆盖了图像、音乐、文本等多模态内容的生成能力。

2023年,自研双千亿级「天工1.0」大模型推出,正式奠定了国产大模型崛起之路。

多模态大模型Skywork-MM在MME基准中,1.0拿下了综合排名第一的成绩。他们还开源了百亿级大语言模型天工Skywork-13。

同年,基于「天工」大模型,这家公司打造了一系列颠覆性AI产品。

  • 8月,国内首款AI搜索——天工AI搜索诞生

  • 12月,领先的AI Agent开发平台天工SkyAgents发布

到了2024年2月,基座大模型迎来了最大升级,采用MoE架构「天工2.0」在处理复杂任务更强、响应速度更快、训练推理效率更高。

紧接着4月,「天工3.0」震撼发布,采用4000亿参数MoE架构,性能较上一代飞升,数学代码飙升超30%。

与此同时,AI音乐生成大模型「天工SkyMusic」开启公测,向情感AGI又迈进一步。

8月,集成视频大模型与3D大模型的AI短剧平台SkyReels发布。

今年1月,天工大模型4.0 o1版/4o版正式上线天工网页端和APP,免费无限用,性能直接对标OpenAI。

截至目前,昆仑万维已自研出「五大模型」体系:文本大模型、多模态大模型、3D大模型、视频大模型和音乐大模型。

与此同时,在2024年AIGC应用用户规模TOP榜中,昆仑万维旗下天工AI强势入围。

这种全方位的技术布局,为其在AI领域持续创新提供了坚实的基础。

2023年,昆仑万维曾立下豪言壮志:All in AGI和AIGC,并将其作为未来十年的战略方向。

五大模型体系,正在为这个终极目标不断铺路。

从多模态到空间智能进阶之路

从行业发展的角度来看,多模态大模型正经历这一场深刻的变革。

多模态技术已经从早期的简单图文理解,逐步演进至复杂的跨模态推理和生成。

在其未来发展中,我们可以预见在多模态领域几个关键的突破方向。

首先是多模态融合进一步深化,未来的模型将不再满足于简单多模态并列,而是要实现真正模态间的深度理解和转换。

比如,模型不仅要「看懂」一段视频,还要能准确理解视频中运动规律,并将这种理解应用到其他场景中。

其次,新一代模型架构需要能够同时整合空间、时间、物理等多维度信息,这种整合不是简单的叠加,而是要在更深层次上实现知识互通和迁移。

而空间智能的到来,将推动模型在多个维度上的升级同时展开。

未来,空间智能模型的落地场景将更加丰富多样。

在教育领域,它可以创造沉浸式学习体验,让抽象的知识变得直观可感;在工业领域,它能更精准控制机器人和自动化生产;在创意领域,它甚至可以革新内容创作的方式,带来前所未有的视觉体验。

AI写诗十四行诗很有趣,用AI辅助心脏手术则是颠覆性的变革

从更宏观角度来看,空间智能代表了AI向着更高维度认知能力进化的方向。

在这场AI进化的马拉松中,昆仑万维展现出了罕见的战略定力和技术魄力。据悉,Matrix-Zero世界模型将于4月份上线。

从ALL in AGI的宏大愿景,到空间智能的前瞻布局,这家公司正用实际行动诠释着技术创新的深层内涵。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全球最毒的10大垃圾食物榜单,泡面没上榜,“真凶”很多人每天吃

全球最毒的10大垃圾食物榜单,泡面没上榜,“真凶”很多人每天吃

小谈食刻美食
2026-04-23 07:54:50
大一女生泰国参加泼水节被卖到缅甸电诈园区,家属称园区已同意放人,正协商时间地点;与闺蜜聊天记录曝光:和多人一起被控制,没睡觉进食

大一女生泰国参加泼水节被卖到缅甸电诈园区,家属称园区已同意放人,正协商时间地点;与闺蜜聊天记录曝光:和多人一起被控制,没睡觉进食

极目新闻
2026-04-23 15:05:28
AUDI的“合资3.0”:为什么奔驰路虎都在抄它的作业?

AUDI的“合资3.0”:为什么奔驰路虎都在抄它的作业?

大众侃车
2026-04-23 17:46:22
李斌回应乐道L90“背刺老车主”:“直接现金补偿”诉求,公司当期将面临数亿元亏损

李斌回应乐道L90“背刺老车主”:“直接现金补偿”诉求,公司当期将面临数亿元亏损

驱动中国
2026-04-23 18:56:09
加拉塔萨雷官方:即刻起终止与土耳其足协管理层的一切关系

加拉塔萨雷官方:即刻起终止与土耳其足协管理层的一切关系

懂球帝
2026-04-23 18:35:02
十五部门联合发文,生育住房联动了,婚恋观也要引导

十五部门联合发文,生育住房联动了,婚恋观也要引导

界面新闻
2026-04-22 11:51:12
A股:刚刚,国务院正式发布,利好两大行业,明日将迎来新的变盘

A股:刚刚,国务院正式发布,利好两大行业,明日将迎来新的变盘

夜深爱杂谈
2026-04-23 19:51:35
AUDI北京车展前打出王牌,创新技术中心加持,E7X或率先落地L3

AUDI北京车展前打出王牌,创新技术中心加持,E7X或率先落地L3

禾颜阅车
2026-04-22 09:18:23
挥泪斩马谡!曼城正式决定,出售1.25亿“顶星”!“节拍器”来投

挥泪斩马谡!曼城正式决定,出售1.25亿“顶星”!“节拍器”来投

头狼追球
2026-04-23 21:43:27
俄副外长:俄方获邀以最高级别参加美国G20峰会

俄副外长:俄方获邀以最高级别参加美国G20峰会

财联社
2026-04-23 11:20:05
女子买12万黄金首饰,金店为何报警?起底退费骗局

女子买12万黄金首饰,金店为何报警?起底退费骗局

环球网资讯
2026-04-23 16:39:17
「龙虾」不只活在屏幕里!讯飞把智能体进化方向讲明白了

「龙虾」不只活在屏幕里!讯飞把智能体进化方向讲明白了

雷科技
2026-04-15 21:43:25
决战时刻:美军增兵一万即将抵达,伊朗公布海底光缆图!

决战时刻:美军增兵一万即将抵达,伊朗公布海底光缆图!

胜研集
2026-04-23 14:26:39
女子被保安扇耳光后续!知情者曝内情,保安身份被扒,学校回应

女子被保安扇耳光后续!知情者曝内情,保安身份被扒,学校回应

180视角
2026-04-23 12:56:07
被轰9连鞭 23岁斯佳辉面如死灰:3-10不敌伊朗选手 3年前遭11连鞭

被轰9连鞭 23岁斯佳辉面如死灰:3-10不敌伊朗选手 3年前遭11连鞭

风过乡
2026-04-23 21:54:22
巴萨官方:亚马尔左腿股二头肌受伤赛季报销,预计能参加世界杯

巴萨官方:亚马尔左腿股二头肌受伤赛季报销,预计能参加世界杯

懂球帝
2026-04-23 20:11:39
只要有陌生电话问你“您是不是本人”,这样反问一句,防骗超实用

只要有陌生电话问你“您是不是本人”,这样反问一句,防骗超实用

今日搞笑分享
2026-04-23 18:21:05
董事长亲自当产品官!北汽重新定义国有车企

董事长亲自当产品官!北汽重新定义国有车企

AutoBusiness
2026-04-22 13:14:44
“其他学生有试卷,我娃没有”,家长因向老师要试卷电子版被指“派头大”;天津津南区教育局:联系到家长,正处理

“其他学生有试卷,我娃没有”,家长因向老师要试卷电子版被指“派头大”;天津津南区教育局:联系到家长,正处理

大风新闻
2026-04-23 18:23:02
12306现豪华旅游专列票价超20万元,运营方:定位高端,已售出两间价格超100万元的套房产品,提供管家服务、特色餐饮及沿线住宿与游览安排

12306现豪华旅游专列票价超20万元,运营方:定位高端,已售出两间价格超100万元的套房产品,提供管家服务、特色餐饮及沿线住宿与游览安排

大风新闻
2026-04-23 17:21:04
2026-04-24 00:52:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15048文章数 66797关注度
往期回顾 全部

科技要闻

马斯克喊出"史上最大产品",但量产难预测

头条要闻

媒体:海军宣传片出现的"新兵何剑" 传递了巨大信息量

头条要闻

媒体:海军宣传片出现的"新兵何剑" 传递了巨大信息量

体育要闻

给文班剃头的马刺DJ,成为NBA最佳第六人

娱乐要闻

王大陆因涉黑讨债被判 女友也一同获刑

财经要闻

普华永道赔偿10亿 恒大股东见到"回头钱"

汽车要闻

令人惊艳的奇瑞车 风云A9可不只是样子货

态度原创

健康
亲子
数码
手机
旅游

干细胞如何让烧烫伤皮肤"再生"?

亲子要闻

新华读报|打乒乓球有助提高儿童注意力

数码要闻

799元!小米推出米家无线吸尘器4C:170AW大吸力、75分钟长续航

手机要闻

vivo X500 Pro Max被曝光:2nm工艺+5GHz,2K直屏九月发!

旅游要闻

山西运城牡丹园免费开放,游客偷花:老板含泪闭园

无障碍浏览 进入关怀版