网易首页 > 网易号 > 正文 申请入驻

智源研究院验证AGI新路线,发布原生多模态世界模型

0
分享至

界面新闻记者 | 伍洋宇
界面新闻编辑 | 宋佳楠

在近期的大模型领域,已经很久没有公司高调谈论对AGI(通用人工智能)的理想。而智源研究院的一个新动作,将这个终极目标重新拉回到聚光灯下。

10月21日,智源研究院发布原生多模态世界模型Emu3,称该模型实现了视频、图像、文本三种模态的统一理解与生成。

在图像生成任务中,Emu3的人类评估得分高于Stable Diffusion的两个版本SD-1.5与SDXL。针对视觉语言理解任务,Emu3的12项基准测试的平均得分略高于微软研究院联合多所高校研发的多模态大模型LlaVA-1.6。视频生成任务方面,Emu3的VBench基准测试得分略高于OpenSora 1.2。从语言能力角度看,它的水平大概处于GPT-3.5。

这是国内大模型领域第一次对上述命题作答,意味着世界模型路径下的AGI进程向前迈进了一小步。

AGI素来有路线之争。在已经显现的争论中,一派观点相信,只有语言智能才能实现,另一派则认为,这绕不开多模态的理解与生成统一。在此之后,行业可以达到世界模型,并进一步抵达AGI。

世界模型是一种能够对环境或世界的状态进行表征,并预测状态之间转移的模型。它使智能体(Agent)能够在模拟环境中进行学习,并将学到的策略迁移到真实世界中,从而提高学习效率并减少风险,这对视频生成、自动驾驶以及智能体的发展至关重要。

这条路径得到不少企业、机构以及知名学者的支持。图灵奖得主、Meta首席AI科学家杨立昆(Yann Lecun)曾在演讲中多次表示对世界模型潜力的关注,并预言世界模型将会成为新一代智能系统的基础。

而作为世界模型的前提,多模态大模型的理解与生成统一是一道重要技术门槛。

据智源研究院院长王仲远介绍,多模态大模型此前的主流技术架构处于发散状态,例如生成任务以扩散模型(例如Stable Diffusion)为主,理解任务以组合式方法(例如大语言模型+CLIP视觉编码器)为主。

在这些路线中,“原生”多模态大模型并没有被建立,仍是以语言模型为核心,将视觉等信号映射到语言模型上。而如果要让一个模型进入物理世界,完成感知、理解、推理与生成等任务,过于复杂的模型架构会降低其可靠性。

因此,理解与生成统一的原生多模态大模型,成为业界和学界共同探索的一道命题,智源研究院也是赶考人之一。

据王仲远介绍,Emu3实现多模态理解与生成统一的核心技术范式是“基于下一个token预测”,本质是将图像、文本和视频编码为一个离散空间,在多模态混合序列上从头开始联合训练一个Transformer。

王仲远指出,“基于下一个token预测”被认为是AGI的通路之一,但还没有在多模态任务中被证明过。Emu3证明了下一个token预测能在多模态任务中有高性能的表现,有机会将其基础设施建设收敛到一条技术路线上。

在大语言模型的预训练阶段,Scaling Law(规模法则)已经处在是否失效的争论中,但就多模态大模型的性能提升而言,王仲远认为还是一个“远没有打开”的状态。事实上,后者依旧基本上遵循Scaling Law,效果随着数据量和参数量的扩大而提升。

多模态大模型的下一步与大语言模型类似,将不断挑战千亿参数乃至万亿参数。并且,当前的多模态大模型也是稠密模型(Dense Model),它同样可以在下一阶段转向MoE(Mixture of Experts/混合专家模型)架构,以获得更快的理解与生成速度。

“所有在大语言模型上可能发生的路径发展趋势,在多模态大模型上都可以进一步得到验证。”不过王仲远预估,在可见的未来,Scaling Up的瓶颈可能会率先出现在算力上。

尽管AGI路径还没有形成共识,但智源研究院的选择已经很明确。王仲远对界面新闻记者表示,团队在语言模型上的投入将仅限于“解决共性问题”的部分,其余的研究资源将集中向多模态大模型进行倾斜。

至于为什么决定走上多模态理解与生成统一的路径,王仲远认为,智源的出发点还是在于定位“原始创新”,因为对现状不满足,所以必须要做下一代的探索。

虽已押注在当前道路,王仲远并不认可技术路线已经出现分水岭,“从产业界的资源投入上来看是可以看到的,但从技术研究路线上来说,永远都有争议。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国要变天了!一个比特朗普更难缠的80后,已经掌握了共和党

美国要变天了!一个比特朗普更难缠的80后,已经掌握了共和党

梦的微尘
2026-04-03 20:52:31
湖人官宣东契奇赛季报销!二级拉伤!卧虎无了!

湖人官宣东契奇赛季报销!二级拉伤!卧虎无了!

贵圈真乱
2026-04-04 10:11:31
酒精含量从50变为221,包头这杯“司法特调”究竟有多上头?

酒精含量从50变为221,包头这杯“司法特调”究竟有多上头?

有戏
2026-04-01 21:55:35
4月1日医保新规落地,药店买药直接报销,这些坑千万别踩

4月1日医保新规落地,药店买药直接报销,这些坑千万别踩

复转这些年
2026-04-04 07:56:14
毛主席手稿被蒋中正珍藏,现藏国民党党史馆!

毛主席手稿被蒋中正珍藏,现藏国民党党史馆!

书画相约
2026-04-04 08:49:49
现场等位200多桌,排队三四个小时!老板崩溃:你们不要来了

现场等位200多桌,排队三四个小时!老板崩溃:你们不要来了

都市快报橙柿互动
2026-04-03 17:19:25
54名雇佣兵被全歼,伊朗刚灭敌,全球接到特朗普消息:美军已赢了

54名雇佣兵被全歼,伊朗刚灭敌,全球接到特朗普消息:美军已赢了

荷兰豆爱健康
2026-04-04 09:46:39
蒙太古杯|中国U16女足战平墨西哥,将与日本队争夺冠军

蒙太古杯|中国U16女足战平墨西哥,将与日本队争夺冠军

北青网-北京青年报
2026-04-04 09:54:16
恒大夏海钧:当一个人高智商,有资源,无下限,会坏到什么地步?

恒大夏海钧:当一个人高智商,有资源,无下限,会坏到什么地步?

小影的娱乐
2026-04-02 14:45:52
明星排队道歉!起底卖了600多万瓶假洋牌“优思益”!

明星排队道歉!起底卖了600多万瓶假洋牌“优思益”!

吉刻新闻
2026-04-03 09:48:53
被曝生下畸形儿传闻后,这一次,崩溃大哭的阚清子,终究是梦醒了

被曝生下畸形儿传闻后,这一次,崩溃大哭的阚清子,终究是梦醒了

晓帝爱八卦
2026-04-04 09:49:24
俞敏洪:如果拼了命,英年早逝的话,和不那么拼命,而活到八九十岁,是一件更加合算的事

俞敏洪:如果拼了命,英年早逝的话,和不那么拼命,而活到八九十岁,是一件更加合算的事

南京择校
2026-03-29 22:42:47
淄博一饭店内,男子当场被抓!

淄博一饭店内,男子当场被抓!

鲁中晨报
2026-04-04 10:37:03
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
丈母娘这样的长相,估计新娘更漂亮吧!

丈母娘这样的长相,估计新娘更漂亮吧!

情感大头说说
2026-04-03 19:09:53
美国防长赫格塞思非常危险,他可能引爆美中战争

美国防长赫格塞思非常危险,他可能引爆美中战争

Ck的蜜糖
2026-04-04 10:01:05
王毅外长给这场战争定了性,中国不可能给美国买单

王毅外长给这场战争定了性,中国不可能给美国买单

兰妮搞笑分享
2026-04-03 20:03:35
“全面取消”物业?四川打响取消物业“第一枪”,官媒发声来了

“全面取消”物业?四川打响取消物业“第一枪”,官媒发声来了

巢客HOME
2026-04-02 20:30:03
每天被活取胆汁,疼到咬烂自己手掌!曾轰动一时的胆熊怎么样了?

每天被活取胆汁,疼到咬烂自己手掌!曾轰动一时的胆熊怎么样了?

蜉蝣说
2026-04-03 16:26:35
库里王者归来!勇士的最后救赎还是王朝悲壮绝唱?

库里王者归来!勇士的最后救赎还是王朝悲壮绝唱?

茅塞盾开本尊
2026-04-03 13:03:02
2026-04-04 11:07:00
界面新闻 incentive-icons
界面新闻
只服务于独立思考的人群
1050237文章数 1332428关注度
往期回顾 全部

科技要闻

内存一年涨四倍!国产手机厂商集体涨价

头条要闻

美军两架战机被击落又有两架直升机被击中 特朗普发声

头条要闻

美军两架战机被击落又有两架直升机被击中 特朗普发声

体育要闻

刹不住的泰格·伍兹,口袋里的两粒药丸

娱乐要闻

阚清子口碑赢了!全开麦跑调拒绝重唱

财经要闻

刘纪鹏:只盼长慢牛,巩固4000点是关键

汽车要闻

17万级海豹07EV 不仅续航长还有9分钟满电的快乐

态度原创

本地
健康
手机
数码
公开课

本地新闻

跟着歌声游安徽,听古村回响

干细胞抗衰4大误区,90%的人都中招

手机要闻

扛不住了!小米官宣涨价,小米:我们尽力了!

数码要闻

iFixit发布AirPods Max 2拆解报告 内部沿用前代设计

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版