网易首页 > 网易号 > 正文 申请入驻

智源研究院王仲远:训练仍有巨大的Scaling空间 | MEET2026

0
分享至

编辑部 整理自 MEET2026
量子位 | 公众号 QbitAI

全球互联网的文本数据已基本挖掘完毕,但视频数据还未被充分利用。

智源研究院的多模态世界模型悟界·Emu3.5,就是一个从视频中学习,而非仅依赖文本的大模型。

在量子位MEET2026智能未来大会上,北京智源人工智能研究院院长王仲远提到:

  • 当前人工智能正处于第三次浪潮的关键拐点:大模型不仅推动AI从弱智能向通用智能跨越,更有望让机器人从1.0专用时代迈入2.0通用时代。

为此,智源研究院发布“悟界”系列大模型,锚定AI从数字世界进入物理世界的核心方向。

智源的Emu3.5与具身大脑全栈技术体系,就成为支撑这一技术演进趋势的两大基石。



MEET2026智能未来大会上,王仲远还说,要实现AI与物理世界的深度交互,需突破多模态理解与具身执行的核心技术瓶颈。

目前,悟界系列已在多模态学习范式、跨机器人本体适配等领域取得关键进展,且多项成果已开源开放,助力产业协同创新。

为了完整体现王仲远的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。

MEET2026智能未来大会是由量子位主办的行业峰会,近30位产业代表与会讨论。线下参会观众近1500人,线上直播观众350万+,获得了主流媒体的广泛关注与报道。

核心观点梳理
  • 当下人工智能处于第三次浪潮的重要拐点,大模型推动其从弱人工智能迈向通用人工智能,推动机器人从1.0专用机器人时代进入2.0通用具身智能时代。
  • 视频是能够大规模获得的模拟真实世界的高效载体,同时包含时间、空间、物理、因果关系以及意图等各种要素。
  • 2025年往后,第三代Scaling范式的关键在多模态。智源研究院的悟界·Emu3.5,通过统一的自回归架构,将大语言模型的Next-Token Prediction升级为在多模态数据上进行Next-State Prediction,预示着AI从语言学习迈入多模态世界学习的新阶段。
  • 目前的具身大模型依然是不好用、不通用、不易用。不好用,指的是具身大模型还没有达到ChatGPT时刻;不通用,指的是很多模型只能适用一个本体或者同一个品牌的本体;不易用,指的是大脑、小脑以及本体之间的适配度还是不够高。
  • 智源研究院从成立起坚持开源开放,过去两年多开源200多个模型,涵盖语言模型、多模态模型、具身模型等,全球下载量突破6.9亿次;开源100多个数据集,涵盖语言、语音、图像、视频和具身智能等,全球下载量超过400万次,仅在11月底开源的一个具身数据集下载量已超百万次。

以下为演讲全文。

从数字世界到物理世界:AI迎来第三次浪潮关键拐点

今天想和大家分享的是智源研究院在“推动人工智能从数字世界迈向物理世界”上的一些最新科研进展。

我们知道当下人工智能正处于第三次浪潮中的重要的拐点。

过去几年,大模型的爆发让AI从原来的弱人工智能时代迈向通用人工智能时代,也有望推动机器人从1.0时代进入到2.0时代,也就是从专用的机器人到通用的具身智能。

基于对这一趋势的预判,在今年的智源大会上,智源研究院也发布了“悟界”系列大模型

如果说四年前所发布的“悟道”系列大模型开启了中国大模型时代——“悟道”的“道”代表我们对大语言模型方法和路径的探索,那么“悟界”系列大模型代表了我们对于人工智能从数字世界进入到物理世界这一趋势的判断——“悟界”的“界”代表智源对于虚实世界边界的不断突破。

今天我想重点跟大家分享两方面的进展:

一个是在我们在多模态世界模型上的突破,另外是具身大脑的全栈技术体系的成型



Emu3.5:从长视频中学习物理世界动态

在今年的10月30日,智源研究院发布了悟界·Emu3.5,这是一个多模态的世界模型的基座。

Emu3.5用一个单一的Transformer基座能完成多样化的能力,它跟其他一些大模型最重要的区别是,它是从长视频中进行学习

我们知道文字和语言是人类智慧的结晶,是人类知识的总结。大语言模型的成功得益于从文字中学到了智能,学到了逻辑推理的能力,但全世界只有一个互联网,文本的数据已经被基本使用殆尽,这也是为什么这一两年可以看到像大语言模型的预训练已经开始进入到比较缓慢的阶段。

另外一方面,如果人工智能要从数字世界进入到物理世界,不仅仅需要理解文字,还要理解整个世界运行的规律,需要能够处理图像、声音等各种各样模态的信息。

视频是目前能够大规模获得的,同时包含时间、空间、物理、因果关系、意图等各种要素的、能够高效模拟真实世界的载体。



我们知道大语言模型最重要的能力是对下一个词元(Next-Token)进行预测,Emu3.5一个非常重要的能力,就是从长视频中来进行学习,也正是由于这样的训练范式,使得我们能够从Next-Token Prediction升级到Next-State Prediction,能够对下一个时空状态进行预测。

我们相信人工智能在未来这几年会从“语言学习”进入到“多模态世界学习”的新阶段。

为了实现这一目标,对比上一个版本,Emu3.5在各方面都有了大幅提升,比如训练数据集中视频的总量,从原来的15年上升到了790年,参数量从原来的8B提升到了34B。

Emu3.5所采用的是全自回归的架构,自回归架构与Diffusion和Diffusion Transformer的架构相比,其实在图像、视频等多模态的生成速度上,是有比较明显劣势的,但在Emu3.5中,通过我们自研的DiDA技术,每一张图片的生成速度能够提升约20倍,使得自回归模型文生图速度与世界顶级模型模型媲美。

基于以上突破,我们相信Emu3.5开启了第三个的Scaling范式。

刚才前面两位演讲嘉宾也提到,现在整个Scaling确实进入到缓慢的阶段。前几年是大语言模型的预训练的Scaling,过去这两年是后训练的Scaling,在多模态这块,由于我们知道海量的多模态数据还没有被有效地使用,因此依然有非常大的Scaling的空间。

更为关键的是,像Emu3.5采用的是自回归的架构,因此能够复用现有所有针对大语言模型的基础设施,并且Emu3.5现在才只是34B的模型,对比大语言模型依然有千亿、万亿的广阔空间。

目前,Emu3.5科研体验版已经向公众开放,欢迎大家体验。

这里我也简单介绍一下,请看大屏幕中展示的Emu3.5生成的例子。文生图方面,模型可以生成非常精美的图片,各种细节非常丰富。在图像编辑任务中,Emu 3.5展现了非常强的多模态理解能力。



比如说在左上角的例子,我们给了一个指令,“把问号的区域换成合适的颜色”,模型能够通过语义推理填充符合逻辑的颜色;再比如中间的例子,指令是“将批改的卷子还原,把手写的部分去除”,这要求模型首先要识别出哪些属于手写的部分。右下角的例子里,我们给了一张图片,要求“换成一个俯瞰的视角”,模型非常好地展示出俯瞰视角的形象。可以看到,Emu3.5具备了很好的多模态推理和视觉理解能力。

近期,像Gemini 3 pro和Nano Banana pro相继发布,在业界引发关注,其实之前我们把Emu3.5跟Nano Banana第一代做了对比,能力旗鼓相当。针对最新发布的Pro版本,我们正在进行各项能力的评估与测试,这边展示其中部分结果。

在一些虚拟转现实、尤其涉及到时间空间下一个状态预测的任务上面,Emu3.5的表现可圈可点。

比如说在这个例子里,将摩托车的模型草稿图转成现实,我们可以看到Nano Banana还是做了很多偏离原图的“自由发挥”,观察细节可以看到与原图的差异还是比较明显的。Emu3.5则更好地保持了一致性。



再比如说左右视角转换,因为Emu3.5是从视频中学习,它对物理世界,对于时间、空间、物理的知识有了更加充分地理解,所以能够达到更好的理解和生成的效果。对于预测下一个状态的任务,从下面这个例子可以非常明显地看出来,Emu3.5预测状态的正确性和逻辑性具有显著优势。



除了图像生成和图像编辑以外,Emu3.5还具备长时空序列的视觉故事生成,视觉指导(图文说明书)生成的能力,所有这些都是“世界模型”的核心要素。大家可以通过Demo了解更多。

更为关键的是,Emu3.5是全开源的模型。

具身大脑全栈技术:破解机器人“不通用、不易用”难题

Emu3.5解决的是世界基座模型的能力,人工智能要进入到物理世界,很重要的是跟硬件结合,像具身智能。

在具身智能上,智源研究院主要通过在数据和模型上进行破局,我们知道现在整个具身大模型依然不好用、不通用、不易用。

“不好用”是指具身大模型上没有迎来“ChatGPT的时刻”,“不通用”是指很多模型只适用于一个本体或者同一个品牌的本体,“不易用”指的是大脑、小脑以及本体之间的适配难度还是比较高的。

今年我们智源研究院构建了以具身大脑Robo Brain为核心,自底向上的全栈的技术体系。

比如说,我们能够实现跨各种机器人异构本体的数据采集以及数据标准化。在此基础上,构建了具身大脑模型、具身小脑VLA基座模型,以及具身智能评测、端云协同部署框架等,所有这一切都能够为整个产业加速发展,起到实质性的助力作用。

在今年智源大会上,我们还发布了RoboBrain2.0的版本,展示了模型能够将人类复杂指令进行拆解,根据现场空间环境分解指令,并且分配给不同类型的机器人进行执行的具身大脑的能力。

同样,这种交互与理解能力,其实不仅仅用在执行上,在导览导购一些场景也有非常多的可以落地的应用。

在9月份的时候,我们也发布了具身小脑的基座模型,RoboBrain-X0,这是一个能够在零样本泛化、少量样本微调条件下,驱动多种不同真实机器人完成复杂任务的跨本体基座大模型。11月20日的智源具身开放日上,我们发布了升级版X0-Pro,能够执行更加复杂的指令。

在人形机器人领域,全身控制也是非常重要的能力。前两个月大家可能有在网上看到一条非常火的视频,我们用一个35千克的G1机器人拉动1.4吨的汽车。背后驱动这台机器人的,就是全身控制框架BAAI Thor,它也驱动机器人实现了连续28个空翻的高难度全身控制。



开源开放

在11月20日的智源具身开放日上,我们也开源了一个高质量的双臂操作数据集,短短20天内全球下载量突破了130万次,我想,这就是智源研究院对于整个行业实实在在的贡献。

当然不仅仅在具身智能,实际上智源研究院从成立的第一天开始,就坚持开源开放。

我们在过去两年多开源了200多款模型,涵盖大语言模型、多模态模型、具身模型等,全球下载总量已经突破了6.9亿次。数据集也开放了近百个,涵盖语言、语音、图像、视频和具身智能等,全球下载量超过了400万次。

除了开源,我们也积极跟产业里的各方进行合作,比如在具身智能上,智源现在已经跟国内头部30余家机器人企业和机构开展合作,我们也希望能够与更多的大公司和创业公司开展合作,共同推动具身智能世界模型的发展。

以上就是我的分享,谢谢大家。


— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗集装箱船改造的航母被击沉? 伊军指挥官:这几天只是清库存,会亮从未公开的大杀器

伊朗集装箱船改造的航母被击沉? 伊军指挥官:这几天只是清库存,会亮从未公开的大杀器

红星新闻
2026-03-06 14:00:17
被爆换武僧心脏、喝小孩血! 李连杰笑喷:怎么不说我换「华为心、小米肾」?

被爆换武僧心脏、喝小孩血! 李连杰笑喷:怎么不说我换「华为心、小米肾」?

ETtoday星光云
2026-03-04 16:42:06
45岁的李娟近况曝光,住15W的房子,不生孩子也不上班,选择隐居

45岁的李娟近况曝光,住15W的房子,不生孩子也不上班,选择隐居

查尔菲的笔记
2026-03-05 18:13:12
中国出使中东,日本有人想派武装,折射出美国弱点!

中国出使中东,日本有人想派武装,折射出美国弱点!

新民周刊
2026-03-06 09:11:14
安徽大学有学生研究哈梅内伊思想

安徽大学有学生研究哈梅内伊思想

深度报
2026-03-05 22:44:32
纯电续航950km“全球第一”,比亚迪王朝首款D级旗舰SUV大唐发布

纯电续航950km“全球第一”,比亚迪王朝首款D级旗舰SUV大唐发布

IT之家
2026-03-05 21:41:52
热搜第一!多地官宣“连休6天”,春秋假怎样从热搜变成真红利?“娃放假,爹妈不放假”怎么破?

热搜第一!多地官宣“连休6天”,春秋假怎样从热搜变成真红利?“娃放假,爹妈不放假”怎么破?

金融界
2026-03-06 13:30:15
民用北斗被干扰了?中国船员称所有系统全都失效,只能用传统手段

民用北斗被干扰了?中国船员称所有系统全都失效,只能用传统手段

南权先生
2026-03-05 15:22:09
香港最大的遗憾,把数码港交给李泽楷,错失建立东方硅谷的机会

香港最大的遗憾,把数码港交给李泽楷,错失建立东方硅谷的机会

担扑
2026-03-04 22:33:35
鲁山舅舅与亡姐结婚后续:平顶山市对案件接手,女孩仍被管控

鲁山舅舅与亡姐结婚后续:平顶山市对案件接手,女孩仍被管控

糖逗在娱乐
2026-03-06 09:35:38
杀死美以间谍、轰炸以色列国防部、摧毁星链设备,伊朗越杀越猛,欧洲已经开始慌了!

杀死美以间谍、轰炸以色列国防部、摧毁星链设备,伊朗越杀越猛,欧洲已经开始慌了!

头条爆料007
2026-03-06 08:28:28
国务院令发布了:3月30日起统一执行,老坟、祖坟有新规

国务院令发布了:3月30日起统一执行,老坟、祖坟有新规

哄动一时啊
2026-03-05 17:52:48
全国人大代表唐利军:建议短视频平台凌晨1点至5点“深夜静默”

全国人大代表唐利军:建议短视频平台凌晨1点至5点“深夜静默”

闪电新闻
2026-03-05 22:37:26
美国公海动武被批评,印度一声不吭遭质疑,美军在印度洋炸毁伊朗军舰

美国公海动武被批评,印度一声不吭遭质疑,美军在印度洋炸毁伊朗军舰

环球网资讯
2026-03-06 06:57:07
大风315 | 车辆正行驶,屏幕突然显示“3秒钟后关机”,宝骏云海断电趴窝;4S店:小电瓶损坏,较少见

大风315 | 车辆正行驶,屏幕突然显示“3秒钟后关机”,宝骏云海断电趴窝;4S店:小电瓶损坏,较少见

大风新闻
2026-03-06 13:45:07
过道被邻居改成厕所后续:房门被圈死,走廊变私宅,博主坚决维权

过道被邻居改成厕所后续:房门被圈死,走廊变私宅,博主坚决维权

离离言几许
2026-03-05 12:08:33
拉里贾尼才是伊朗现在真正的实权派?接班哈梅内伊他还不够资格

拉里贾尼才是伊朗现在真正的实权派?接班哈梅内伊他还不够资格

合赞历史
2026-03-06 11:51:29
文班38+16+5帽历史第二马刺大胜活塞 福克斯29分坎宁安26+8

文班38+16+5帽历史第二马刺大胜活塞 福克斯29分坎宁安26+8

醉卧浮生
2026-03-06 11:37:48
张一鸣成为中国首富

张一鸣成为中国首富

江西工人报
2026-03-05 20:32:13
17岁男生发现新物种筷子蛇 直接发SCI期刊封神

17岁男生发现新物种筷子蛇 直接发SCI期刊封神

快科技
2026-03-06 12:37:06
2026-03-06 15:31:00
量子位 incentive-icons
量子位
追踪人工智能动态
12220文章数 176403关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

伊军指挥官:这几天只是清库存 会亮从未公开的大杀器

头条要闻

伊军指挥官:这几天只是清库存 会亮从未公开的大杀器

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

黄金,牛市没了?!

汽车要闻

710km长续航+闪充 宋Ultra EV预售15.5万起

态度原创

游戏
旅游
房产
亲子
家居

全球唯一!“任天堂PS”原型机入藏电子游戏博物馆

旅游要闻

【微特稿】连续6年赤字 德国科隆大教堂将收门票

房产要闻

超猛!又有2800套房源砸出,2026海口安居房,彻底爆发!

亲子要闻

真的有这么好吃吗?

家居要闻

暖棕撞色 轻法奶油风

无障碍浏览 进入关怀版