网易首页 > 网易号 > 正文 申请入驻

国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线

0
分享至


新智元报道

编辑:Aeneas

【新智元导读】世界模型迎来高光时刻:谷歌还在闭源,中国团队已经把SOTA级世界模型全面开源了,LingBot-World正面硬刚Genie 3,彻底打破了全球垄断!

刚刚,国内AI公司,又给了业界不小的震撼。

蚂蚁灵波科技发布的LingBot-World,刚刚成为开源SOTA级的世界模型。

可以说,它已经全面对标了谷歌Genie 3,甚至在一些性能指标上超越了Genie 3!

更令人震撼的是,LingBot-World是开源的。开源阵营,又一次领跑,彻底打破了闭源垄断。

Demo一放出,立刻惊呆了外国网友。


才没过多久,X上已经被LingBot-World刷屏了,直接登顶了热搜榜的TOP 1。


海外网友疯狂打call,直呼这个来自中国的模型太震撼了!


更耐人寻味的是,LingBot-World在X上发布后,Genie甚至宣布将于近期开源。





全面对标Genie 3

在可交互性、生成质量、物理一致性和生成时长上,LingBot-World都能全面对标Genie 3。

可能你会问,为什么要对标Genie 3?

不可否认的是,谷歌DeepMind发布的Genie 3,代表着该领域的最高水平。

然而Genie 3有一个大问题:它是闭源的,因而社区无法基于它进行开发和迭代。因此如果学术界和初创公司想训练一个高质量世界模型,门槛是极高的。


Genie 3仍处于闭源状态

但蚂蚁灵波的这次开源,直接就让大家拥有了SOTA级的物理仿真底座,根本无需从零造轮子。

无论是代码、权重还是数据管线,都全部公开,全球社区都将依此打造无限可玩的下一代虚拟世界!


在多个领域,LingBot-World都能打造高保真、高动态、高物理一致性的可交互动态环境,包括照片级真实景观、科学可视化和风格和的艺术世界

让我们具体来看看,LingBot-World具有哪些性能优势?

首先,这是一个高保真的世界模型。

它能进行多模态的角色模拟,具备强大的泛化能力。猫怎么跳、蚂蚁怎么爬,关羽怎么挥刀、龙骑士怎么起飞,这背后复杂的物理动态和行为逻辑,它都能理解和模拟。同时,还能模拟极具表现力的动态环境。

细粒度可控性,让它实现了对角色相机的精准控制;Zero-shot的交互生成,还能把故宫实拍这类真实场景和游戏截图直接生成可交互的视频流。

LingBot-World高保真模拟与精准控制能力令人惊叹

关羽骑马挥刀动作背后的物理动态和行为逻辑,模拟得十分精确

故宫这类真实场景的可交互视频流,看不出破绽

其次,它有着SOTA级长视频生成能力,还是完全开源的!

一个真正厉害的世界模型,就在于不仅记得住,还能记得久。

LingBot-World的长时记忆,即便在大幅度运镜或长时间跨度下,依然能让主体特征保持稳定性,不漂移、不遗忘。

林教头风雪山神庙的的多种场景中,始终保持着长时序的一致性与记忆

对它来说,60秒的无损生成只是起点。依托强大的记忆能力,它突破了时序一致性的瓶颈,直接实现了10分钟的高质量无损输出!

从此,我们不必担心再多看一会就要穿帮,在这个连续运行的世界里,角色、环境和故事都可以自然地发生。世界模型,真正开始「像一个世界」。

选择一个世界设定和一个特定事件,它就能生成一个世界

最后,它的下游应用潜力也是巨大的。

因为整个世界都能讲得通,物理仿真环境前后一致、逻辑自洽,还有稳定的长时记忆,它就成为了3D场景重建和具身智能、游戏Agent训练的理想底座。

可以说,这是一个永远不会塌的训练场:世界是稳定的,时间是连续的,智能体可以在里面不断试错、不断成长。

LingBot-World,摘下圣杯

长期以来,理解并模拟物理世界的技术,一直都是AI领域的圣杯。

然而,尽管当前的SOTA模型在渲染视觉连贯的短片段时已经非常逼真,但本质上,它们却仍然是基于统计关联性来生成像素过渡,并不能真正理解因果关系、物体恒存性以及交互后果这些底层规律。

可以说,从视频生成到世界模型之间,有着巨大的鸿沟,原因就在于高质量互动数据的稀缺、扩散架构的灾难性遗忘,以及实时控制的计算成本过高。

甚至,该领域最先进的方案始终处于专利垄断状态,而现在LingBot-World框架的诞生,彻底打破了这种壁垒!

从此,大规模虚拟世界的研究会更加普及,内容创作、游戏开发、机器人学习的实践,会注入一股强大动力。

对内容创作者来说,灵感不会再被制作成本所限制——一个想法,就能生成一个可持续运转的世界。

游戏里的角色,不再只是在脚本里走流程;机器人也能在稳定的虚拟环境中反复试错。

LingBot-World框架不仅是一个生成式模型,更是一个能实时学习虚拟世界动态并进行渲染的完整系统。

而团队创新背后的三大支柱,就是具备层级语义的可扩展数据引擎、多阶段的进化训练流程,以及具身人工智能的多功能应用。

为了构建能稳健处理新视角、复杂动态和长期规划的世界模型,团队将数据引擎结构化为数据采集、数据分析和数据标注协同的统一流程。


通过下图这个分析引擎,团队有效弥合了原始视频数据与训练用资源之间的鸿沟。


接下来,团队提出了一个多阶段的进化策略,将基础视频生成器转化为交互式的世界模拟器。

在这个训练流程中,第一阶段(预训练)会建立一个通用视频先验。第二阶段(中期训练)会注入世界知识;第三阶段(后训练)则是实现低延迟与严格因果关系。


LingBot-World的视频生成流程如下。

左图显示,系统会以图像或视频、噪声潜在变量及用户自定义动作信号为输入,生成具有长期连贯性、空间记忆和精准动作跟随能力的视频序列。

而在右图中,DiT模块首先经过自注意力层,让系统学习时空一致性、发展空间记忆能力,然后通过Plucker编码器注入动作信号,最后通过交叉注意力层,将文本嵌入向量条件化到视频潜在变量上。


最终,LingBot-World能生成可控的视觉世界,而非随机的视频生成。

定性分析结果显示,LingBot-World能有效处理不同物体的属性和空间构型,帧与帧之间的过渡极其流畅,并且逻辑自洽。




另外,这个世界模型还表现出一个关键特性,就是能自发地保持全局一致性。这就证明:视频模型已经具备了物体重现的隐性记忆!

因此,它不仅能呈现动态视觉效果,还能推理未观测状态的演变。

比如下图第5行中,离开画面的车辆在未被观测的情况下仍会继续其运动轨迹,并在物理上合理的位置重新出现。这就表明,该模型模拟的是现实世界中潜在的时空一致性,而非简单地记忆像素数据。


总之,对于交互式世界模型而言,LingBot-World能提供更具动态感和交互性的环境,这就能大大提升用户在交互式场景中的沉浸式体验。

如此强大的效果,让LingBot-World在多个场景中都有着巨大的应用价值。

比如,引入可操控的全局事件,它就可以根据文本提示,来生成多样化的未来轨迹。

结果显示,模型既能处理「冬季」「像素艺术」这样的全局性环境变化,也能精准调控「烟花」「鱼类」这样的局部情境,并且始终保持物理与时间维度的连贯性。另外,它还可以作为一个行动智能体,预测一系列模拟环境探索的动作,转换为相机轨迹,从而驱动后续的世界生成。


最后,通过大规模3D重建基础模型,我们还能将生成的视频序列进一步转化为高质量的场景点云。

因为这些点云展现出了高度的空间一致性,就为下游的具身智能训练提供了多样化的数据来源。


这一点,我们会在下面详细展开。

蚂蚁灵波为何同时布局VLA和世界模型

巧的是,就在前两天,蚂蚁灵波刚刚发布了空间感知和VLA基座模型。全新开源的LingBot-VLA,刷新了具身智能开源SOTA。

29号,紧接着又发布了LingBot-World世界模型。

从这一系列动作和布局可以看出,蚂蚁灵波在坚持这样一条路线:做「大脑」,做「智能基座」。

为何选择同时布局VLA和世界模型?

原因就在于,VLA负责在真实世界中执行任务(Action),而世界模型负责在虚拟空间中进行低成本试错与推演。

前者是机器人的「大脑」和「手」,后者赋予机器人物理常识,二者分工不同,却天然互补。

VLA擅长直面真实世界,把感知转化为具体动作,真正去完成「拿、放、走、避让」等动作,但真实环境的成本很高,试错代价很大。此时世界模型的出现,恰好补上了这块短板。

后者在虚拟空间中复刻现实世界的物理规律和时序逻辑,让大量失败和修正,都可以在低成本的可控环境中完成,选出最符合物理定律、最安全的路径,然后再迁移到真实世界执行。

二者的深度融合,就形成了「感知-行动-认知」的闭环,解决了具身智能数据获取难、训练成本高、泛化能力弱的行业核心痛点。

这种闭环机制,就从根本上解决了具身智能长期面临的「数据获取难、训练成本高、泛化能力弱」三大难题。

在这些逼真的虚拟环境中,机器人能快速试错、学习,再应用到真实世界,这样就极大降低了研发成本。


因此,世界模型也成为兵家必争之地,无论是OpenAI、谷歌还是英伟达,都在押注世界模型。

要知道,机器人完成一项任务,往往要持续很久,但传统模型生成的视频,通常只能稳定几秒,之后画面就会开始崩坏,因此,机器人很难把任务从头到尾顺利完成。

然而LingBot-World却能做到10分钟级别的无损生成,而且在多步骤、长序列任务中都能保证训练的稳定性。这对机器人训练的意义,可以说是范式级的!


原因在于,机器人训练里最痛的点之一,就是动作是对的,但过一段时间就全错了。不过,如果模型能稳定生成10分钟级别的视频,意味着它具备了长时记忆状态,以及行为之间的因果一致性。

因此,找 → 拿 → 搬 → 放 → 整理这种多技能组合,都可以在一个连续轨迹里学完,这对通用机器人有决定性的意义,让它们「在脑子里练习」成为真正成为可能。

从此,机器人第一次真正具备了长期行为能力!


部署后实时演示的实拍视频

PhysicalAI时代,谁将成为巨头?

可以看到,世界模型在当下仍然处于前沿探索阶段,技术路径尚未真正收敛,研发投入高、周期长,注定不是一条「快钱」的路线。

但正因如此,选择坚定投入世界模型与VLA融合的公司,本身就做出了一次清晰而长远的判断——他们押注的不是短期应用,而是机器人未来的「理解力」和「行动力」。

这个行业,终究要有人去做「大脑」,而不仅仅是「躯体」。

从表面看,蚂蚁灵波选择打造「智能基座」,似乎是一条与宇树、智元等硬件路线错位竞争的道路,但这恰恰是一条最难的基础设施级赛道。

不过,打造智能基座虽然最难,增量空间也是最大的。

更重要的是,当这样的能力选择对社区开放,接受真实世界的检验与迭代,其影响力将不只属于某一家公司,而会成为推动具身智能乃至整个AI时代向前演进的一股关键力量。

Physical AI时代,感谢有蚂蚁灵波。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗武装部队向以色列发射新一轮导弹

伊朗武装部队向以色列发射新一轮导弹

财联社
2026-03-26 19:42:42
4000万求购罗马指挥官,国米为齐沃新思路“拼了”

4000万求购罗马指挥官,国米为齐沃新思路“拼了”

里芃芃体育
2026-03-26 11:15:07
在哪一瞬间,对你老公彻底失望了?网友:强行分居两年,然后离婚

在哪一瞬间,对你老公彻底失望了?网友:强行分居两年,然后离婚

另子维爱读史
2026-03-24 21:15:00
4月1日起,微信支付宝转账规则大变!这3个习惯赶紧改

4月1日起,微信支付宝转账规则大变!这3个习惯赶紧改

老特有话说
2026-03-25 15:30:13
掀掉洋葱顶,整治宗教泛滥的第一步

掀掉洋葱顶,整治宗教泛滥的第一步

黑哥讲现代史
2026-03-14 15:46:38
我发现一个真相:资本爱找孙颖莎代言,根本不只是因为她有流量,

我发现一个真相:资本爱找孙颖莎代言,根本不只是因为她有流量,

小光侃娱乐
2026-03-25 13:40:05
净利润暴跌90%!理想的销量神话破灭

净利润暴跌90%!理想的销量神话破灭

大佬灼见
2026-03-13 12:23:26
扎心!俄爱国军事博主摊牌:再征40万大军也白搭,战场早已变天!

扎心!俄爱国军事博主摊牌:再征40万大军也白搭,战场早已变天!

老马拉车莫少装
2026-03-25 07:41:30
王楚钦师娘爆料!孙颖莎无论是长相性格还是人品,都是无以伦比的

王楚钦师娘爆料!孙颖莎无论是长相性格还是人品,都是无以伦比的

大中国
2026-03-24 15:25:36
卡塔尔正式宣布暂停跟中国的合同,而且短时间内不会恢复

卡塔尔正式宣布暂停跟中国的合同,而且短时间内不会恢复

南权先生
2026-03-25 15:19:55
49岁翁帆突传“喜讯”!丧夫5个月后高调露面,状态好到出人意料

49岁翁帆突传“喜讯”!丧夫5个月后高调露面,状态好到出人意料

查尔菲的笔记
2026-03-16 19:12:07
中共中央批准,开除刘慧党籍

中共中央批准,开除刘慧党籍

新京报政事儿
2026-03-26 17:13:05
人类史上最高级零元购,榨干印度200年,留下45万亿天价账单

人类史上最高级零元购,榨干印度200年,留下45万亿天价账单

掠影后有感
2026-03-26 10:39:36
哈萨克斯坦也没想到,跟着中国混来混去,结果自己也混成了个霸主

哈萨克斯坦也没想到,跟着中国混来混去,结果自己也混成了个霸主

说历史的老牢
2026-03-26 01:18:38
小米捷报,误伤宁德时代

小米捷报,误伤宁德时代

ZAKER新闻
2026-03-26 22:10:32
2-0晋级八强!中国女网15岁新星连续爆冷真猛:下一轮对决王曦雨

2-0晋级八强!中国女网15岁新星连续爆冷真猛:下一轮对决王曦雨

李喜林篮球绝杀
2026-03-26 17:04:26
美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

爱吃醋的猫咪
2026-03-22 22:29:08
看了“秦岚”的穿搭,我悟了:灰色不配亮色、白色,才更时髦减龄

看了“秦岚”的穿搭,我悟了:灰色不配亮色、白色,才更时髦减龄

蓓小西
2026-03-23 08:31:26
倒计时36天预警!黄金或迎抛售潮,多国限金条出口,中国已抢先布局

倒计时36天预警!黄金或迎抛售潮,多国限金条出口,中国已抢先布局

哄动一时啊
2026-03-26 20:23:42
富人的生活能有多夸张?网友:根本找不到心动还门当户对的人

富人的生活能有多夸张?网友:根本找不到心动还门当户对的人

带你感受人间冷暖
2026-03-27 00:05:14
2026-03-27 01:35:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66721关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
房产
亲子
本地
健康

艺术要闻

都说乌克兰美女多,看完摄影师贝格玛 的作品我信了!

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

亲子要闻

看看把孩子吓得哈哈哈

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版