网易首页 > 网易号 > 正文 申请入驻

独家|阿里达摩院推出世界模型版“奥运会”,蚂蚁灵波排第一、自家模型没上榜

0
分享至


就在刚刚,阿里世界模型版“奥运会”来了!

智能纪元AGI 6月10日消息,独家获悉,阿里达摩院在今天联合浙江大学等多所 高校研发出一套全新测评体系 WorldOlympiad。

这是一个用于判断世界模型性能的基准测试,涵盖物理真实性、几何一致性和交互真实性等方面。


WorldOlympiad评估分解为三个互补的维度,物理维度、使用对象分割和多模态大语言模型(MLLM)作为评判标准,来评估生成的视频是否遵循力学、热学现象和材料属性方面的可解释规则,几何维度使用高斯散射重建生成的视频,并评估结构一致性、跨视角连贯性和摄像机轨迹对齐情况。

据悉,根据WorldOlympiad排行榜显示,蚂蚁灵波LingBot-World模型排名第一,英伟达Cosmos世界模型排第二、混元世界模型排第六。

而阿里的世界模型Happy Oyster等多个自家模型都没有上榜。


事实上,早前,中科院与阿里巴巴联合推出的全球首个AI世界模型互动评测基准Omni-WorldBench,内含上千个测试案例,专门检验AI是否理解物理规律和因果关系。

不仅是Omni-WorldBench,最近一段时间,世界模型赛道有很多评测基准,比如WorldArena、WorldLens等,但这些基准测试榜单需要完善,本身模型无法下载或落地,外界评论不一。

然而,论文提到,现有的基准测试通常侧重于视觉质量、语义对齐或短期时间连贯性,但它们对于生成的视频是否遵循物理规则、保持连贯的 3D 结构以及在较长时间内维持可控交互的洞察力有限。

为了弥补这一不足,WorldOlympiad将世界模型评估分解为三个互补的维度:

物理维度、三维几何和长时序交互考试

这些作为评判标准,来评估生成的视频是否遵循力学、热学现象和材料属性方面的可解释规则,几何维度使用高斯散射重建生成的视频,并评估结构一致性、跨视角连贯性和摄像机轨迹对齐情况。

WorldOlympiad整套测试分成三大考试科目,外加三大真实应用场景,相当于一场 “全能铁人三项”,全方位检验 AI 真实能力。

其中,物理规则考试。专门查 AI 懂不懂现实物理。细分力学(重力、碰撞、挤压、浮力)、热学(融化、蒸发、凝固等物态变化)、材料特性(颜料混色、溶解、软硬、燃烧)。比如:悬空的物体必须往下掉,不能凭空飘;火能烧可燃物,金属不会一捏就变形。AI 生成视频一旦违背这些常识,直接扣分。测评会先用图像技术框选出画面里的物体,再靠大模型逐一审判规则是否成立。

三维几何考试。重点考验 AI 的空间感知能力。我们肉眼看视频觉得正常,换个视角、重建 3D 模型后,很多 AI 都会露馅:墙体扭曲、物体凭空出现 / 消失、相机移动后场景错乱。研究团队用高斯泼溅技术重建视频 3D 画面,同时核对相机运动轨迹,检查跨视角结构、空间稳定性,但凡结构崩坏一律判弱。

长时序交互考试。针对 “边看指令边持续干活” 的场景。视频会被拆成多个片段,要求 AI 逐段执行动作指令,既要保证单段内容和要求匹配,还要做到片段之间过渡自然、场景 / 物体不突变、长时间运行不丢目标。简单讲:让 AI 连续完成一连串任务,看它会不会 “做着做着就忘初衷”。

在具体测试中,整套题库一共 1000 条高质量长视频,分三大真实场景,贴近落地使用:

机器人场景(400 条):机械臂抓取、双手操作等,考验物理交互与精细动作;

游戏场景(400 条):角色移动、战斗、视角切换,侧重长流程交互与状态延续;

通用显示世界(200 条):日常户外、生活动态,考验开放环境的运动与空间逻辑。

同时团队做了严格的数据标注:把长视频拆分、配上动作描述,保证考题标准统一,所有模型都在同一张卷子比拼。


论文提出,现在的 AI 大多是 “平面选手”,还没真正建立立体空间思维。领域专精模型优势明显,但泛化能力有差距。

具体到排行,LingBot-World(游戏向)、Cosmos-Predict-2.5(机器人向)综合排名前二,针对性训练让它们在对应领域表现拔尖,而且学到的能力还能部分迁移到其他场景。

此外,WorldOlympiad将捕捉了从交互式控制和具身操作到开放域运动和摄像机动力学等各种挑战。

“这些赛道和场景共同构成了一个可扩展且可解释的评估体系,揭示了除通用视频质量之外的故障模式。对最先进模型的实验表明,它们在物理推理、3D 一致性和长时程交互方面存在显著缺陷,这凸显了为生成式世界模型制定更结构化评估协议的必要性。”

论文提到,当下行业现状如今 AI 视频画面渲染早已成熟,但离真正的“世界模拟器”还差很远,物理细节、三维空间、长流程持续执行,是目前所有顶尖模型共同的天花板。

展望未来,研究重点团队接下来会重点研究内存机制(长视频里 AI 如何记住场景、状态)。现在很多模型内存设计不完善,才导致长时间运行后状态丢失、逻辑错乱。优化记忆能力,是提升长时序、复杂场景表现的关键。

简单来说,WorldOlympiad跳出“只看颜值”的旧思路,打造了一套直击本质的视频世界模型测评标准

实测证明:现在的 AI 视频能做到“形似”,但离“理解并遵守真实世界运转逻辑”还有巨大差距;这套测评既能给现有模型精准“体检”,也为后续技术迭代指明了发力方向。

对于目前世界模型评测行业的发展,6月10日,智源研究院院长王仲远表示,现在的这些评测不代表真正未来世界模型的能力,所以大家千万不要觉得国产世界模型已经登顶。

“因为世界模型对于下一个物理状态的预测,依然没有达到一个完全令人满意的结果,虽然它能够展现出很多世界模型特性,但距离理解真实物理世界还需要很长时间。”

©本文为原创内容

未经授权,禁止转载

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
63岁心梗老人去看一颗牙,宝鸡大团圆口腔医院一次拔了12颗种10颗,刷光18800元还欠6200元

63岁心梗老人去看一颗牙,宝鸡大团圆口腔医院一次拔了12颗种10颗,刷光18800元还欠6200元

大风新闻
2026-07-04 18:31:09
沮丧,摩洛哥前锋赛巴里世界杯伤退后掩面,三天前他刚刚加盟拜仁

沮丧,摩洛哥前锋赛巴里世界杯伤退后掩面,三天前他刚刚加盟拜仁

懂球帝
2026-07-05 01:54:09
第十四届全国政协委员、国家发展改革委原党组成员、国家能源局原党组书记、局长章建华到绿能公司调研

第十四届全国政协委员、国家发展改革委原党组成员、国家能源局原党组书记、局长章建华到绿能公司调研

新浪财经
2026-07-05 03:43:01
世体:自世界杯首战表现不佳后,B席在葡萄牙队已经没有位置

世体:自世界杯首战表现不佳后,B席在葡萄牙队已经没有位置

懂球帝
2026-07-04 11:45:09
哈梅内伊葬礼:主角最高精神领袖穆杰塔巴以纸板人身份出席

哈梅内伊葬礼:主角最高精神领袖穆杰塔巴以纸板人身份出席

微评社
2026-07-04 15:21:06
小某书在批量生产“擦边”跑步网红

小某书在批量生产“擦边”跑步网红

马拉松跑步健身
2026-07-04 20:33:50
巴黎新生儿70%是黑人,法国正在“换种”

巴黎新生儿70%是黑人,法国正在“换种”

李荣茂
2026-07-03 19:05:58
深圳男子30年前买保险退休月领50万!仅领1个月,保险公司不认了

深圳男子30年前买保险退休月领50万!仅领1个月,保险公司不认了

听心堂
2026-07-04 13:34:23
世界杯激烈冲突!姆巴佩被激怒,14人互相推搡,高卢雄鸡“中计”

世界杯激烈冲突!姆巴佩被激怒,14人互相推搡,高卢雄鸡“中计”

奥拜尔
2026-07-05 06:01:05
香港网红向郭富城、方媛道歉,承认发活动照片时只P了自己,没有“修饰”郭富城夫妇;否认恶意丑化他人,称他俩状态非常出色

香港网红向郭富城、方媛道歉,承认发活动照片时只P了自己,没有“修饰”郭富城夫妇;否认恶意丑化他人,称他俩状态非常出色

鲁中晨报
2026-07-04 09:30:04
乌克兰或用弹道导弹袭击莫斯科,“回合制”互袭首都愈演愈烈

乌克兰或用弹道导弹袭击莫斯科,“回合制”互袭首都愈演愈烈

澎湃新闻
2026-07-03 21:24:29
3-0横扫晋级!中国女乒29岁王牌闪耀:3战零封对手,会师孙颖莎

3-0横扫晋级!中国女乒29岁王牌闪耀:3战零封对手,会师孙颖莎

李喜林篮球绝杀
2026-07-04 10:08:13
穆帅眼光封神!1.5 亿水货世界杯现形,皇马放弃直接避开大坑

穆帅眼光封神!1.5 亿水货世界杯现形,皇马放弃直接避开大坑

奶盖熊本熊
2026-07-05 03:12:46
5.86元的农业银行没人敢买?我告诉你什么叫“跌出来的印钞机”

5.86元的农业银行没人敢买?我告诉你什么叫“跌出来的印钞机”

时尚的弄潮
2026-07-04 10:39:55
低价套餐不给办?移动人员提醒:办理套餐绕开10086,就打这3个

低价套餐不给办?移动人员提醒:办理套餐绕开10086,就打这3个

粤语音乐喷泉
2026-07-04 05:36:10
贪污上亿,假慈善,身体出问题?54岁的韩红到底动了谁的蛋糕?

贪污上亿,假慈善,身体出问题?54岁的韩红到底动了谁的蛋糕?

曹莽看世界
2026-07-04 10:36:07
苹果拒绝给印度交380亿罚款,印度一气将苹果630G机密数据泄露

苹果拒绝给印度交380亿罚款,印度一气将苹果630G机密数据泄露

流苏晚晴
2026-07-04 19:02:39
“北大毕业,月薪1600”,女孩满脸憔悴,网友:谁让你读这专业?

“北大毕业,月薪1600”,女孩满脸憔悴,网友:谁让你读这专业?

泽泽先生
2026-07-04 21:35:57
夺冠热门轰然倒下,球迷都哭了,底牌已经亮完,西班牙和法国笑了

夺冠热门轰然倒下,球迷都哭了,底牌已经亮完,西班牙和法国笑了

我就是一个说球的
2026-07-04 15:31:45
中国第一家吧?这家211高校宣布不再邮寄录取通知书,考生自己下载打印

中国第一家吧?这家211高校宣布不再邮寄录取通知书,考生自己下载打印

金水路7号站
2026-07-04 12:26:21
2026-07-05 06:48:49
智能纪元AGI
智能纪元AGI
专注科技、科学、商业产业报道
2434文章数 10611关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

游戏
旅游
亲子
本地
公开课

韩版“全境封锁”PC配置降低 内存改为32GB起步

旅游要闻

山野逐夏 乐享清凉!五莲黑虎山盛夏欢乐季火热启幕

亲子要闻

短到捏不住的铅笔头,写下的满是懂事和感恩。老师问:“怎么用这么短呀?”男孩安静鞠了一躬

本地新闻

国内足球之旅?这座小城给你高分答案

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版