网易首页 > 网易号 > 正文 申请入驻

李飞飞吴佳俊团队推出具身智能决策能力评价基准,o1-preview登顶

0
分享至

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

大模型的具身智能决策能力,终于有系统的通用评估基准了。

李飞飞吴佳俊团队新提出的评估框架,对具身智能决策的四项关键子能力来了个全面检查。

这套基准已经被选为了NeurIPS数据和测试集(D&B)专栏Oral论文,同时也被收录进了PyPI,只要一行代码就能快速调用。

该框架名为Embodied Agent Interface(简称EAI),提供了连接不同模块和基准环境的标准接口。

利用这套框架,作者对18款主流模型进行了测试,形成了一篇超百页的论文。

测试结果显示,在已公开的大模型当中,o1-preview的综合成绩位列第一

李飞飞本人表示,对这项合作研究感到非常兴奋。

有网友评价说,这项成果为大模型具身智能决策塑造了未来。

四项子能力全面评估

首先,EAI提供了一种统一的目标表示方法,能够兼容不同类型的目标,并支持复杂约束的描述。

团队认为,现有的具身决策任务通常针对特定领域设计目标,缺乏一致性和通用性。

例如,BEHAVIOR和VirtualHome都是具身智能体的评测基准和模拟环境,用于研究智能体在复杂环境中完成任务的能力。

但二者又有所区别,BEHAVIOR使用基于状态的目标,而VirtualHome使用时间扩展的目标。

EAI则通过引入线性时态逻辑(LTL),实现了目标表示方式的统一,提高了模块之间的互操作性,便于比较不同模型在同一任务上的表现。

在具体的评估过程当中,EAI采用了模块化的评估方式,并将评估指标进行了更细粒度的划分。

以往的研究通常将大模型作为整体进行评估,很少关注其在具身决策各个子任务上的表现;

同时,这些现有基准通常只关注任务的最终成功率,很少深入分析模型的错误类型和原因。

为了更深入理解大模型的行为模式和优劣势分布,EAI提出了四个关键能力模块,并设计了一系列细粒度的评估指标:

  • 将模型能力分为四个关键模块;
  • 定义了清晰的输入输出接口;
  • 从轨迹可执行性、目标满足度、逻辑匹配性等多个角度评估模型的性能;
  • 引入了丰富的注释(如目标状态、关系、动作),以实现自动化的错误分析。

具体来说,四个关键模块及内容分别是:

  • 目标解释(Goal Interpretation):将自然语言表述的任务目标转化为形式化的LTL目标公式;
  • 子目标分解(Subgoal Decomposition):将任务目标分解为一系列子目标,每个子目标也用LTL公式表示;
  • 动作序列规划(Action Sequencing):根据任务目标生成动作序列,在环境中执行以达成目标状态;
  • 转换建模(Transition Modeling):为每个动作或操作符生成前提条件和效果,形成环境转换模型。

另外,EAI选取了两个具有代表性但特点迥异的环境,也就是前面提到的BEHAVIOR和VirtualHome。

相比于单一环境评估,EAI更能考察大模型跨领域的泛化能力,有助于全面理解其适用范围和局限性

o1-preview综合成绩第一

利用EAI这套标准,研究团队对GPT、Claude、Gemini等18款主流模型(型号)的决策能力进行了评估。

在BEHAVIOR和VirtualHome环境下,o1-preview均获得了排行榜综合成绩第一名。

其中在BEHAVIOR环境中,o1-preview得分为74.9,比第二名的Claude 3.5 Sonnet高了10多分,排在之后的是60分左右的Claude 3 Opus和GPT-4o。

到了VirtualHome环境下,依然是o1-preview领先,但前三名的成绩相对接近。

同时Gemini 1.5 Pro变成了第二名,不过整体来看排行靠前的几个模型和BEHAVIOR环境类似。

当然如果比较单项能力,不同模型也体现出了各自不同的优势项目。

比如在BEHAVIOR环境中,总分排第二的Claude 3.5 Sonnet,目标解释能力略高于总分排第一的o1-preview。

在VirtualHome环境中,总分相对靠后的Mistral Large,在动作序列规划上取得了第一名。

作者还对各模型的失败情况进行了深入分析,发现了将中间状态误识别为最终目标状态、对隐含的物理关系理解不足、忽略重要的前提条件等具体问题。

这些发现能够让研究人员对模型的优缺陷进行更深层的了解,为之后的研究提供了重要参考。

项目主页:
https://embodied-agent-interface.github.io/
论文:
https://arxiv.org/abs/2410.07166
代码:
https://github.com/embodied-agent-interface/embodied-agent-interface
数据集:
https://huggingface.co/datasets/Inevitablevalor/EmbodiedAgentInterface

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国籍32岁男子在日本公交车站纵火!致使候车室全部烧毁,疑似还放火烧度假酒店!

中国籍32岁男子在日本公交车站纵火!致使候车室全部烧毁,疑似还放火烧度假酒店!

东京新青年
2026-04-25 18:07:25
两飞行员过站口嗨,导致航班取消

两飞行员过站口嗨,导致航班取消

中国民航人
2026-04-26 08:32:57
麦丹谈冲突:不知道约基奇说了什么,时间没走完我上篮没问题

麦丹谈冲突:不知道约基奇说了什么,时间没走完我上篮没问题

懂球帝
2026-04-26 12:45:18
社保严查全面收紧!无数中小企业,正在为十年前的小聪明买单

社保严查全面收紧!无数中小企业,正在为十年前的小聪明买单

芳姐侃社会
2026-04-25 18:32:12
赵丽颖在上海某高档餐厅被偶遇,瘦是真的瘦,素颜依然很美

赵丽颖在上海某高档餐厅被偶遇,瘦是真的瘦,素颜依然很美

一盅情怀
2026-04-25 19:36:00
贾国龙天边焖面才两个月,评分已暴跌3.8分!网友直言:注意避坑

贾国龙天边焖面才两个月,评分已暴跌3.8分!网友直言:注意避坑

冷紫葉
2026-04-25 14:33:10
台湾生病了,郑丽文支持率4%。最新民调数据给出的结果相当残酷

台湾生病了,郑丽文支持率4%。最新民调数据给出的结果相当残酷

安安说
2026-04-25 12:00:19
澳洲首创! 全新癌症治疗法重磅突破: 不化疗, 不手术, 能治愈80%癌症, 已开始人体实验!

澳洲首创! 全新癌症治疗法重磅突破: 不化疗, 不手术, 能治愈80%癌症, 已开始人体实验!

澳微Daily
2026-04-25 15:43:13
华为余承东预热尊界“高定”新车:售价约200万元,将于6月底公布

华为余承东预热尊界“高定”新车:售价约200万元,将于6月底公布

识礁Farsight
2026-04-26 12:04:00
离谱到家!湖人G4故意输球!?就为了这个...

离谱到家!湖人G4故意输球!?就为了这个...

柚子说球
2026-04-25 21:20:46
两年内特朗普已遭遇至少4次刺杀威胁,特朗普在白宫枪击事件后强调,需达到“一种前所未有的安保级别”

两年内特朗普已遭遇至少4次刺杀威胁,特朗普在白宫枪击事件后强调,需达到“一种前所未有的安保级别”

极目新闻
2026-04-26 12:35:38
突发!美伊大消息 集体跳水

突发!美伊大消息 集体跳水

趋势巡航
2026-04-26 07:37:59
甲骨文创始人和朱可人带俩娃出街,朱可人穿超短裙露美腿,脸老了

甲骨文创始人和朱可人带俩娃出街,朱可人穿超短裙露美腿,脸老了

奇怪的鲨鱼们
2026-04-26 11:58:26
饭店老板被顾客踹续:一脚踹出三米远,强喂服务员吃菜,警方介入

饭店老板被顾客踹续:一脚踹出三米远,强喂服务员吃菜,警方介入

奇思妙想草叶君
2026-04-25 15:02:47
穆杰塔巴敦促“伊朗南边邻国”认清形势

穆杰塔巴敦促“伊朗南边邻国”认清形势

环球网资讯
2026-04-26 06:43:08
白宫晚宴传出5到8声枪响!95后枪手带多件武器,1特工被枪击,穿防弹衣幸免于难

白宫晚宴传出5到8声枪响!95后枪手带多件武器,1特工被枪击,穿防弹衣幸免于难

红星新闻
2026-04-26 11:31:31
俄方说破天都没用,中方就认一个理,中俄天然气走俄罗斯国内价

俄方说破天都没用,中方就认一个理,中俄天然气走俄罗斯国内价

聊历史的阿稼
2026-04-26 10:25:44
女孩卧铺车求救武警,战士转头装睡,4小时后所有人都愣住了

女孩卧铺车求救武警,战士转头装睡,4小时后所有人都愣住了

萧矹影视解说
2026-04-15 13:08:16
史上最大规模化债,已经开始!坚持了30年的信仰,进入倒计时

史上最大规模化债,已经开始!坚持了30年的信仰,进入倒计时

律法刑道
2026-04-26 08:44:05
事态升级,中方军舰越聚越多,四川舰和辽宁舰汇合,菲日休想闹事

事态升级,中方军舰越聚越多,四川舰和辽宁舰汇合,菲日休想闹事

潮鹿逐梦
2026-04-25 19:02:47
2026-04-26 15:27:00
量子位 incentive-icons
量子位
追踪人工智能动态
12535文章数 176457关注度
往期回顾 全部

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

头条要闻

特朗普2年内遭遇4次刺杀威胁 第一个任期也曾险遭袭击

头条要闻

特朗普2年内遭遇4次刺杀威胁 第一个任期也曾险遭袭击

体育要闻

那一刻开始,两支球队的命运悄然改变了

娱乐要闻

《八千里路云和月》大结局意难平

财经要闻

DeepSeek V4背后,梁文锋的转身

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

游戏
手机
旅游
房产
数码

Pearl Abyss 正式发布《红色沙漠》首张官方原声音乐专辑

手机要闻

vivo Y600 Pro手机现身中国电信终端产品库,4月27日发布

旅游要闻

下一站|一天体验越南三大特色

房产要闻

新一轮教育大爆发来了!海口,开始疯狂建学校!

数码要闻

小米截至2025年底全球授权专利超4.5万项 智能座舱专利中国第一

无障碍浏览 进入关怀版