网易首页 > 网易号 > 正文 申请入驻

OpenAI的AI复现论文新基准,Claude拿了第一名

0
分享至


机器之心报道

编辑:+0、泽南

大模型能写出 ICML Spotlight 论文吗?

近年来,AI 正从科研辅助工具蜕变为创新引擎:从 DeepMind 破解蛋白质折叠难题的 AlphaFold,到 GPT 系列模型展现文献综述与数学推理能力,人工智能正逐步突破人类认知边界。

今年 3 月 12 日,Sakana AI 宣布他们推出的 AI Scientist-v2 通过了 ICLR 会议一个研讨会的同行评审过程。这是 AI 科学家写出的首篇通过同行评审的科研论文!

这一里程碑事件标志着 AI 在科研领域的突破,同时人们也在进一步探索 AI 智能体的自主研究能力。

4 月 3 日,OpenAI 推出了 PaperBench(论文基准测试),这是一个用于评估 AI 智能体自主复现前沿人工智能研究能力的基准测试系统。如果大模型智能体具备了自动写 AI / 机器学习研究论文的能力,既可能加速机器学习领域的发展,同时也需要审慎评估以确保 AI 能力的安全发展。

PaperBench 在多个重要的 AI 安全框架中发挥评估作用:

  • 作为 OpenAI 准备框架(OpenAI Preparedness Framework)中评估模型自主性的标准
  • 用于 Anthropic 负责任扩展政策(Responsible Scaling Policy)中的自主能力评估
  • 应用于谷歌 DeepMind 前沿安全框架(Frontier Safety Framework)中的机器学习研发评估

  • 论文标题:PaperBench: Evaluating AI’s Ability to Replicate AI Research
  • 论文链接:https://cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf
  • 代码地址:https://github.com/openai/preparedness/tree/main/project/paperbench

研究团队构建了一个测试环境,用于评估具有自主编程能力的 AI 智能体。在该基准测试中,研究团队要求智能体复现机器学习研究论文中的实验结果。完整的复现流程包括论文理解、代码库开发以及实验执行与调试。这类复现任务具有较高难度,即便对人类专家而言也需要数天时间完成。

测试基准选取了机器学习顶会 ICML 2024 的 20 篇入选论文,还都是 Spotlight 和 Oral 的。这些论文覆盖了 12 个不同的研究主题,包括 deep reinforcement learning、robustness 和 probabilistic methods 等。每篇论文都配备了详细的评分标准,共计 8316 个可独立评估的复现成果。为确保评估质量,PaperBench 中的评分标准均与原论文作者协作制定,并采用层级结构设计,使复现进度可以在更细粒度上进行衡量。

鉴于机器学习论文的复杂性,人类专家评估单次复现尝试往往需要数十小时。为提高评估效率,研究团队开发了基于 LLM 的自动评判系统,并设计了 JudgeEval 辅助评估框架,用于将自动评判结果与人类专家评判的金标数据集进行对比。其中,使用定制框架的 o3-mini-high 评判器表现最佳,在辅助评估中获得 0.83 的 F1 分数,证明其可作为人类评判的可靠替代方案。

研究表明,智能体在复现机器学习研究论文方面展现出了不容忽视的能力。Claude 3.5 Sonnet (最新版)在配备基础代理框架的情况下,于 PaperBench 基准测试中获得了 21.0% 的得分。

研究团队选取了 3 篇论文组成的测试子集进行深入评估,以机器学习博士的表现作为人类基准(采用 3 次测试中的最优成绩)。在 48 小时的测试时间内,人类基准达到了 41.4% 的得分,而 GPT-4(o1)在相同子集上获得了 26.6% 的得分。此外,研究团队还开发了一个轻量级评估版本 ——PaperBench Code-Dev,在该版本中,GPT-4 的表现提升至 43.4% 的得分。

PaperBench

任务

对于 PaperBench 中的每个样本,受评估的智能体会收到论文及其补充说明。

在这里,智能体需要提交一个代码仓库,其中包含复现论文实验结果所需的全部代码。该仓库根目录必须包含一个 reproduce.sh 文件,作为执行所有必要代码以复现论文结果的入口点。

如果 reproduce.sh 能够复现论文中报告的实验结果,则视为成功复现该论文。

该数据集包含了用于定义每篇论文成功复现所需具体结果的评分标准。为防止过度拟合,智能体在尝试过程中不会看到评分标准,而是需要从论文中推断出需要复现的内容。

重要的是,该评估禁止智能体使用或查看论文作者的原始代码库(如果有的话)。这确保了评估的是智能体从零开始编码和执行复杂实验的能力,而不是使用现有研究代码的能力。

规则

PaperBench 的设计对智能体框架保持中立,因此对其运行环境没有特定要求。不过为确保公平比较,该基准测试制定了以下规则:

  • 智能体可以浏览互联网,但不得使用团队为每篇论文提供的黑名单中列出的网站资源。每篇论文的黑名单包括作者自己的代码仓库以及任何其他在线复现实现。
  • 智能体可使用的资源,如运行时间和计算资源,不受任何限制。但建议研究人员在结果中报告其具体设置。
  • 开发者应为智能体提供必要的在线服务 API 密钥(例如用于下载数据集的 HuggingFace 凭证)。获取在线账号访问权限不属于 PaperBench 意在评估的技能范畴。

评分标准

为每篇论文制定评分标准是开发 PaperBench 最耗时的部分。每份评分标准都是 OpenAI 与每篇论文的一位原作者合作编写的,从阅读论文、初步创建、评分标准审查、迭代到最终签收,每篇论文需要数周时间。

每个评分标准都以树的形式构建,该树按层次分解了复现给定论文所需的主要结果。例如,根节点以预期的最高级别结果开始,例如「论文的核心贡献已被复现」。第一级分解可能会为每个核心贡献引入一个节点。每个节点的子节点都会更详细地介绍具体结果,例如「已使用 B.1 节中的超参数在数据集上对 gpt2-xl 进行了微调」。

重要的是,满足节点的所有子节点表示父节点也已得到满足,因此对树的所有叶节点进行评分就足以全面评估整体成功率。

叶节点具有精确而细致的要求。拥有许多细致的要求使我们能够对部分尝试进行评分,并使评委更容易对单个节点进行评分。作者不断分解节点,直到它们所代表的要求足够精细,以至于估计专家可以在不到 15 分钟的时间内审查一份提交是否满足要求(假设熟悉该论文)。在 PaperBench 的 20 篇论文中共有 8316 个叶节点。表 2 显示了每个评分标准中的节点总数。

所有评分标准节点也都有权重,每个节点的权重表示该贡献相对于其兄弟节点的重要性,而不一定是节点的实施难度。加权节点奖励在复现时优先考虑论文中更重要的部分。

用大模型判断

在初步实验中,OpenAI 发现使用专家进行手动评分每篇论文需要花费数十小时,因此对于 PaperBench 的实际应用而言,采用自动化方式进行评估是必要的。

为了对 PaperBench 提交的内容进行规模评估,作者开发了一个简单的基于 LLM 的评判器 SimpleJudge,然后创建了辅助评估 JudgeEval 以评估评判器的表现。

AI 的评委实现被称为「SimpleJudge」,给定一份提交内容,PaperBench 的 AI 评委将独立地对评分标准中的每个叶节点进行评分。对于特定的叶节点,评委将收到论文的 Markdown、完整的评分标准 JSON、叶节点的要求和提交内容。

PaperBench 使用 OpenAI 的 o3-mini 作为评委的后端模型,预估对单个提交内容进行评分的成本约为 66 美元(OpenAI API 积分)。对于 PaperBench Code-Dev,成本可以降至每篇论文约 10 美元。

测试结果

OpenAI 基于全部 20 篇论文评估了 GPT-4o、o1、o3-mini、DeepSeek-R1、Claude 3.5 Sonnet(新版本)和 Gemini 2.0 Flash 几种大模型,每篇论文评估了 3 次。

表 4 列出了每个模型的平均复现分数。可见 Claude 3.5 Sonnet 的表现不错,得分为 21.0%。OpenAI o1 表现较差,得分为 13.2%,其他模型则表现不佳,得分低于 10%。

检查智能体工作日志可以发现,除 Claude 3.5 Sonnet 外,其他所有模型经常会提前结束,声称自己要么已经完成了整个仿写,要么遇到了无法解决的问题。所有智能体都未能制定在有限时间内复现论文的最优策略。可以观察到 o3-mini 经常在工具使用方面遇到困难。

这些情况表明当前模型在执行长期任务方面存在弱点;尽管大模型在制定和编写多步骤计划方面表现出足够的能力,但实际上未能采取一系列行动来执行该计划。

OpenAI 相信,PaperBench 基准将会推动未来大模型能力继续上升。

参考内容:

https://openai.com/index/paperbench/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
历史不会重演,但会惊人相似:中国房地产很有可能重走日本老路?

历史不会重演,但会惊人相似:中国房地产很有可能重走日本老路?

笑熬浆糊111
2026-05-11 05:00:12
外媒称印尼放弃采购歼-10B,但加倍订购歼-10C,搭配霹雳-15E导弹

外媒称印尼放弃采购歼-10B,但加倍订购歼-10C,搭配霹雳-15E导弹

科普大世界
2026-06-26 10:35:00
比特币跌至21个月冰点,市场陷入极度恐慌

比特币跌至21个月冰点,市场陷入极度恐慌

字节漫游指南
2026-06-28 03:50:50
大马丁:我的手指仍然很疼,不过对阵佛得角我不用带护具了

大马丁:我的手指仍然很疼,不过对阵佛得角我不用带护具了

懂球帝
2026-06-29 00:59:26
打死也不能放冰箱10种食物,回家立刻拿出来,别拿家人健康开玩笑

打死也不能放冰箱10种食物,回家立刻拿出来,别拿家人健康开玩笑

小柱解说游戏
2026-06-16 07:38:45
再这么搞下去,三桶油的内退潮或将无可避免!

再这么搞下去,三桶油的内退潮或将无可避免!

小蜜情感说
2026-06-28 14:23:28
广州一高校禁止小米汽车入校引热议,车主:“特斯拉能进小米为啥不行?”,保卫处:接校领导通知,去年起仅小米汽车不在允许入校之列

广州一高校禁止小米汽车入校引热议,车主:“特斯拉能进小米为啥不行?”,保卫处:接校领导通知,去年起仅小米汽车不在允许入校之列

大风新闻
2026-06-28 14:16:14
中国最好吃西瓜,有且只有这10个地方

中国最好吃西瓜,有且只有这10个地方

简食记工作号
2026-06-27 02:36:45
赛力斯,我又没忍住!63元先干为敬,剩下的交给工资和问界M8了!

赛力斯,我又没忍住!63元先干为敬,剩下的交给工资和问界M8了!

沙雕小琳琳
2026-06-22 11:34:08
1942年毛泽东希望萧军入党当官,却遭拒绝:我是匹不受束缚的野马

1942年毛泽东希望萧军入党当官,却遭拒绝:我是匹不受束缚的野马

历史龙元阁
2026-06-28 12:20:17
原来她是哈兰德的女友,难怪老公2亿欧元身价,曾在20岁未婚生子

原来她是哈兰德的女友,难怪老公2亿欧元身价,曾在20岁未婚生子

莫地方
2026-06-27 01:00:03
资治通鉴:凡是在社会上混的好的人,不是因为多勤奋,也不是因为多自律,更不是因为朋友遍天下,而是深谙这两点人性

资治通鉴:凡是在社会上混的好的人,不是因为多勤奋,也不是因为多自律,更不是因为朋友遍天下,而是深谙这两点人性

心理观察局
2026-06-24 08:42:09
年龄越大,越要控制体重?医生:50岁后,体重最好保持在这个范围

年龄越大,越要控制体重?医生:50岁后,体重最好保持在这个范围

岐黄传人孙大夫
2026-06-12 23:50:03
老父亲来电说弟弟赔了两千万,我平静说法人早改您了,您慢慢还吧

老父亲来电说弟弟赔了两千万,我平静说法人早改您了,您慢慢还吧

晓艾故事汇
2026-06-27 09:02:45
钱再多有啥用?42岁贾乃亮如今的现状,给所有中年男演员提了个醒

钱再多有啥用?42岁贾乃亮如今的现状,给所有中年男演员提了个醒

兵鉴史
2026-06-21 17:16:43
香港相师拒给郭晶晶算命,小耳垂命薄传言被她硬生生改写一生

香港相师拒给郭晶晶算命,小耳垂命薄传言被她硬生生改写一生

手工制作阿歼
2026-06-28 15:33:01
1987年邓力群坚持左倾,落选中央委员,邓小平:承认选举,不变动

1987年邓力群坚持左倾,落选中央委员,邓小平:承认选举,不变动

帝哥说史
2026-04-13 06:30:03
“欠下”10000亿!雷军做什么都是错的

“欠下”10000亿!雷军做什么都是错的

鸣金网
2026-06-24 20:20:42
2026下半年这4星座要逆袭!贵人排队送富贵,彻底熬出头!

2026下半年这4星座要逆袭!贵人排队送富贵,彻底熬出头!

朗威谈星座
2026-06-27 20:24:15
CCTV5直播!世预赛关键战,连战日本中国台北,14人名单浮出水面

CCTV5直播!世预赛关键战,连战日本中国台北,14人名单浮出水面

理工男评篮球
2026-06-28 22:18:12
2026-06-29 03:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13379文章数 142681关注度
往期回顾 全部

科技要闻

DeepSeek最新论文:如何让大模型跑得更快

头条要闻

四川宜宾市高县发生5.5级地震 震中距宜宾28公里

头条要闻

四川宜宾市高县发生5.5级地震 震中距宜宾28公里

体育要闻

两周飞5万公里!因凡蒂诺遭环保人士猛批

娱乐要闻

曾沛慈拿下《乘风2026》年度总冠军

财经要闻

省钱,我只服梁文锋

汽车要闻

搭载华为乾崑六件套 东风奕派M8预售19.98万起

态度原创

时尚
旅游
房产
教育
本地

夏天裙子不用买多,建议入手一条蓝裙子,清爽高级又耐看

旅游要闻

厌倦市区就来观音山,古寺听梵音、湖边吃老酱鱼,治愈所有烦躁!

房产要闻

全国高考大放水,300分就能上本科!论上岸率,海南没输过!

教育要闻

入学就“锁定”事业编!“振兴龙江”计划,毕业直接就业

本地新闻

世界杯球迷节:比球赛更好玩的派对

无障碍浏览 进入关怀版