网易首页 > 网易号 > 正文 申请入驻

Claude 3.5首战复现21%顶会论文,人类博士无法取代!OpenAI:AI全是草台班子

0
分享至

新智元报道

编辑:桃子 好困

【新智元导读】AI若能自主复现顶尖科研论文,未来科研将被掀翻天。OpenAI最新框架PaperBench正为此生,让AI智能体从头开始复现ICML 2024 20篇优秀论文,只有Claude 3.5 Sonnet拔得头筹,但仍无法超越ML博士水平。

AI智能体,能否复现顶会中重磅的AI研究?

今天,OpenAI团队发布了全新框架PaperBench,便可评估AI智能体复现顶尖研究的基础能力。

论文地址:https://openai.com/index/paperbench/

要求是,AI智能体需从0开始复现20篇ICML 2024 Spotlight和Oral论文,包括理解论文核心文献、开发可运行代码库,以及执行实验并验证结果。

为了客观评估AI成果,OpenAI联手每篇ICML论文作者开发了「评估标准」,将每个复制任务层次化分解为具有明确评分标准的较小子任务。

总共,PaperBench包含8,316个可单独评分的任务。

结果发现,只有Claude 3.5 Sonnet(New)拿下了最高分21.0%,o1-high得分13.2%,DeepSeek-R1是6%,GPT-4o是4.1%。

遗憾的是,即便是最领先的LLM,仍无法超越机器学习博士。

目前,OpenAI将PaperBench的所有代码开源。

GitHub地址:https://github.com/openai/preparedness

AI挑战复现ICML 2024大作

PaperBench的目标,直指AI智能体的科研潜力。

若要完整复现ICML 2024 20篇优秀的论文,意味着AI不仅需要理解论文核心思想,还得自主开发代码库、运行实验,甚至是排除故障。

要知道,这是一项连人类研究员需要好几天,才能完成的高难度任务。

这项研究的主要贡献包括:

  • PaperBench:一个包含20篇ML研究论文和经作者批准的评分标准的基准测试,以及使用基于LLM评估的自动评分工作流程。

  • PaperBench Code-Dev:基准测试的一个更轻量级的变体,放宽了PaperBench的一些要求,使设置和评估对更广泛的社区更易于使用。

  • JudgeEval:一个包含人类评分提交结果的数据集,可用作开发和评估自动评估的辅助工具。

  • 在PaperBench上对SOTA模型的评估:对几个前沿AI智能体执行长周期任务和机器学习研发能力的综合评估。

更重要的是,PaperBench不仅是一个学术实验,它还与其他AI安全框架紧密关联。

它可用作OpenAI的准备框架中的模型自主性度量、Anthropic负责任扩展政策中的自主能力指标,以及Google DeepMind的前沿安全框架中的机器学习研发评估工具。

PaperBench:20篇论文,8316个任务

如上所述,PaperBench选取了来自ICML 2024中20篇 Spotlight和Oral论文,主要覆盖了12个主题。

其中包括,深度强化学习、鲁棒性和概率方法。

而且,每篇论文都配备了详细的评分标准,总计8,316个可单独评估的评分项目。

这些标准均是由每篇论文原作者与OpenAI共同制定,确保评估过程中的准确性和权威性。

评分标准采用层次结构,将复杂的复现目标分解为细粒度子任务。


任务+复现

对于PaperBench中的每个样本,AI智能体会收到论文和论文澄清说明的附录。

候选智能体必须提交一个包含复现论文实证结果所需的所有代码的代码库,而且代码库根目录必须包含一个reproduce.sh文件,作为执行所有必要代码以复现论文结果的入口点。

当提交的reproduce.sh能够在全新环境中成功复现论文中报告的实证结果时,AI智能体便成功完成复现任务。


树级评分

在基准测试中,每篇论文都配有一个评分标准,明确规定了完整论文复制的评估要求。

评分标准被设置为一个要求层级结构,每个叶节点(leaf node)指定一个明确的通过/失败标准(见图2),且每个节点都根据其相对于同级节点的重要性被手动赋予了权重。

对于一个叶节点标准,评估者会判断提交内容是否满足其要求,如果满足则给予1分,否则给0分。

当所有叶节点都被评分后,父节点(parent node)的分数将等于其所有子节点分数的加权平均值。

这一计分过程会一直向上传递到树的根节点(root),根节点的分数即被视为该提交的最终复制分数(Replication Score)。

换句话说,每个提交的评分是基于所有满足的评分标准要求的权重调整后的比例,其中100%表示完美复制,即满足了所有叶节点的要求。

目前,论文中主要评估指标是所有论文的平均复制分数。

每个叶节点具有三种可能的需求类型之一,这决定了其评分方式。

  • 结果匹配(Result Match)叶节点评估已执行的提交是否包含复制论文中特定结果的证据。

  • 执行(Execution)叶节点评估运行reproduce.sh脚本时是否产生了某些特定的执行结果。

  • 代码开发(Code Development)叶节点评估候选者的源代码是否包含某些需求的正确实现。


可以上网,但不能查看原作者代码库

PaperBench设计为与智能体支持框架(agent scaffolds)无关,因此研究团队对智能体的运行环境没有特定要求。然而,基准测试确实制定了一些规则来确保公平比较:

  • 智能体可以浏览互联网,但不得使用OpenAI提供的每篇论文黑名单中网站的资源。每篇论文的黑名单包括作者自己的代码库和任何其他在线复制实现。

  • 智能体可使用的资源,如运行时间和计算能力,不受任何限制。

  • 开发者应为智能体提供必要的在线服务API密钥(例如,用于下载数据集的HuggingFace凭证)。

对于实验,OpenAI还构建了一个简单的后处理监控工具,用于检查智能体日志中是否出现黑名单URL,发现可疑情况后会提交给人工审核,以取消使用黑名单资源的任何提交资格。

LLM评判成本降至10美金,比专家更高效

面对如此复杂的任务,人工评分显然不现实。

一篇论文的复现尝试,通常需要人类专家数十小时来评估。

为此,OpenAI团队开发了一个基于大模型自动评判系统,并推出了辅助工具JudgeEval,用来验证自动评判者的表现。

对于给定的提交内容,评判系统SimpleJudge会独立地对评分标准中的每个叶节点进行评分。

针对特定叶节点,评判系统会接收论文的Markdown格式文本、完整的评分标准JSON文件、叶节点的具体要求和提交内容作为提示词。

如下图5所示,对于PaperBench Code-Dev,每篇论文的成本降至约10美元,证明了比聘请专家进行人工评分更加经济且高效。

Claude 3.5 Sonnet得分最高

实验中,研究人员对GPT-4o、o1、o3-mini、DeepSeek-R1、Claude 3.5 Sonnet(New)和Gemini 2.0 Flash在所有20篇论文上进行了评估,每篇论文进行了3次运行。

而且,他们每个智能体设置了最长12小时的运行时限。

如下表4所示,展示了各模型的平均复现得分。

其中,Claude 3.5 Sonnet表现最出色,得分达到21.0%。OpenAI o1表现较弱,得分为13.2%,其他模型表现不佳,得分均低于10%。

为了更好地理解智能体性能,研究人员手动检查了几个智能体的运行日志。

他们发现,除了Claude 3.5 Sonnet外,所有模型都经常提前结束任务,声称它们要么已完成整个复现工作,要么遇到了无法解决的问题。

所有智能体都未能制定有效策略,考虑如何在有限时间内最优地复现论文。我们还观察到o3-mini在工具使用方面经常遇到困难。

这些失败模式表明当前模型在执行长期规划任务方面存在弱点:尽管在制定和编写多步骤计划方面表现出充分的能力,但模型未能实际采取一系列行动来执行这些计划。


迭代智能体

鉴于模型往往无法充分利用可用的全部时间,研究人员还测试了BasicAgent的一个变体。

这个变体通过移除智能体提前结束任务的能力,强制其在全部可用时间内持续运行,并使用经过优化的提示词来鼓励模型以逐步方式工作。

他们将这个智能体称为IterativeAgent。

研究人员使用IterativeAgent对o1、o3-mini和Claude 3.5 Sonnet进行了测试,如下表5所示。

他们发现使用IterativeAgent后,o1和o3-mini的得分显著提升。

值得注意的是,在使用BasicAgent时,Claude 3.5 Sonnet的表现优于o1,但在使用IterativeAgent时,其表现却不如o1。这表明为IterativeAgent优化的提示词,对OpenAI o系列模型有着不同程度的适用性。

研究人员推断,如果对BasicAgent进行类似修改,同样防止其提前结束任务,可能会使Claude 3.5 Sonnet的表现超过使用IterativeAgent的o1。


人类拿下41.4%

此外,研究人员还招募了8名目前正在攻读/已完成ML博士学位的参与者来挑战3篇论文的子集。

这里,他们采用了AI智能体类似的条件下评估参与者。

参与者会拿到PDF和Markdown格式的论文,以及论文的附录和尽可能接近用于AI智能体的指令,并可使用单个英伟达A10 GPU。

参与者兼职工作,有四周的时间窗口来取得尽可能多的进展。

另外,团队对使用IterativeAgent的o1进行了36小时的延长运行,每小时保存快照,并对1、3、6、12和36小时时拍摄的快照进行评分。

如图3所示,比较了o1的这次36小时延长运行与人类随时间的表现。

研究观察到,o1在复现尝试的早期阶段最初优于人类基准,但在24小时后,人类开始超过AI智能体。智能体最初优于人类但在更长时间跨度内落后的趋势与先前结果一致。

ML博士在48小时内(3次尝试取最佳)拿下了41.4%高分,而统一子集上,o1仅为26.6%分。

这表明,与人类专家相比,AI尽管进步显著但仍有差距。

此外,研究人员还推出了一个轻量级变体PaperBench Code-Dev,在这个版本中,o1的得分飙升至43.4%,显示出AI在简化任务上的潜力。

结论

21%得分或许只是一个开始。

PaperBench不仅揭示了AI智能体在科研中的潜力,也暴露它们在长期规划任务中的局限性。下一步,随着模型能力提升,它们能够接近甚至超越41.4%人类基准?

参考资料:

https://openai.com/index/paperbench/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日媒:中国的反应超出预期

日媒:中国的反应超出预期

扬子晚报
2025-11-16 22:58:27
54岁杨钰莹近况曝光:定居深圳,每天打理菜园子,生活平淡

54岁杨钰莹近况曝光:定居深圳,每天打理菜园子,生活平淡

小徐讲八卦
2025-11-17 07:29:28
郭家这事或要变天!郭妹扛不住了,哭诉家里2重伤躺医院等着花钱

郭家这事或要变天!郭妹扛不住了,哭诉家里2重伤躺医院等着花钱

火山诗话
2025-11-17 06:28:49
因“恶意返乡团聚”引发的大规模兵变,敲响唐朝灭亡的丧钟|文史宴

因“恶意返乡团聚”引发的大规模兵变,敲响唐朝灭亡的丧钟|文史宴

文史宴
2024-02-07 22:46:02
靠一把砍柴刀在森林怎么活?退伍特种兵“打野”30天|面孔

靠一把砍柴刀在森林怎么活?退伍特种兵“打野”30天|面孔

大象新闻
2025-11-17 09:18:12
日本外务省高官今日访华,将解释高市早苗言论

日本外务省高官今日访华,将解释高市早苗言论

界面新闻
2025-11-17 09:59:34
狗主上门被反杀后续:索赔百万、对警方放狠话,邻居曝光郭家不堪

狗主上门被反杀后续:索赔百万、对警方放狠话,邻居曝光郭家不堪

吭哧有力
2025-11-15 18:42:28
筋脉尽断!俄罗斯西伯利亚铁路发生爆炸,朝鲜弹药运输通道中断

筋脉尽断!俄罗斯西伯利亚铁路发生爆炸,朝鲜弹药运输通道中断

军迷战情室
2025-11-16 00:06:09
香港演员林雪否认赌博负债百亿,本人回应:我没有欠钱,我大把钱;此前谣言称他输光家产,连夜驾车跑路离开香港

香港演员林雪否认赌博负债百亿,本人回应:我没有欠钱,我大把钱;此前谣言称他输光家产,连夜驾车跑路离开香港

极目新闻
2025-11-17 07:39:47
释永信被正式批捕,终于明白他是什么“级别”!

释永信被正式批捕,终于明白他是什么“级别”!

李万卿
2025-11-17 00:15:03
1天吃28吨食物!四川工厂养220亿只蟑螂,住星空房吃营养餐

1天吃28吨食物!四川工厂养220亿只蟑螂,住星空房吃营养餐

万象硬核本尊
2025-11-16 18:32:46
社评:中国公民需谨慎前往日本的四个原因

社评:中国公民需谨慎前往日本的四个原因

环球网资讯
2025-11-17 00:03:43
赴日警告发布后,仍有人因退不了票硬闯,别因小失大!

赴日警告发布后,仍有人因退不了票硬闯,别因小失大!

吃瓜盟主
2025-11-16 17:32:54
9-1,葡萄牙直通世界杯,C罗停赛,B费戴帽,内维斯3球+飙世界波

9-1,葡萄牙直通世界杯,C罗停赛,B费戴帽,内维斯3球+飙世界波

侧身凌空斩
2025-11-16 23:54:36
越来越疯了!高市早苗再有新动作,日本准备拥核,中俄要早做准备

越来越疯了!高市早苗再有新动作,日本准备拥核,中俄要早做准备

头条爆料007
2025-11-16 21:21:37
“臀大腰粗”的女生怎么穿好看?吊带背心搭深灰瑜伽裤,高雅自信

“臀大腰粗”的女生怎么穿好看?吊带背心搭深灰瑜伽裤,高雅自信

小乔古装汉服
2025-09-29 07:55:03
1只就得判!浙江大一学生网上买2只,到手后全部养死怎么办?

1只就得判!浙江大一学生网上买2只,到手后全部养死怎么办?

万象硬核本尊
2025-11-13 19:02:06
1-4被双杀!意大利创70年耻辱 沦为3流水平 恐连续3届无缘世界杯

1-4被双杀!意大利创70年耻辱 沦为3流水平 恐连续3届无缘世界杯

侃球熊弟
2025-11-17 05:57:51
上海老教授夫妻“借名买房”导致亲情彻底破裂!如今房子要不回来,儿子儿媳闹离婚,更心寒的是……

上海老教授夫妻“借名买房”导致亲情彻底破裂!如今房子要不回来,儿子儿媳闹离婚,更心寒的是……

都市快报橙柿互动
2025-11-16 23:37:25
突然爆雷!人去屋空,电话停机…不少人慌了:刚付了钱,平台跑路?

突然爆雷!人去屋空,电话停机…不少人慌了:刚付了钱,平台跑路?

19楼
2025-11-16 08:39:41
2025-11-17 10:43:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13882文章数 66254关注度
往期回顾 全部

科技要闻

营销话术反噬信任,雷军不该只是一怒了之

头条要闻

媒体:中国又一电磁弹射舰试航 可对日本形成合围之势

头条要闻

媒体:中国又一电磁弹射舰试航 可对日本形成合围之势

体育要闻

3年没踢球,他想完成“史上最难”的复出

娱乐要闻

二次封后的宋佳凭什么狂妄?

财经要闻

6666元包教包会!"杀人蜂"养殖已成灰产

汽车要闻

搭载鸿蒙座舱 新款天籁将于广州车展上市

态度原创

本地
旅游
教育
亲子
公开课

本地新闻

沈阳都市圈“冷资源”点燃“热联动” “组团”北上“圈粉”哈尔滨

旅游要闻

这座7万人口的县城将涌入80万游客

教育要闻

新西兰留学生每周可打工25小时了,但需提交这项申请!

亲子要闻

保护孩子宝妈必学,什么是试探性侵犯行为?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版