网易首页 > 网易号 > 正文 申请入驻

AI复现顶尖AI论文?OpenAI最新测评:Claude 3.5得分第一

0
分享至

AI能自己复现顶级AI论文了吗?OpenAI刚刚发布了 PaperBench,用于评估 AI 代理复现顶尖 AI 研究能力的基准测试

在这项测试中,AI 代理必须成功复现 ICML 2024 的顶级论文,这包括理解论文、编写代码和执行实验等环节

OpenAI用 PaperBench 测试了几款业界领先的 AI 模型。结果显示,在本次测试中表现最好的是 Claude 3.5 Sonnet (新版,配合开源框架),其平均复现分数达到了 21.0%。研究人员还邀请了顶尖的机器学习博士参与了部分任务的测试,结果表明,当前的 AI 模型还没能超越人类专家的水平

简单来说,PaperBench就是一个AI复现顶会论文能力的“考场”,那么,这个考场具体是怎么运作的呢?我来给大家捋一捋

核心任务:从零复现顶会论文

PaperBench挑选了20篇来自ICML 2024的Spotlight和Oral论文,涵盖了深度强化学习、鲁棒性、概率方法等12个不同的AI研究领域。这些都是当前AI研究的最新成果

AI代理(Agent)接到的任务是:

  • • 只给你论文原文和一个补充说明文件(由原作者提供,澄清模糊之处)。

  • 从零开始,理解论文的核心贡献

  • 编写完整的代码库,实现论文中的所有实验

  • • 成功运行、监控、调试这些实验,最终复现出论文报告的关键实证结果

  • 禁止使用或查看原作者发布的任何代码,确保是AI独立完成的

最终,AI需要提交一个包含所有代码的仓库,其中必须有一个reproduce.sh脚本作为入口,能够在全新的环境中运行并复现结果

严格的“评分标准”:层级化Rubrics

PaperBench最核心的部分,就是为每篇论文都精心设计了一套层级化的评分细则(Rubrics)

与原作者共同开发:确保评分标准既准确又符合研究实际

树状结构:将复杂的复现任务分解为越来越细致的子任务,一直到最底层的“叶节点”

海量评分点:总共包含8,316个可独立评分的叶节点任务!每个叶节点都有明确的“通过/失败”标准

权重分配:每个节点都有权重,反映其在整个研究中的相对重要性(而非实现难度)

最终得分(Replication Score):叶节点得分(0或1)加权平均,逐层向上传递,根节点的分数就是最终的复现得分,0%表示完全失败,100%表示完美复现

这套评分系统能非常精细地衡量AI在复现过程中的部分进展,即使没能完全成功,也能知道它做到了哪一步

评分员是谁?LLM法官登场

手动给8000多个任务点打分?想想都头大。一个人类专家给一次尝试评分可能就要花几十个小时。为了让评估能够规模化进行,研究团队开发了一个基于LLM的自动评分系统(SimpleJudge)

独立评分:对每个叶节点,LLM法官会看到论文原文、完整的Rubric结构、当前叶节点的要求,以及AI提交并实际运行后的代码和输出文件

上下文处理:由于提交的完整代码库可能太大,法官会先对文件进行相关性排序,只看最重要的前10个文件

法官的法官(JudgeEval):为了确保LLM法官靠谱,团队还创建了一个辅助评估基准JudgeEval。他们用一些部分完成的复现尝试(来自人类或修改后的作者代码),让人类专家先打好分(作为“黄金标准”),然后让LLM法官来评,看它的判断和人类专家有多接近

表现与成本:实验表明,使用o3-mini作为后端的SimpleJudge,在JudgeEval上能达到0.83的F1分数,效果不错。而且成本大大降低,评分一篇完整论文大约需要66美元的API费用,相比人类专家成本,可以说是又快又省。考虑到完整的PaperBench评估(需要GPU运行代码复现)成本还是较高,团队还推出了一个简化版PaperBench Code-Dev

结果如何?AI vs 人类博士

重头戏来了,现在的顶尖AI表现怎么样?

AI代理表现:团队测试了包括 GPT-4o, o1 (OpenAI另一模型), o3-mini, DeepSeek-R1, Claude 3.5 Sonnet (New), Gemini 2.0 Flash 在内的多个前沿模型

在基础的BasicAgent(一个简单的智能体框架)设置下,Claude 3.5 Sonnet 表现最好,平均复现得分达到了 21.0%。OpenAI 的 o1 high得分为 13.2%,其他模型得分均低于10%

普遍问题:AI经常过早放弃(声称完成或遇到无法解决的问题),缺乏长期规划和策略能力,难以有效利用给定的时间(比如12小时)。简单的Agent框架可能也限制了模型能力发挥

使用IterativeAgent(强制跑满时间、提示优化)后,o1和o3-mini得分有显著提升(o1达到24.4%),但Claude 3.5 Sonnet得分反而下降,显示出模型对提示和Agent框架的敏感性

人类基线:团队招募了8位机器学习领域的博士生/博士后,让他们在类似条件下(单块A10 GPU,4周兼职时间,禁用作者代码)尝试复现4篇论文(每篇3人独立尝试,取最好成绩)

结果对比:在最初的几个小时里,AI(以o1为例)写代码速度快,得分一度超越人类。但AI的得分很快停滞

人类虽然起步慢(可能需要时间理解论文),但得分持续稳定增长,在大约24小时后开始显著超过AI

在一个3篇论文的子集上,经过48小时的努力,人类博士的最佳尝试平均得分达到了 41.4%,而o1在同样子集上得分约为 26.6%

结论:目前最强的AI模型,在从零开始复现顶会级AI研究方面,展现出了一定的能力(特别是在快速编写初步代码方面),但距离真正胜任这项复杂、长周期的任务还有相当长的路要走。它们在长期规划、持续调试和策略执行方面存在明显短板

PaperBench的发布意义重大:

提供了一个可量化的标尺:用于衡量AI在进行自主科研探索方面的能力进展。这对于理解AI能力边界、预测未来发展至关重要

加速科学发现的潜力:能够自主复现甚至改进研究的AI,无疑将极大加速科学进步,包括AI安全和对齐研究本身

开放与协作:PaperBench是开源的,鼓励整个社区使用、改进和扩展这个基准

PaperBench是AI能力评估领域的一个重要里程碑。它首次系统性地、大规模地评估了AI从零开始复现复杂前沿研究的能力。虽然当前AI的表现离完美复现还有距离,但这无疑为我们观察、理解和引导AI迈向更高级自主智能提供了宝贵的视角和工具

参考:

https://cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf

⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~

求赞

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杰伦-威廉姆斯:伤愈归来后感觉比赛季中的状态还要更好一些

杰伦-威廉姆斯:伤愈归来后感觉比赛季中的状态还要更好一些

北青网-北京青年报
2026-05-21 10:22:13
苏州拙政园“鸟啄樱桃”火出圈,网友感叹仿佛误入古代工笔画中,工作人员:这两天还可观赏

苏州拙政园“鸟啄樱桃”火出圈,网友感叹仿佛误入古代工笔画中,工作人员:这两天还可观赏

极目新闻
2026-05-19 12:41:42
刚刚,马斯克公开SpaceX招股书!

刚刚,马斯克公开SpaceX招股书!

量子位
2026-05-21 09:34:37
浙江阿姨手机账户20分钟内连续扣费25次,警方发现,大姐曾在“免费领鸡蛋”时被人偷偷注册账号进行盗刷

浙江阿姨手机账户20分钟内连续扣费25次,警方发现,大姐曾在“免费领鸡蛋”时被人偷偷注册账号进行盗刷

环球网资讯
2026-05-20 21:26:44
原来我们都被骗了!张本智和弃日赴德,德乒教练发声戳破舆论谎言

原来我们都被骗了!张本智和弃日赴德,德乒教练发声戳破舆论谎言

凡知
2026-05-20 17:45:00
百万存款含金量上升!手握100万比两套房产更踏实,观点引发热议

百万存款含金量上升!手握100万比两套房产更踏实,观点引发热议

火山詩话
2026-05-20 12:08:48
碾压三大豪门!曼联捡漏封神!2600 万敲定全能铁卫接班马奎尔

碾压三大豪门!曼联捡漏封神!2600 万敲定全能铁卫接班马奎尔

澜归序
2026-05-21 06:23:03
49岁当大官,73岁被开除党籍!薄一波亲家李雪峰,后劲太大了

49岁当大官,73岁被开除党籍!薄一波亲家李雪峰,后劲太大了

混沌录
2026-05-19 19:23:07
3亿镑收入撑腰!阿森纳将重金续约阿尔特塔,1亿欧天才成头号目标

3亿镑收入撑腰!阿森纳将重金续约阿尔特塔,1亿欧天才成头号目标

隐于山海
2026-05-21 08:03:45
雪上加霜!法院出手后,王健林传坏消息,原来他和许家印处境一样

雪上加霜!法院出手后,王健林传坏消息,原来他和许家印处境一样

林轻吟
2026-04-18 07:46:46
段永平为何突然清仓阿里?

段永平为何突然清仓阿里?

爱看剧的阿峰
2026-05-21 06:26:21
普京访华打破惯例,二十多年来首次,德媒:中国正在成为世界中心

普京访华打破惯例,二十多年来首次,德媒:中国正在成为世界中心

健身狂人
2026-05-20 18:54:45
传闻GTA6跳票至明年!国外大佬被迫回应:谁信谁傻

传闻GTA6跳票至明年!国外大佬被迫回应:谁信谁傻

游民星空
2026-05-21 11:08:30
中国官僚政治研究

中国官僚政治研究

尚曦读史
2026-05-19 07:05:03
别脸红!夫妻“床上运动”的5个神技巧,做完特别爽!

别脸红!夫妻“床上运动”的5个神技巧,做完特别爽!

精彩分享快乐
2026-05-21 07:10:03
上海男篮为什么能赢北京,卢伟说出原因,说得很实在

上海男篮为什么能赢北京,卢伟说出原因,说得很实在

星Xin辰大海
2026-05-21 09:47:37
高三晒家长“开天窗”穿搭,被嘲:该端庄的时候,你解扣子干嘛?

高三晒家长“开天窗”穿搭,被嘲:该端庄的时候,你解扣子干嘛?

妍妍教育日记
2026-05-10 11:50:07
西媒:拉莫斯团队失去墨西哥投资方,收购塞维目前缺少资金

西媒:拉莫斯团队失去墨西哥投资方,收购塞维目前缺少资金

懂球帝
2026-05-21 02:34:21
弟妹带她侄女去提辆173万的车,销售刚要刷卡时,我打给银行客服

弟妹带她侄女去提辆173万的车,销售刚要刷卡时,我打给银行客服

小秋情感说
2026-05-19 15:18:24
公然拒挂国旗,订单全给日韩,长荣如今的结局早已注定

公然拒挂国旗,订单全给日韩,长荣如今的结局早已注定

潋滟晴方DAY
2026-05-11 06:31:37
2026-05-21 11:31:00
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1040文章数 396关注度
往期回顾 全部

科技要闻

好到离谱也不够!英伟达交出816亿美元营收

头条要闻

湖南一山村洪灾突破历史极值 洪水暴涨8.76米满目疮痍

头条要闻

湖南一山村洪灾突破历史极值 洪水暴涨8.76米满目疮痍

体育要闻

常住人口7000的小镇,拥有了一支德甲球队

娱乐要闻

同行吐槽汪涵野心重 爆雷37万人受损

财经要闻

英伟达业绩超预!指引再新高仍不够亮眼

汽车要闻

26.98万起步 看小鹏GX如何诠释一车多能以及满配的科技与豪华

态度原创

数码
本地
时尚
公开课
军事航空

数码要闻

绿联推出NAS新品DXP4800 GT:双万兆网口,起价2681.1元

本地新闻

用云锦的方式,打开江苏南京

全网首档挑战Al设备拍摄短剧现场直播!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄媒盛赞中国军人:身姿挺拔 站如松柏

无障碍浏览 进入关怀版