网易首页 > 网易号 > 正文 申请入驻

AI复现顶尖AI论文?OpenAI最新测评:Claude 3.5得分第一

0
分享至

AI能自己复现顶级AI论文了吗?OpenAI刚刚发布了 PaperBench,用于评估 AI 代理复现顶尖 AI 研究能力的基准测试

在这项测试中,AI 代理必须成功复现 ICML 2024 的顶级论文,这包括理解论文、编写代码和执行实验等环节

OpenAI用 PaperBench 测试了几款业界领先的 AI 模型。结果显示,在本次测试中表现最好的是 Claude 3.5 Sonnet (新版,配合开源框架),其平均复现分数达到了 21.0%。研究人员还邀请了顶尖的机器学习博士参与了部分任务的测试,结果表明,当前的 AI 模型还没能超越人类专家的水平

简单来说,PaperBench就是一个AI复现顶会论文能力的“考场”,那么,这个考场具体是怎么运作的呢?我来给大家捋一捋

核心任务:从零复现顶会论文

PaperBench挑选了20篇来自ICML 2024的Spotlight和Oral论文,涵盖了深度强化学习、鲁棒性、概率方法等12个不同的AI研究领域。这些都是当前AI研究的最新成果

AI代理(Agent)接到的任务是:

  • • 只给你论文原文和一个补充说明文件(由原作者提供,澄清模糊之处)。

  • 从零开始,理解论文的核心贡献

  • 编写完整的代码库,实现论文中的所有实验

  • • 成功运行、监控、调试这些实验,最终复现出论文报告的关键实证结果

  • 禁止使用或查看原作者发布的任何代码,确保是AI独立完成的

最终,AI需要提交一个包含所有代码的仓库,其中必须有一个reproduce.sh脚本作为入口,能够在全新的环境中运行并复现结果

严格的“评分标准”:层级化Rubrics

PaperBench最核心的部分,就是为每篇论文都精心设计了一套层级化的评分细则(Rubrics)

与原作者共同开发:确保评分标准既准确又符合研究实际

树状结构:将复杂的复现任务分解为越来越细致的子任务,一直到最底层的“叶节点”

海量评分点:总共包含8,316个可独立评分的叶节点任务!每个叶节点都有明确的“通过/失败”标准

权重分配:每个节点都有权重,反映其在整个研究中的相对重要性(而非实现难度)

最终得分(Replication Score):叶节点得分(0或1)加权平均,逐层向上传递,根节点的分数就是最终的复现得分,0%表示完全失败,100%表示完美复现

这套评分系统能非常精细地衡量AI在复现过程中的部分进展,即使没能完全成功,也能知道它做到了哪一步

评分员是谁?LLM法官登场

手动给8000多个任务点打分?想想都头大。一个人类专家给一次尝试评分可能就要花几十个小时。为了让评估能够规模化进行,研究团队开发了一个基于LLM的自动评分系统(SimpleJudge)

独立评分:对每个叶节点,LLM法官会看到论文原文、完整的Rubric结构、当前叶节点的要求,以及AI提交并实际运行后的代码和输出文件

上下文处理:由于提交的完整代码库可能太大,法官会先对文件进行相关性排序,只看最重要的前10个文件

法官的法官(JudgeEval):为了确保LLM法官靠谱,团队还创建了一个辅助评估基准JudgeEval。他们用一些部分完成的复现尝试(来自人类或修改后的作者代码),让人类专家先打好分(作为“黄金标准”),然后让LLM法官来评,看它的判断和人类专家有多接近

表现与成本:实验表明,使用o3-mini作为后端的SimpleJudge,在JudgeEval上能达到0.83的F1分数,效果不错。而且成本大大降低,评分一篇完整论文大约需要66美元的API费用,相比人类专家成本,可以说是又快又省。考虑到完整的PaperBench评估(需要GPU运行代码复现)成本还是较高,团队还推出了一个简化版PaperBench Code-Dev

结果如何?AI vs 人类博士

重头戏来了,现在的顶尖AI表现怎么样?

AI代理表现:团队测试了包括 GPT-4o, o1 (OpenAI另一模型), o3-mini, DeepSeek-R1, Claude 3.5 Sonnet (New), Gemini 2.0 Flash 在内的多个前沿模型

在基础的BasicAgent(一个简单的智能体框架)设置下,Claude 3.5 Sonnet 表现最好,平均复现得分达到了 21.0%。OpenAI 的 o1 high得分为 13.2%,其他模型得分均低于10%

普遍问题:AI经常过早放弃(声称完成或遇到无法解决的问题),缺乏长期规划和策略能力,难以有效利用给定的时间(比如12小时)。简单的Agent框架可能也限制了模型能力发挥

使用IterativeAgent(强制跑满时间、提示优化)后,o1和o3-mini得分有显著提升(o1达到24.4%),但Claude 3.5 Sonnet得分反而下降,显示出模型对提示和Agent框架的敏感性

人类基线:团队招募了8位机器学习领域的博士生/博士后,让他们在类似条件下(单块A10 GPU,4周兼职时间,禁用作者代码)尝试复现4篇论文(每篇3人独立尝试,取最好成绩)

结果对比:在最初的几个小时里,AI(以o1为例)写代码速度快,得分一度超越人类。但AI的得分很快停滞

人类虽然起步慢(可能需要时间理解论文),但得分持续稳定增长,在大约24小时后开始显著超过AI

在一个3篇论文的子集上,经过48小时的努力,人类博士的最佳尝试平均得分达到了 41.4%,而o1在同样子集上得分约为 26.6%

结论:目前最强的AI模型,在从零开始复现顶会级AI研究方面,展现出了一定的能力(特别是在快速编写初步代码方面),但距离真正胜任这项复杂、长周期的任务还有相当长的路要走。它们在长期规划、持续调试和策略执行方面存在明显短板

PaperBench的发布意义重大:

提供了一个可量化的标尺:用于衡量AI在进行自主科研探索方面的能力进展。这对于理解AI能力边界、预测未来发展至关重要

加速科学发现的潜力:能够自主复现甚至改进研究的AI,无疑将极大加速科学进步,包括AI安全和对齐研究本身

开放与协作:PaperBench是开源的,鼓励整个社区使用、改进和扩展这个基准

PaperBench是AI能力评估领域的一个重要里程碑。它首次系统性地、大规模地评估了AI从零开始复现复杂前沿研究的能力。虽然当前AI的表现离完美复现还有距离,但这无疑为我们观察、理解和引导AI迈向更高级自主智能提供了宝贵的视角和工具

参考:

https://cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf

⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~

求赞

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
南宁人大常委会决定丨关于接受辞职请求的决定

南宁人大常委会决定丨关于接受辞职请求的决定

兰妮搞笑分享
2026-02-02 14:06:17
牢A居然连“法律面前人人平等”都要推翻?

牢A居然连“法律面前人人平等”都要推翻?

非典型佛教徒
2026-01-29 00:02:20
善恶到头终有报!68岁瘫在轮椅上的张铁林,如今的下场怪不了别人

善恶到头终有报!68岁瘫在轮椅上的张铁林,如今的下场怪不了别人

草莓解说体育
2026-02-01 19:54:59
购置税退坡后,车市1 月交出真实成绩单

购置税退坡后,车市1 月交出真实成绩单

51qc我要汽车网
2026-02-02 20:20:18
北大女学霸与清华丈夫相约丁克,10年后看到他日记,一怒将其毒死

北大女学霸与清华丈夫相约丁克,10年后看到他日记,一怒将其毒死

历来都很现实
2024-06-07 23:50:40
迪马济奥:意大利最后一笔冬窗转会提交只比关窗早3秒钟

迪马济奥:意大利最后一笔冬窗转会提交只比关窗早3秒钟

懂球帝
2026-02-03 04:37:28
阿森纳欧冠八场全胜,奖金却不及利物浦曼城

阿森纳欧冠八场全胜,奖金却不及利物浦曼城

浮萍足球
2026-02-03 01:43:10
太阳报:拉门斯在丢点球后还祝贺希门尼斯,曼联球迷感到疑惑

太阳报:拉门斯在丢点球后还祝贺希门尼斯,曼联球迷感到疑惑

懂球帝
2026-02-02 14:18:30
赵构活了81岁,为何56岁时把皇位传给赵匡胤一脉?原因是何?

赵构活了81岁,为何56岁时把皇位传给赵匡胤一脉?原因是何?

知否否
2024-03-24 16:54:30
领导是如何看待不卑不亢下属的?网友:太监遇到完整男人的感觉

领导是如何看待不卑不亢下属的?网友:太监遇到完整男人的感觉

带你感受人间冷暖
2026-02-01 06:20:47
保姆想让雇主嫁给儿子这是啥心理?网友:这算盘打得好 想身份互换

保姆想让雇主嫁给儿子这是啥心理?网友:这算盘打得好 想身份互换

另子维爱读史
2026-01-30 18:18:16
“酱都买不起,还敢生二胎?”女孩跟哥哥抢酱碗,家长被网友群嘲

“酱都买不起,还敢生二胎?”女孩跟哥哥抢酱碗,家长被网友群嘲

妍妍教育日记
2026-02-02 21:53:52
A股:百点长阴之后,4000点迎历史最大考验!大级别震荡浪要来了?

A股:百点长阴之后,4000点迎历史最大考验!大级别震荡浪要来了?

股市皆大事
2026-02-03 08:23:59
旱的旱死涝的涝死,原来这些明星都已"无戏可拍",顶流也不行

旱的旱死涝的涝死,原来这些明星都已"无戏可拍",顶流也不行

琴声飞扬
2026-01-15 10:17:02
我妈逼我每周给博导姨妈家搞卫生,考博复试五个考官四个是她学生

我妈逼我每周给博导姨妈家搞卫生,考博复试五个考官四个是她学生

兰姐说故事
2026-01-30 05:25:03
海港买断加布里埃尔!三镇引进小钢炮,铜梁龙引进1米87巴西大闸

海港买断加布里埃尔!三镇引进小钢炮,铜梁龙引进1米87巴西大闸

刀锋体育
2026-02-02 22:16:47
中国历史上最好的40年,没有任何丰功伟绩

中国历史上最好的40年,没有任何丰功伟绩

霹雳炮
2026-02-01 22:43:27
保洁母亲苦寻女儿七年,女儿一家集体“潜逃”?网友:快跑别掺和

保洁母亲苦寻女儿七年,女儿一家集体“潜逃”?网友:快跑别掺和

另子维爱读史
2026-02-02 18:24:16
那个夜夜等枪决的音乐家,道尽了强权下的生存真相

那个夜夜等枪决的音乐家,道尽了强权下的生存真相

刘晓原
2026-01-24 16:23:00
奔驰女现场换警服,这回彻底栽了

奔驰女现场换警服,这回彻底栽了

笔墨V
2026-02-02 15:17:43
2026-02-03 09:16:49
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1031文章数 396关注度
往期回顾 全部

科技要闻

马斯克官宣,SpaceX并购xAI,打造天基算力

头条要闻

牛弹琴:美印突然和好 一个与俄方有关的细节很不寻常

头条要闻

牛弹琴:美印突然和好 一个与俄方有关的细节很不寻常

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

57岁音乐人袁惟仁去世,家属发文悼念

财经要闻

“精准查人”黑产链条遭查

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

艺术
手机
房产
教育
公开课

艺术要闻

12字草书挑战,高手才能一眼认出!

手机要闻

中端机变天!前七名全是天玑 骁龙7被甩开百万分

房产要闻

狂卖1548亿后,海南又上演疯狂抢地!

教育要闻

《陪班班摆阵》

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版