网易首页 > 网易号 > 正文 申请入驻

AI复现顶尖AI论文?OpenAI最新测评:Claude 3.5得分第一

0
分享至

AI能自己复现顶级AI论文了吗?OpenAI刚刚发布了 PaperBench,用于评估 AI 代理复现顶尖 AI 研究能力的基准测试

在这项测试中,AI 代理必须成功复现 ICML 2024 的顶级论文,这包括理解论文、编写代码和执行实验等环节

OpenAI用 PaperBench 测试了几款业界领先的 AI 模型。结果显示,在本次测试中表现最好的是 Claude 3.5 Sonnet (新版,配合开源框架),其平均复现分数达到了 21.0%。研究人员还邀请了顶尖的机器学习博士参与了部分任务的测试,结果表明,当前的 AI 模型还没能超越人类专家的水平

简单来说,PaperBench就是一个AI复现顶会论文能力的“考场”,那么,这个考场具体是怎么运作的呢?我来给大家捋一捋

核心任务:从零复现顶会论文

PaperBench挑选了20篇来自ICML 2024的Spotlight和Oral论文,涵盖了深度强化学习、鲁棒性、概率方法等12个不同的AI研究领域。这些都是当前AI研究的最新成果

AI代理(Agent)接到的任务是:

  • • 只给你论文原文和一个补充说明文件(由原作者提供,澄清模糊之处)。

  • 从零开始,理解论文的核心贡献

  • 编写完整的代码库,实现论文中的所有实验

  • • 成功运行、监控、调试这些实验,最终复现出论文报告的关键实证结果

  • 禁止使用或查看原作者发布的任何代码,确保是AI独立完成的

最终,AI需要提交一个包含所有代码的仓库,其中必须有一个reproduce.sh脚本作为入口,能够在全新的环境中运行并复现结果

严格的“评分标准”:层级化Rubrics

PaperBench最核心的部分,就是为每篇论文都精心设计了一套层级化的评分细则(Rubrics)

与原作者共同开发:确保评分标准既准确又符合研究实际

树状结构:将复杂的复现任务分解为越来越细致的子任务,一直到最底层的“叶节点”

海量评分点:总共包含8,316个可独立评分的叶节点任务!每个叶节点都有明确的“通过/失败”标准

权重分配:每个节点都有权重,反映其在整个研究中的相对重要性(而非实现难度)

最终得分(Replication Score):叶节点得分(0或1)加权平均,逐层向上传递,根节点的分数就是最终的复现得分,0%表示完全失败,100%表示完美复现

这套评分系统能非常精细地衡量AI在复现过程中的部分进展,即使没能完全成功,也能知道它做到了哪一步

评分员是谁?LLM法官登场

手动给8000多个任务点打分?想想都头大。一个人类专家给一次尝试评分可能就要花几十个小时。为了让评估能够规模化进行,研究团队开发了一个基于LLM的自动评分系统(SimpleJudge)

独立评分:对每个叶节点,LLM法官会看到论文原文、完整的Rubric结构、当前叶节点的要求,以及AI提交并实际运行后的代码和输出文件

上下文处理:由于提交的完整代码库可能太大,法官会先对文件进行相关性排序,只看最重要的前10个文件

法官的法官(JudgeEval):为了确保LLM法官靠谱,团队还创建了一个辅助评估基准JudgeEval。他们用一些部分完成的复现尝试(来自人类或修改后的作者代码),让人类专家先打好分(作为“黄金标准”),然后让LLM法官来评,看它的判断和人类专家有多接近

表现与成本:实验表明,使用o3-mini作为后端的SimpleJudge,在JudgeEval上能达到0.83的F1分数,效果不错。而且成本大大降低,评分一篇完整论文大约需要66美元的API费用,相比人类专家成本,可以说是又快又省。考虑到完整的PaperBench评估(需要GPU运行代码复现)成本还是较高,团队还推出了一个简化版PaperBench Code-Dev

结果如何?AI vs 人类博士

重头戏来了,现在的顶尖AI表现怎么样?

AI代理表现:团队测试了包括 GPT-4o, o1 (OpenAI另一模型), o3-mini, DeepSeek-R1, Claude 3.5 Sonnet (New), Gemini 2.0 Flash 在内的多个前沿模型

在基础的BasicAgent(一个简单的智能体框架)设置下,Claude 3.5 Sonnet 表现最好,平均复现得分达到了 21.0%。OpenAI 的 o1 high得分为 13.2%,其他模型得分均低于10%

普遍问题:AI经常过早放弃(声称完成或遇到无法解决的问题),缺乏长期规划和策略能力,难以有效利用给定的时间(比如12小时)。简单的Agent框架可能也限制了模型能力发挥

使用IterativeAgent(强制跑满时间、提示优化)后,o1和o3-mini得分有显著提升(o1达到24.4%),但Claude 3.5 Sonnet得分反而下降,显示出模型对提示和Agent框架的敏感性

人类基线:团队招募了8位机器学习领域的博士生/博士后,让他们在类似条件下(单块A10 GPU,4周兼职时间,禁用作者代码)尝试复现4篇论文(每篇3人独立尝试,取最好成绩)

结果对比:在最初的几个小时里,AI(以o1为例)写代码速度快,得分一度超越人类。但AI的得分很快停滞

人类虽然起步慢(可能需要时间理解论文),但得分持续稳定增长,在大约24小时后开始显著超过AI

在一个3篇论文的子集上,经过48小时的努力,人类博士的最佳尝试平均得分达到了 41.4%,而o1在同样子集上得分约为 26.6%

结论:目前最强的AI模型,在从零开始复现顶会级AI研究方面,展现出了一定的能力(特别是在快速编写初步代码方面),但距离真正胜任这项复杂、长周期的任务还有相当长的路要走。它们在长期规划、持续调试和策略执行方面存在明显短板

PaperBench的发布意义重大:

提供了一个可量化的标尺:用于衡量AI在进行自主科研探索方面的能力进展。这对于理解AI能力边界、预测未来发展至关重要

加速科学发现的潜力:能够自主复现甚至改进研究的AI,无疑将极大加速科学进步,包括AI安全和对齐研究本身

开放与协作:PaperBench是开源的,鼓励整个社区使用、改进和扩展这个基准

PaperBench是AI能力评估领域的一个重要里程碑。它首次系统性地、大规模地评估了AI从零开始复现复杂前沿研究的能力。虽然当前AI的表现离完美复现还有距离,但这无疑为我们观察、理解和引导AI迈向更高级自主智能提供了宝贵的视角和工具

参考:

https://cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf

⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~

求赞

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
两年连罚4次!安徽大型轮胎厂又被罚了

两年连罚4次!安徽大型轮胎厂又被罚了

轮胎报官方
2026-05-15 17:04:28
宋凯谈国少晋级:中国足球今天终于迈过了苦主沙特,扬眉吐气

宋凯谈国少晋级:中国足球今天终于迈过了苦主沙特,扬眉吐气

懂球帝
2026-05-16 14:24:50
天王嫂滤镜彻底碎!方媛抢单人间引众怒,极致利己嘴脸藏不住了

天王嫂滤镜彻底碎!方媛抢单人间引众怒,极致利己嘴脸藏不住了

千言娱乐记
2026-05-14 23:30:52
18年了!汶川地震丢下学生逃跑的“范跑跑”,如今竟过成了这样?

18年了!汶川地震丢下学生逃跑的“范跑跑”,如今竟过成了这样?

一盅情怀
2026-05-14 09:05:26
意外!斯卢茨基在新闻发布会宣布重要决定!让球迷都直言没

意外!斯卢茨基在新闻发布会宣布重要决定!让球迷都直言没

杨仔述
2026-05-15 19:11:12
拿了2.69亿大合同后就躺平?DPOY被打回“原形”,他真比不过浓眉

拿了2.69亿大合同后就躺平?DPOY被打回“原形”,他真比不过浓眉

篮球圈里的那些事
2026-05-16 19:17:09
ISW指出,莫斯科“夸大的领土野心和要求完全违背战场现实”

ISW指出,莫斯科“夸大的领土野心和要求完全违背战场现实”

山河路口
2026-05-15 14:06:43
女性的臀部和胸部,为何会对男性产生强烈的“性吸引力”?

女性的臀部和胸部,为何会对男性产生强烈的“性吸引力”?

宇宙时空
2026-05-15 22:15:06
一天中,最佳的性生活时间是在几点?早上好还是晚上好?出乎意料

一天中,最佳的性生活时间是在几点?早上好还是晚上好?出乎意料

荆医生科普
2026-05-06 20:55:04
神级谈判!央视6000万拿世界杯转播权,国际足联天价梦碎了

神级谈判!央视6000万拿世界杯转播权,国际足联天价梦碎了

浪子阿邴聊体育
2026-05-16 20:04:59
樊振东出战拿下完胜,助萨尔布吕肯闯进乒乓球欧冠决赛

樊振东出战拿下完胜,助萨尔布吕肯闯进乒乓球欧冠决赛

澎湃新闻
2026-05-16 20:10:29
太突然!凌晨1点通知公司倒闭,工资次日发,打工人一觉醒来失业

太突然!凌晨1点通知公司倒闭,工资次日发,打工人一觉醒来失业

谭谈社会
2026-05-16 07:50:42
让学术能力很强的博士退学的后果是:学术圈的“杰青”保不住了

让学术能力很强的博士退学的后果是:学术圈的“杰青”保不住了

必记本
2026-05-15 12:08:25
全红婵妈妈住院照曝光 已握不住手 情况不乐观 婵宝的话字字催泪

全红婵妈妈住院照曝光 已握不住手 情况不乐观 婵宝的话字字催泪

游古史
2026-05-16 19:58:13
台湾问题,我方重磅表态后,鲁比奥回应了,江启臣摊牌了,不简单

台湾问题,我方重磅表态后,鲁比奥回应了,江启臣摊牌了,不简单

时光流转追梦人
2026-05-16 20:57:54
北京巨热无比黄仁勋回应为啥还穿皮衣

北京巨热无比黄仁勋回应为啥还穿皮衣

砚底沉香LIU
2026-05-16 02:28:46
新汽油来了,103号!

新汽油来了,103号!

纵相新闻
2026-05-16 20:06:04
售罄!女歌手演唱会门票低至40元!网友热议

售罄!女歌手演唱会门票低至40元!网友热议

无比
2026-05-14 20:17:32
苹果官宣 618 大促来了,iPhone 17 全系历史低价

苹果官宣 618 大促来了,iPhone 17 全系历史低价

新浪财经
2026-05-16 06:09:32
又一支中超冠军球队即将降级?

又一支中超冠军球队即将降级?

林子说事
2026-05-16 08:39:58
2026-05-16 21:48:49
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1040文章数 396关注度
往期回顾 全部

科技要闻

涨的是车价,要的是老命

头条要闻

"特朗普移动"手机开始发货 59万人交了5900万美元定金

头条要闻

"特朗普移动"手机开始发货 59万人交了5900万美元定金

体育要闻

马刺2号,少年老成,这集看过?

娱乐要闻

谢霆锋北京街头骑行被偶遇,侧颜帅炸

财经要闻

造词狂魔贾跃亭

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

健康
游戏
艺术
本地
军事航空

专家揭秘干细胞回输的安全风险

时代落幕!国行NS天猫店将终止运营:结束了

艺术要闻

17亿美元!中东首个Sphere场馆,落地阿布扎比!

本地新闻

用苏绣的方式,打开江西婺源

军事要闻

联合国安理会审议叙利亚局势

无障碍浏览 进入关怀版