网易首页 > 网易号 > 正文 申请入驻

Claude 3.5首战复现21%顶会论文,人类博士无法取代!OpenAI:AI全是草台班子

0
分享至

新智元报道

编辑:桃子 好困

【新智元导读】AI若能自主复现顶尖科研论文,未来科研将被掀翻天。OpenAI最新框架PaperBench正为此生,让AI智能体从头开始复现ICML 2024 20篇优秀论文,只有Claude 3.5 Sonnet拔得头筹,但仍无法超越ML博士水平。

AI智能体,能否复现顶会中重磅的AI研究?

今天,OpenAI团队发布了全新框架PaperBench,便可评估AI智能体复现顶尖研究的基础能力。

论文地址:https://openai.com/index/paperbench/

要求是,AI智能体需从0开始复现20篇ICML 2024 Spotlight和Oral论文,包括理解论文核心文献、开发可运行代码库,以及执行实验并验证结果。

为了客观评估AI成果,OpenAI联手每篇ICML论文作者开发了「评估标准」,将每个复制任务层次化分解为具有明确评分标准的较小子任务。

总共,PaperBench包含8,316个可单独评分的任务。

结果发现,只有Claude 3.5 Sonnet(New)拿下了最高分21.0%,o1-high得分13.2%,DeepSeek-R1是6%,GPT-4o是4.1%。

遗憾的是,即便是最领先的LLM,仍无法超越机器学习博士。

目前,OpenAI将PaperBench的所有代码开源。

GitHub地址:https://github.com/openai/preparedness

AI挑战复现ICML 2024大作

PaperBench的目标,直指AI智能体的科研潜力。

若要完整复现ICML 2024 20篇优秀的论文,意味着AI不仅需要理解论文核心思想,还得自主开发代码库、运行实验,甚至是排除故障。

要知道,这是一项连人类研究员需要好几天,才能完成的高难度任务。

这项研究的主要贡献包括:

  • PaperBench:一个包含20篇ML研究论文和经作者批准的评分标准的基准测试,以及使用基于LLM评估的自动评分工作流程。

  • PaperBench Code-Dev:基准测试的一个更轻量级的变体,放宽了PaperBench的一些要求,使设置和评估对更广泛的社区更易于使用。

  • JudgeEval:一个包含人类评分提交结果的数据集,可用作开发和评估自动评估的辅助工具。

  • 在PaperBench上对SOTA模型的评估:对几个前沿AI智能体执行长周期任务和机器学习研发能力的综合评估。

更重要的是,PaperBench不仅是一个学术实验,它还与其他AI安全框架紧密关联。

它可用作OpenAI的准备框架中的模型自主性度量、Anthropic负责任扩展政策中的自主能力指标,以及Google DeepMind的前沿安全框架中的机器学习研发评估工具。

PaperBench:20篇论文,8316个任务

如上所述,PaperBench选取了来自ICML 2024中20篇 Spotlight和Oral论文,主要覆盖了12个主题。

其中包括,深度强化学习、鲁棒性和概率方法。

而且,每篇论文都配备了详细的评分标准,总计8,316个可单独评估的评分项目。

这些标准均是由每篇论文原作者与OpenAI共同制定,确保评估过程中的准确性和权威性。

评分标准采用层次结构,将复杂的复现目标分解为细粒度子任务。


任务+复现

对于PaperBench中的每个样本,AI智能体会收到论文和论文澄清说明的附录。

候选智能体必须提交一个包含复现论文实证结果所需的所有代码的代码库,而且代码库根目录必须包含一个reproduce.sh文件,作为执行所有必要代码以复现论文结果的入口点。

当提交的reproduce.sh能够在全新环境中成功复现论文中报告的实证结果时,AI智能体便成功完成复现任务。


树级评分

在基准测试中,每篇论文都配有一个评分标准,明确规定了完整论文复制的评估要求。

评分标准被设置为一个要求层级结构,每个叶节点(leaf node)指定一个明确的通过/失败标准(见图2),且每个节点都根据其相对于同级节点的重要性被手动赋予了权重。

对于一个叶节点标准,评估者会判断提交内容是否满足其要求,如果满足则给予1分,否则给0分。

当所有叶节点都被评分后,父节点(parent node)的分数将等于其所有子节点分数的加权平均值。

这一计分过程会一直向上传递到树的根节点(root),根节点的分数即被视为该提交的最终复制分数(Replication Score)。

换句话说,每个提交的评分是基于所有满足的评分标准要求的权重调整后的比例,其中100%表示完美复制,即满足了所有叶节点的要求。

目前,论文中主要评估指标是所有论文的平均复制分数。

每个叶节点具有三种可能的需求类型之一,这决定了其评分方式。

  • 结果匹配(Result Match)叶节点评估已执行的提交是否包含复制论文中特定结果的证据。

  • 执行(Execution)叶节点评估运行reproduce.sh脚本时是否产生了某些特定的执行结果。

  • 代码开发(Code Development)叶节点评估候选者的源代码是否包含某些需求的正确实现。


可以上网,但不能查看原作者代码库

PaperBench设计为与智能体支持框架(agent scaffolds)无关,因此研究团队对智能体的运行环境没有特定要求。然而,基准测试确实制定了一些规则来确保公平比较:

  • 智能体可以浏览互联网,但不得使用OpenAI提供的每篇论文黑名单中网站的资源。每篇论文的黑名单包括作者自己的代码库和任何其他在线复制实现。

  • 智能体可使用的资源,如运行时间和计算能力,不受任何限制。

  • 开发者应为智能体提供必要的在线服务API密钥(例如,用于下载数据集的HuggingFace凭证)。

对于实验,OpenAI还构建了一个简单的后处理监控工具,用于检查智能体日志中是否出现黑名单URL,发现可疑情况后会提交给人工审核,以取消使用黑名单资源的任何提交资格。

LLM评判成本降至10美金,比专家更高效

面对如此复杂的任务,人工评分显然不现实。

一篇论文的复现尝试,通常需要人类专家数十小时来评估。

为此,OpenAI团队开发了一个基于大模型自动评判系统,并推出了辅助工具JudgeEval,用来验证自动评判者的表现。

对于给定的提交内容,评判系统SimpleJudge会独立地对评分标准中的每个叶节点进行评分。

针对特定叶节点,评判系统会接收论文的Markdown格式文本、完整的评分标准JSON文件、叶节点的具体要求和提交内容作为提示词。

如下图5所示,对于PaperBench Code-Dev,每篇论文的成本降至约10美元,证明了比聘请专家进行人工评分更加经济且高效。

Claude 3.5 Sonnet得分最高

实验中,研究人员对GPT-4o、o1、o3-mini、DeepSeek-R1、Claude 3.5 Sonnet(New)和Gemini 2.0 Flash在所有20篇论文上进行了评估,每篇论文进行了3次运行。

而且,他们每个智能体设置了最长12小时的运行时限。

如下表4所示,展示了各模型的平均复现得分。

其中,Claude 3.5 Sonnet表现最出色,得分达到21.0%。OpenAI o1表现较弱,得分为13.2%,其他模型表现不佳,得分均低于10%。

为了更好地理解智能体性能,研究人员手动检查了几个智能体的运行日志。

他们发现,除了Claude 3.5 Sonnet外,所有模型都经常提前结束任务,声称它们要么已完成整个复现工作,要么遇到了无法解决的问题。

所有智能体都未能制定有效策略,考虑如何在有限时间内最优地复现论文。我们还观察到o3-mini在工具使用方面经常遇到困难。

这些失败模式表明当前模型在执行长期规划任务方面存在弱点:尽管在制定和编写多步骤计划方面表现出充分的能力,但模型未能实际采取一系列行动来执行这些计划。


迭代智能体

鉴于模型往往无法充分利用可用的全部时间,研究人员还测试了BasicAgent的一个变体。

这个变体通过移除智能体提前结束任务的能力,强制其在全部可用时间内持续运行,并使用经过优化的提示词来鼓励模型以逐步方式工作。

他们将这个智能体称为IterativeAgent。

研究人员使用IterativeAgent对o1、o3-mini和Claude 3.5 Sonnet进行了测试,如下表5所示。

他们发现使用IterativeAgent后,o1和o3-mini的得分显著提升。

值得注意的是,在使用BasicAgent时,Claude 3.5 Sonnet的表现优于o1,但在使用IterativeAgent时,其表现却不如o1。这表明为IterativeAgent优化的提示词,对OpenAI o系列模型有着不同程度的适用性。

研究人员推断,如果对BasicAgent进行类似修改,同样防止其提前结束任务,可能会使Claude 3.5 Sonnet的表现超过使用IterativeAgent的o1。


人类拿下41.4%

此外,研究人员还招募了8名目前正在攻读/已完成ML博士学位的参与者来挑战3篇论文的子集。

这里,他们采用了AI智能体类似的条件下评估参与者。

参与者会拿到PDF和Markdown格式的论文,以及论文的附录和尽可能接近用于AI智能体的指令,并可使用单个英伟达A10 GPU。

参与者兼职工作,有四周的时间窗口来取得尽可能多的进展。

另外,团队对使用IterativeAgent的o1进行了36小时的延长运行,每小时保存快照,并对1、3、6、12和36小时时拍摄的快照进行评分。

如图3所示,比较了o1的这次36小时延长运行与人类随时间的表现。

研究观察到,o1在复现尝试的早期阶段最初优于人类基准,但在24小时后,人类开始超过AI智能体。智能体最初优于人类但在更长时间跨度内落后的趋势与先前结果一致。

ML博士在48小时内(3次尝试取最佳)拿下了41.4%高分,而统一子集上,o1仅为26.6%分。

这表明,与人类专家相比,AI尽管进步显著但仍有差距。

此外,研究人员还推出了一个轻量级变体PaperBench Code-Dev,在这个版本中,o1的得分飙升至43.4%,显示出AI在简化任务上的潜力。

结论

21%得分或许只是一个开始。

PaperBench不仅揭示了AI智能体在科研中的潜力,也暴露它们在长期规划任务中的局限性。下一步,随着模型能力提升,它们能够接近甚至超越41.4%人类基准?

参考资料:

https://openai.com/index/paperbench/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
84岁爵爷震怒!赛季刚过半曼联便四大皆空 44年新耻:2杯赛1轮游

84岁爵爷震怒!赛季刚过半曼联便四大皆空 44年新耻:2杯赛1轮游

我爱英超
2026-01-12 06:03:50
1000亿美元!巨头宣布:打造全球最先进的存储芯片工厂!

1000亿美元!巨头宣布:打造全球最先进的存储芯片工厂!

证券时报e公司
2026-01-11 22:06:39
纪实:杨佳袭警案,北京小伙对执法不满,手拿剔骨刀砍死6位民警

纪实:杨佳袭警案,北京小伙对执法不满,手拿剔骨刀砍死6位民警

谈史论天地
2026-01-08 19:40:03
在上海,月薪四万的博士遭遇了失业

在上海,月薪四万的博士遭遇了失业

古典读书治学生活
2026-01-12 07:12:43
唐莉:父亲是唐国强,母亲除夕夜悲惨离世,我在岁月中理解了父亲

唐莉:父亲是唐国强,母亲除夕夜悲惨离世,我在岁月中理解了父亲

丰谭笔录
2026-01-10 07:35:12
索尔斯克亚或回归再次救火,曼联又在后退的路上

索尔斯克亚或回归再次救火,曼联又在后退的路上

K唐伯虎
2026-01-12 07:18:14
演技太装太尬!央视《小城大事》遭恶评?这“戏混子”有很大责任

演技太装太尬!央视《小城大事》遭恶评?这“戏混子”有很大责任

翰飞观事
2026-01-11 19:15:22
新冠病毒3大结局已经不可避免,60岁以上的老年人尤其要注意

新冠病毒3大结局已经不可避免,60岁以上的老年人尤其要注意

医护健康科普
2025-08-31 17:07:58
成都价格4万多元! “史上最贵”近视手术ICL(V5)到底值不值?

成都价格4万多元! “史上最贵”近视手术ICL(V5)到底值不值?

封面新闻
2026-01-08 16:29:07
张本智和说“必须拿冠军”,林昀儒讲“尽力就行”,谁更能成

张本智和说“必须拿冠军”,林昀儒讲“尽力就行”,谁更能成

动物奇奇怪怪
2026-01-12 05:30:19
蔬菜市场遇冷,这3种菜便宜却没人买,摊贩:现在老百姓太精明了

蔬菜市场遇冷,这3种菜便宜却没人买,摊贩:现在老百姓太精明了

三农雷哥
2026-01-11 17:28:07
向中国要1250亿,中方拒绝西方急了,COP30上我们没义务当冤大头

向中国要1250亿,中方拒绝西方急了,COP30上我们没义务当冤大头

爱吃醋的猫咪
2026-01-03 20:24:16
遭点球绝杀!U23亚洲杯爆大冷:第二档强队两战全败垫底 提前出局

遭点球绝杀!U23亚洲杯爆大冷:第二档强队两战全败垫底 提前出局

篮球看比赛
2026-01-11 11:23:50
联盟五笔重磅交易即将敲定,勇士五换一、湖人三换一、马刺四换一、活塞五换一!

联盟五笔重磅交易即将敲定,勇士五换一、湖人三换一、马刺四换一、活塞五换一!

隐于山海
2026-01-12 05:05:07
神仙木有她美丽,黑丝哪有白衬衫性感

神仙木有她美丽,黑丝哪有白衬衫性感

贵圈真乱
2025-12-12 12:12:10
WTT多哈冠军赛落幕!林昀儒决赛狂轰4-0夺冠,连赢德日韩名将登顶

WTT多哈冠军赛落幕!林昀儒决赛狂轰4-0夺冠,连赢德日韩名将登顶

全言作品
2026-01-12 01:51:32
果然,能打败阴谋的就是阳谋。用魔法打败魔法,把水搅浑屡试不爽

果然,能打败阴谋的就是阳谋。用魔法打败魔法,把水搅浑屡试不爽

另子维爱读史
2026-01-09 22:01:00
弗里克:我很自豪,巴萨踢出了我们想要的比赛风格

弗里克:我很自豪,巴萨踢出了我们想要的比赛风格

兰亭墨未干
2026-01-12 07:13:04
深度 | 【商业航天+SpaceX产业链】最核心的 8 大上市公司

深度 | 【商业航天+SpaceX产业链】最核心的 8 大上市公司

飞跑的鹿
2026-01-11 23:41:04
闫学晶多平台账号被禁止关注,冯巩删除所有相关视频

闫学晶多平台账号被禁止关注,冯巩删除所有相关视频

映射生活的身影
2026-01-10 10:38:36
2026-01-12 07:59:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14313文章数 66452关注度
往期回顾 全部

科技要闻

“我们与美国的差距也许还在拉大”

头条要闻

李献林学习教育期间违规吃喝:5人喝4瓶酒 1人酒后死亡

头条要闻

李献林学习教育期间违规吃喝:5人喝4瓶酒 1人酒后死亡

体育要闻

U23国足形势:末轮不负泰国即确保晋级

娱乐要闻

留几手为闫学晶叫屈?称网友自卑敏感

财经要闻

外卖平台"烧钱抢存量市场"迎来终局?

汽车要闻

2026款宋Pro DM-i长续航补贴后9.98万起

态度原创

房产
本地
旅游
健康
军事航空

房产要闻

66万方!4755套!三亚巨量房源正疯狂砸出!

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

旅游要闻

生态优先,雪域高原焕发新生机(子夜走笔)

这些新疗法,让化疗不再那么痛苦

军事要闻

俄大使:马杜罗夫妇被控制时身边没人

无障碍浏览 进入关怀版