网易首页 > 网易号 > 正文 申请入驻

Claude 3.5首战复现21%顶会论文,人类博士无法取代!OpenAI:AI全是草台班子

0
分享至

新智元报道

编辑:桃子 好困

【新智元导读】AI若能自主复现顶尖科研论文,未来科研将被掀翻天。OpenAI最新框架PaperBench正为此生,让AI智能体从头开始复现ICML 2024 20篇优秀论文,只有Claude 3.5 Sonnet拔得头筹,但仍无法超越ML博士水平。

AI智能体,能否复现顶会中重磅的AI研究?

今天,OpenAI团队发布了全新框架PaperBench,便可评估AI智能体复现顶尖研究的基础能力。

论文地址:https://openai.com/index/paperbench/

要求是,AI智能体需从0开始复现20篇ICML 2024 Spotlight和Oral论文,包括理解论文核心文献、开发可运行代码库,以及执行实验并验证结果。

为了客观评估AI成果,OpenAI联手每篇ICML论文作者开发了「评估标准」,将每个复制任务层次化分解为具有明确评分标准的较小子任务。

总共,PaperBench包含8,316个可单独评分的任务。

结果发现,只有Claude 3.5 Sonnet(New)拿下了最高分21.0%,o1-high得分13.2%,DeepSeek-R1是6%,GPT-4o是4.1%。

遗憾的是,即便是最领先的LLM,仍无法超越机器学习博士。

目前,OpenAI将PaperBench的所有代码开源。

GitHub地址:https://github.com/openai/preparedness

AI挑战复现ICML 2024大作

PaperBench的目标,直指AI智能体的科研潜力。

若要完整复现ICML 2024 20篇优秀的论文,意味着AI不仅需要理解论文核心思想,还得自主开发代码库、运行实验,甚至是排除故障。

要知道,这是一项连人类研究员需要好几天,才能完成的高难度任务。

这项研究的主要贡献包括:

  • PaperBench:一个包含20篇ML研究论文和经作者批准的评分标准的基准测试,以及使用基于LLM评估的自动评分工作流程。

  • PaperBench Code-Dev:基准测试的一个更轻量级的变体,放宽了PaperBench的一些要求,使设置和评估对更广泛的社区更易于使用。

  • JudgeEval:一个包含人类评分提交结果的数据集,可用作开发和评估自动评估的辅助工具。

  • 在PaperBench上对SOTA模型的评估:对几个前沿AI智能体执行长周期任务和机器学习研发能力的综合评估。

更重要的是,PaperBench不仅是一个学术实验,它还与其他AI安全框架紧密关联。

它可用作OpenAI的准备框架中的模型自主性度量、Anthropic负责任扩展政策中的自主能力指标,以及Google DeepMind的前沿安全框架中的机器学习研发评估工具。

PaperBench:20篇论文,8316个任务

如上所述,PaperBench选取了来自ICML 2024中20篇 Spotlight和Oral论文,主要覆盖了12个主题。

其中包括,深度强化学习、鲁棒性和概率方法。

而且,每篇论文都配备了详细的评分标准,总计8,316个可单独评估的评分项目。

这些标准均是由每篇论文原作者与OpenAI共同制定,确保评估过程中的准确性和权威性。

评分标准采用层次结构,将复杂的复现目标分解为细粒度子任务。


任务+复现

对于PaperBench中的每个样本,AI智能体会收到论文和论文澄清说明的附录。

候选智能体必须提交一个包含复现论文实证结果所需的所有代码的代码库,而且代码库根目录必须包含一个reproduce.sh文件,作为执行所有必要代码以复现论文结果的入口点。

当提交的reproduce.sh能够在全新环境中成功复现论文中报告的实证结果时,AI智能体便成功完成复现任务。


树级评分

在基准测试中,每篇论文都配有一个评分标准,明确规定了完整论文复制的评估要求。

评分标准被设置为一个要求层级结构,每个叶节点(leaf node)指定一个明确的通过/失败标准(见图2),且每个节点都根据其相对于同级节点的重要性被手动赋予了权重。

对于一个叶节点标准,评估者会判断提交内容是否满足其要求,如果满足则给予1分,否则给0分。

当所有叶节点都被评分后,父节点(parent node)的分数将等于其所有子节点分数的加权平均值。

这一计分过程会一直向上传递到树的根节点(root),根节点的分数即被视为该提交的最终复制分数(Replication Score)。

换句话说,每个提交的评分是基于所有满足的评分标准要求的权重调整后的比例,其中100%表示完美复制,即满足了所有叶节点的要求。

目前,论文中主要评估指标是所有论文的平均复制分数。

每个叶节点具有三种可能的需求类型之一,这决定了其评分方式。

  • 结果匹配(Result Match)叶节点评估已执行的提交是否包含复制论文中特定结果的证据。

  • 执行(Execution)叶节点评估运行reproduce.sh脚本时是否产生了某些特定的执行结果。

  • 代码开发(Code Development)叶节点评估候选者的源代码是否包含某些需求的正确实现。


可以上网,但不能查看原作者代码库

PaperBench设计为与智能体支持框架(agent scaffolds)无关,因此研究团队对智能体的运行环境没有特定要求。然而,基准测试确实制定了一些规则来确保公平比较:

  • 智能体可以浏览互联网,但不得使用OpenAI提供的每篇论文黑名单中网站的资源。每篇论文的黑名单包括作者自己的代码库和任何其他在线复制实现。

  • 智能体可使用的资源,如运行时间和计算能力,不受任何限制。

  • 开发者应为智能体提供必要的在线服务API密钥(例如,用于下载数据集的HuggingFace凭证)。

对于实验,OpenAI还构建了一个简单的后处理监控工具,用于检查智能体日志中是否出现黑名单URL,发现可疑情况后会提交给人工审核,以取消使用黑名单资源的任何提交资格。

LLM评判成本降至10美金,比专家更高效

面对如此复杂的任务,人工评分显然不现实。

一篇论文的复现尝试,通常需要人类专家数十小时来评估。

为此,OpenAI团队开发了一个基于大模型自动评判系统,并推出了辅助工具JudgeEval,用来验证自动评判者的表现。

对于给定的提交内容,评判系统SimpleJudge会独立地对评分标准中的每个叶节点进行评分。

针对特定叶节点,评判系统会接收论文的Markdown格式文本、完整的评分标准JSON文件、叶节点的具体要求和提交内容作为提示词。

如下图5所示,对于PaperBench Code-Dev,每篇论文的成本降至约10美元,证明了比聘请专家进行人工评分更加经济且高效。

Claude 3.5 Sonnet得分最高

实验中,研究人员对GPT-4o、o1、o3-mini、DeepSeek-R1、Claude 3.5 Sonnet(New)和Gemini 2.0 Flash在所有20篇论文上进行了评估,每篇论文进行了3次运行。

而且,他们每个智能体设置了最长12小时的运行时限。

如下表4所示,展示了各模型的平均复现得分。

其中,Claude 3.5 Sonnet表现最出色,得分达到21.0%。OpenAI o1表现较弱,得分为13.2%,其他模型表现不佳,得分均低于10%。

为了更好地理解智能体性能,研究人员手动检查了几个智能体的运行日志。

他们发现,除了Claude 3.5 Sonnet外,所有模型都经常提前结束任务,声称它们要么已完成整个复现工作,要么遇到了无法解决的问题。

所有智能体都未能制定有效策略,考虑如何在有限时间内最优地复现论文。我们还观察到o3-mini在工具使用方面经常遇到困难。

这些失败模式表明当前模型在执行长期规划任务方面存在弱点:尽管在制定和编写多步骤计划方面表现出充分的能力,但模型未能实际采取一系列行动来执行这些计划。


迭代智能体

鉴于模型往往无法充分利用可用的全部时间,研究人员还测试了BasicAgent的一个变体。

这个变体通过移除智能体提前结束任务的能力,强制其在全部可用时间内持续运行,并使用经过优化的提示词来鼓励模型以逐步方式工作。

他们将这个智能体称为IterativeAgent。

研究人员使用IterativeAgent对o1、o3-mini和Claude 3.5 Sonnet进行了测试,如下表5所示。

他们发现使用IterativeAgent后,o1和o3-mini的得分显著提升。

值得注意的是,在使用BasicAgent时,Claude 3.5 Sonnet的表现优于o1,但在使用IterativeAgent时,其表现却不如o1。这表明为IterativeAgent优化的提示词,对OpenAI o系列模型有着不同程度的适用性。

研究人员推断,如果对BasicAgent进行类似修改,同样防止其提前结束任务,可能会使Claude 3.5 Sonnet的表现超过使用IterativeAgent的o1。


人类拿下41.4%

此外,研究人员还招募了8名目前正在攻读/已完成ML博士学位的参与者来挑战3篇论文的子集。

这里,他们采用了AI智能体类似的条件下评估参与者。

参与者会拿到PDF和Markdown格式的论文,以及论文的附录和尽可能接近用于AI智能体的指令,并可使用单个英伟达A10 GPU。

参与者兼职工作,有四周的时间窗口来取得尽可能多的进展。

另外,团队对使用IterativeAgent的o1进行了36小时的延长运行,每小时保存快照,并对1、3、6、12和36小时时拍摄的快照进行评分。

如图3所示,比较了o1的这次36小时延长运行与人类随时间的表现。

研究观察到,o1在复现尝试的早期阶段最初优于人类基准,但在24小时后,人类开始超过AI智能体。智能体最初优于人类但在更长时间跨度内落后的趋势与先前结果一致。

ML博士在48小时内(3次尝试取最佳)拿下了41.4%高分,而统一子集上,o1仅为26.6%分。

这表明,与人类专家相比,AI尽管进步显著但仍有差距。

此外,研究人员还推出了一个轻量级变体PaperBench Code-Dev,在这个版本中,o1的得分飙升至43.4%,显示出AI在简化任务上的潜力。

结论

21%得分或许只是一个开始。

PaperBench不仅揭示了AI智能体在科研中的潜力,也暴露它们在长期规划任务中的局限性。下一步,随着模型能力提升,它们能够接近甚至超越41.4%人类基准?

参考资料:

https://openai.com/index/paperbench/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
换心风波仅1个月,李连杰再传噩耗,沦落到如今的下场怪不了别人

换心风波仅1个月,李连杰再传噩耗,沦落到如今的下场怪不了别人

乡野小珥
2026-02-05 15:03:34
美战略界:想要终结美国世纪?除非中国能回到明朝,变成混合霸权

美战略界:想要终结美国世纪?除非中国能回到明朝,变成混合霸权

流云随风去远方
2026-02-06 21:46:47
美媒曝中国轰炸计划:日本若走错半步,恐遭毁灭打击!

美媒曝中国轰炸计划:日本若走错半步,恐遭毁灭打击!

音乐时光的娱乐
2026-02-19 06:29:24
少拿1.1亿美元,如今索要超级顶薪!作为球队老大,你可能被算计

少拿1.1亿美元,如今索要超级顶薪!作为球队老大,你可能被算计

老梁体育漫谈
2026-02-19 00:04:53
事实证明,吃完贾玲“红利”的张小斐,如今又回到了她的“怪圈”

事实证明,吃完贾玲“红利”的张小斐,如今又回到了她的“怪圈”

小熊侃史
2026-02-11 12:56:17
你最爽的经历是什么?网友:约过一个比我大好几岁的姐姐

你最爽的经历是什么?网友:约过一个比我大好几岁的姐姐

带你感受人间冷暖
2026-02-16 01:10:39
国米完败同时劳塔罗疑似重伤 接过队长袖标之人惨遭千夫所指

国米完败同时劳塔罗疑似重伤 接过队长袖标之人惨遭千夫所指

国际足球冷雪
2026-02-19 08:32:05
3999元起的iPhone、最便宜MacBook,苹果这些新品太炸裂了

3999元起的iPhone、最便宜MacBook,苹果这些新品太炸裂了

雷科技
2026-02-19 10:43:54
1985年,19岁的苏菲·玛索在东京街头,英气十足

1985年,19岁的苏菲·玛索在东京街头,英气十足

娱你同欢
2026-02-15 10:12:04
98元涨到963元,最近价格飞涨近10倍,网友直呼离谱!

98元涨到963元,最近价格飞涨近10倍,网友直呼离谱!

最江阴
2026-02-18 11:06:57
湖北宜城发生一起烟花爆竹爆炸事故,已致12人死亡,爆炸原因正在进一步调查

湖北宜城发生一起烟花爆竹爆炸事故,已致12人死亡,爆炸原因正在进一步调查

每日经济新闻
2026-02-18 18:23:54
2026上海临沂一村片区即将动迁?补偿标准提前曝光

2026上海临沂一村片区即将动迁?补偿标准提前曝光

石辰搞笑日常
2026-02-19 11:57:23
年初一晚上!汪小菲带孩子们去放烟花,小玥儿画爱心,逗笑马筱梅

年初一晚上!汪小菲带孩子们去放烟花,小玥儿画爱心,逗笑马筱梅

圆梦的小老头
2026-02-18 00:43:38
特朗普还没登机访华,鲁比奥先对华交了底,沙利文说了句大实话

特朗普还没登机访华,鲁比奥先对华交了底,沙利文说了句大实话

今墨缘
2026-02-19 09:28:30
橙子再次被发现!医生发现:高血压患者常吃橙子,或出现4种变化

橙子再次被发现!医生发现:高血压患者常吃橙子,或出现4种变化

小胡军事爱好
2026-02-08 22:34:31
快船队记曝加兰大概率3月份复出!快船希望届时脚趾伤势完全康复

快船队记曝加兰大概率3月份复出!快船希望届时脚趾伤势完全康复

Emily说个球
2026-02-19 04:22:48
一场大战,又骤然逼近了

一场大战,又骤然逼近了

牛弹琴
2026-02-19 07:53:10
美国华人直言:中国手机扫码支付是最不智能的发明!

美国华人直言:中国手机扫码支付是最不智能的发明!

阿伧说事
2026-01-20 12:53:01
小朋友说过最离谱的话是啥?网友:哈哈哈,这个画面感也太强了点

小朋友说过最离谱的话是啥?网友:哈哈哈,这个画面感也太强了点

带你感受人间冷暖
2026-02-05 02:09:15
44岁范冰冰近照判若两人!与妈妈同框身形暴肥,穿宽松裙孕态藏不住

44岁范冰冰近照判若两人!与妈妈同框身形暴肥,穿宽松裙孕态藏不住

八卦王者
2026-02-19 09:47:59
2026-02-19 14:11:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14554文章数 66630关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

美军数十年"最大规模"集结中东 特朗普被指仍在"思考"

头条要闻

美军数十年"最大规模"集结中东 特朗普被指仍在"思考"

体育要闻

首金!苏翊鸣唱国歌落泪 自信比1呐喊

娱乐要闻

明星过年百态!黄晓明等现身三亚

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

时尚
数码
本地
手机
亲子

冬季穿衣不用太复杂!内搭选高领、外套选简约款,大方又耐看

数码要闻

戴森推出PencilWash洗地机:专清硬质地面污渍,售349美元

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

手机要闻

3999元起的iPhone、最便宜MacBook,苹果这些新品太炸裂了

亲子要闻

三岁女儿在家带妈妈找爸爸的私房钱

无障碍浏览 进入关怀版