很多关于人工智能和科学的讨论听起来都充满自信,甚至可以称之为过于乐观。模型可以阅读论文,总结研究结果,并连接各个领域。理论上,这应该会改变研究的工作方式。然而,在实践中,并没有那么简单。
![]()
大多数科学家仍然谨慎对待这些人工智能系统,有时怀疑。不是因为这些工具毫无用处,而是因为没有人真正证明它们可以像人类在事情变得不清楚或复杂时那样推理科学问题。但是,现在一切都可能改变。
OpenAI发布了FrontierScience(前沿科学),这是一个新的基准,旨在测试先进的人工智能模型是否能够处理科学推理,而不仅仅是科学知识。这正是科学家对人工智能系统建立信心和信任的原因。
FrontierScience不是专注于有明确答案的基本问题,而是旨在将模型推向更开放的问题,这些问题类似于真正的研究。早期结果表明取得了进展,但也暴露了这一进展的脆弱性。
FrontierScience背后的核心主张是,许多现有的科学基准已经不适合现在的工作。随着模型的改进,得分有所上升,但洞察力没有。
FrontierScience基准背后的OpenAI研究人员写道:“最近的模型进展几乎完全突破了现有的科学基准,这些基准通常依赖于多项选择知识问题或已经发布的信息。”
![]()
围绕已知答案和已发表材料构建的测试变得失去价值,即使潜在的科学能力没有太大变化也能通过测试。虽然基准分数有所提高,但这并不是真正的科学运作的。FrontierScience被视为一种重置。一种不同的方法,将困难和摩擦重新引入评估中,这样就可以用一些诚实的态度再次衡量进展。
那么,FrontierScience究竟是什么,它是如何工作的呢?
FrontierScience旨在通过两种不同类型的工作来测试科学能力。第一种是OpenAI所说的奥林匹克路径(Olympiad track)。这些都是困难且定义严格的问题,类似于高级竞争问题。这些问题的目标是在明确的约束下进行精确推理,并得出可验证的答案。基准测试的这一部分测试了问题解决能力。它不衡量创造力或猜测,这在其他领域可能很有价值,但在科学领域则不然。
第二个是研究路径(Research track),它是特意创建的,用于测试更混乱的数据。这些任务类似于科学家在研究过程中可能遇到的子问题,其中进展取决于做出一系列正确的决定,而不是一个单一的最终答案。为了评估这一点,每个问题都使用一个详细的评分标准进行评分,该标准对中间推理步骤进行评分。目的是观察模型是否理解如何处理问题。重点仍然是推理,而不是听起来正确的最终答案。
FrontierScience的研究结果令人印象深刻,同时也发人深省。OpenAI评估了来自不同组织的多个前沿模型。谷歌、Anthropic和xAI的几个竞争系统在基准测试的部分内容上发布了类似的结果。
![]()
GPT-5.2总体领先于基准。它在奥林匹克l路径上的得分为77%。在研究路径上,这一数字降至25%。有趣的是,这种下降在各个模型中是一致的。在明确界定的问题上,人工智能表现仍然强劲,但随着任务变得更加开放和有序,表现有所减弱。
这种差距突显了解决问题和在实验室进行实际研究之间的区别,在实验室中,实验在整个过程中可以采取多种形式。FrontierScience认为,当边界清晰时,当前的模型可以有效地推理,但很难在更长的科学判断链中保持一致性。这种区别有助于解释为什么人工智能工具在某些研究工作流程中感觉强大,而在其他工作流程中则感觉脆弱。
FrontierScience真正强调的不是当前模型的失败,而是人工智能进步的衡量方式与科学工作的实际展开方式之间的不匹配。
即使是它的创造者也警告不要高估结果。FrontierScience专注于受限和专家编写的问题,并没有捕捉到科学工作的许多核心要素。这包括假设生成和实验交互。基于量规的评分也引入了更简单的基准所避免的主观性。
![]()
那么,关键要点是什么?根据OpenAI的说法,基准测试更像是一种诊断工具,而不是终点线。还有很多工作要做。然而,FrontierScience的目的是揭示推理失败的地方,以便未来的模型开发可以集中在那里。这是否会导致更深层次的科学自主性仍然是一个悬而未决的问题。
OpenAI研究人员写道:“研究和实践评估对于继续建立长期和直接相关的评估非常重要。”“科学推理是人工智能有益影响的核心,需要强有力的基准来加速真正的科学进步。”
与Ai时代前沿合作,将大门向更多普通用户敞开!免费课程限时领,还有好礼相送!无论你是对新技术充满好奇心的爱好者,还是希望提升自己技能的职场人士,这里都有适合你的课程和资源。文章留言或私信小编拉您入群!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.