网易首页 > 网易号 > 正文 申请入驻

OpenAI推出FrontierScience重置科学AI基准

0
分享至

很多关于人工智能和科学的讨论听起来都充满自信,甚至可以称之为过于乐观。模型可以阅读论文,总结研究结果,并连接各个领域。理论上,这应该会改变研究的工作方式。然而,在实践中,并没有那么简单。


大多数科学家仍然谨慎对待这些人工智能系统,有时怀疑。不是因为这些工具毫无用处,而是因为没有人真正证明它们可以像人类在事情变得不清楚或复杂时那样推理科学问题。但是,现在一切都可能改变。

OpenAI发布了FrontierScience(前沿科学),这是一个新的基准,旨在测试先进的人工智能模型是否能够处理科学推理,而不仅仅是科学知识。这正是科学家对人工智能系统建立信心和信任的原因。

FrontierScience不是专注于有明确答案的基本问题,而是旨在将模型推向更开放的问题,这些问题类似于真正的研究。早期结果表明取得了进展,但也暴露了这一进展的脆弱性。

FrontierScience背后的核心主张是,许多现有的科学基准已经不适合现在的工作。随着模型的改进,得分有所上升,但洞察力没有。

FrontierScience基准背后的OpenAI研究人员写道:“最近的模型进展几乎完全突破了现有的科学基准,这些基准通常依赖于多项选择知识问题或已经发布的信息。”


围绕已知答案和已发表材料构建的测试变得失去价值,即使潜在的科学能力没有太大变化也能通过测试。虽然基准分数有所提高,但这并不是真正的科学运作的。FrontierScience被视为一种重置。一种不同的方法,将困难和摩擦重新引入评估中,这样就可以用一些诚实的态度再次衡量进展。

那么,FrontierScience究竟是什么,它是如何工作的呢?

FrontierScience旨在通过两种不同类型的工作来测试科学能力。第一种是OpenAI所说的奥林匹克路径(Olympiad track)。这些都是困难且定义严格的问题,类似于高级竞争问题。这些问题的目标是在明确的约束下进行精确推理,并得出可验证的答案。基准测试的这一部分测试了问题解决能力。它不衡量创造力或猜测,这在其他领域可能很有价值,但在科学领域则不然。

第二个是研究路径(Research track),它是特意创建的,用于测试更混乱的数据。这些任务类似于科学家在研究过程中可能遇到的子问题,其中进展取决于做出一系列正确的决定,而不是一个单一的最终答案。为了评估这一点,每个问题都使用一个详细的评分标准进行评分,该标准对中间推理步骤进行评分。目的是观察模型是否理解如何处理问题。重点仍然是推理,而不是听起来正确的最终答案。

FrontierScience的研究结果令人印象深刻,同时也发人深省。OpenAI评估了来自不同组织的多个前沿模型。谷歌、Anthropic和xAI的几个竞争系统在基准测试的部分内容上发布了类似的结果。


GPT-5.2总体领先于基准。它在奥林匹克l路径上的得分为77%。在研究路径上,这一数字降至25%。有趣的是,这种下降在各个模型中是一致的。在明确界定的问题上,人工智能表现仍然强劲,但随着任务变得更加开放和有序,表现有所减弱。

这种差距突显了解决问题和在实验室进行实际研究之间的区别,在实验室中,实验在整个过程中可以采取多种形式。FrontierScience认为,当边界清晰时,当前的模型可以有效地推理,但很难在更长的科学判断链中保持一致性。这种区别有助于解释为什么人工智能工具在某些研究工作流程中感觉强大,而在其他工作流程中则感觉脆弱。

FrontierScience真正强调的不是当前模型的失败,而是人工智能进步的衡量方式与科学工作的实际展开方式之间的不匹配。

即使是它的创造者也警告不要高估结果。FrontierScience专注于受限和专家编写的问题,并没有捕捉到科学工作的许多核心要素。这包括假设生成和实验交互。基于量规的评分也引入了更简单的基准所避免的主观性。


那么,关键要点是什么?根据OpenAI的说法,基准测试更像是一种诊断工具,而不是终点线。还有很多工作要做。然而,FrontierScience的目的是揭示推理失败的地方,以便未来的模型开发可以集中在那里。这是否会导致更深层次的科学自主性仍然是一个悬而未决的问题。

OpenAI研究人员写道:“研究和实践评估对于继续建立长期和直接相关的评估非常重要。”“科学推理是人工智能有益影响的核心,需要强有力的基准来加速真正的科学进步。”

与Ai时代前沿合作,将大门向更多普通用户敞开!免费课程限时领,还有好礼相送!无论你是对新技术充满好奇心的爱好者,还是希望提升自己技能的职场人士,这里都有适合你的课程和资源。文章留言或私信小编拉您入群!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
CBA爆冷!黑马青岛主场失守,深圳外援30+6+6,决胜时刻连得11分

CBA爆冷!黑马青岛主场失守,深圳外援30+6+6,决胜时刻连得11分

环太平洋老正太
2026-01-05 21:39:23
这是要直接送走吗?15个跌停后又一字跌停,公司发布终止上市风险

这是要直接送走吗?15个跌停后又一字跌停,公司发布终止上市风险

财经智多星
2026-01-05 11:18:17
画风正确!哈里王子牵小女孩亮相,莉莉贝特公主就应该大方露脸

画风正确!哈里王子牵小女孩亮相,莉莉贝特公主就应该大方露脸

白日追梦人
2026-01-05 03:30:57
美国人为啥不爱存钱!不是因为他们不想存,而是因为他们不能存

美国人为啥不爱存钱!不是因为他们不想存,而是因为他们不能存

西楼知趣杂谈
2025-12-28 11:28:55
1976年周总理逝世,83岁宋庆龄灵堂受辱,怒摔东西撂下一句狠话,连夜飞回上海

1976年周总理逝世,83岁宋庆龄灵堂受辱,怒摔东西撂下一句狠话,连夜飞回上海

历史回忆室
2025-12-30 13:18:14
为什么美国、日本第一时间就知道中国的决策、军事及重大的工程等

为什么美国、日本第一时间就知道中国的决策、军事及重大的工程等

老谢谈史
2025-11-26 15:57:45
女子因桃花眼走红,订婚两年热度依旧,网友喊话:88号快回来上班

女子因桃花眼走红,订婚两年热度依旧,网友喊话:88号快回来上班

梅子的小情绪
2025-12-19 14:04:18
江苏“十三太保”,2026都要争“冠军”

江苏“十三太保”,2026都要争“冠军”

新浪财经
2026-01-05 22:59:44
新帅还没定,天空:麦克法兰周二将出席切尔西赛前新闻发布会

新帅还没定,天空:麦克法兰周二将出席切尔西赛前新闻发布会

懂球帝
2026-01-06 03:49:08
分析师:若委内瑞拉重返主要产油国 油价或长期压低 俄罗斯将受波及

分析师:若委内瑞拉重返主要产油国 油价或长期压低 俄罗斯将受波及

财联社
2026-01-05 18:29:03
古巴称32名军事人员在美国对委内瑞拉行动中死亡

古巴称32名军事人员在美国对委内瑞拉行动中死亡

环球网资讯
2026-01-05 09:44:46
破案了!邱彪罕见暴走摔西装要打裁判的原因找到,郭昊文是导火索

破案了!邱彪罕见暴走摔西装要打裁判的原因找到,郭昊文是导火索

后仰大风车
2026-01-05 07:15:06
CBA疯狂排名变动,老牌强队遭遇滑铁卢!

CBA疯狂排名变动,老牌强队遭遇滑铁卢!

蜜心萝莉
2026-01-06 02:40:01
冲赵今麦去看《骄阳似我》,却被4个妈惊艳,半老徐娘,风韵犹存

冲赵今麦去看《骄阳似我》,却被4个妈惊艳,半老徐娘,风韵犹存

独舞独舞
2026-01-06 00:05:40
李在明专机抵京之际,韩国国内传来坏消息,中方坚决亮明一条红线

李在明专机抵京之际,韩国国内传来坏消息,中方坚决亮明一条红线

老踲系戏精北鼻
2026-01-04 23:18:56
真吃不下!女子参加闺蜜婚礼在室外吃席:菜被冻得结冰了

真吃不下!女子参加闺蜜婚礼在室外吃席:菜被冻得结冰了

唐小糖说情感
2026-01-04 17:14:43
叶剑英请喝酒,秘书劝王洪文不要去,王无奈道:只有他认我

叶剑英请喝酒,秘书劝王洪文不要去,王无奈道:只有他认我

寻史者也
2024-11-04 23:44:47
小米17u彻底凉了!首销三日销量不及前代一半

小米17u彻底凉了!首销三日销量不及前代一半

真义科技
2026-01-03 18:00:12
健身必备!宽松短袖与个性短裤搭配,瞬间提升时尚感!

健身必备!宽松短袖与个性短裤搭配,瞬间提升时尚感!

独角showing
2026-01-04 22:37:13
晚饭是补蛋白黄金期!医生建议:多吃3款高蛋白晚餐,增强免疫

晚饭是补蛋白黄金期!医生建议:多吃3款高蛋白晚餐,增强免疫

摇感军事
2026-01-02 15:38:29
2026-01-06 04:08:49
Ai时代前沿
Ai时代前沿
人工智能新闻动态及应用案例。
1615文章数 510关注度
往期回顾 全部

科技要闻

4100家科技企业集结赌城,CES揭开AI新战场

头条要闻

马杜罗庭审陈词:我是一个正派的人 是我们国家总统

头条要闻

马杜罗庭审陈词:我是一个正派的人 是我们国家总统

体育要闻

50年最差曼联主帅!盘点阿莫林尴尬纪录

娱乐要闻

《探索新境2》王一博挑战酋长岩

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

海狮06EV冬季续航挑战 "电"这事比亚迪绝对玩明白了

态度原创

手机
亲子
艺术
家居
房产

手机要闻

1月Turbo混战,中端性能机你选哪个?

亲子要闻

孕妇怀四胎能医学发现?

艺术要闻

抖音第二总部今年启动开工建设,坐标深圳!

家居要闻

白色大理石 奢华现代

房产要闻

再次登顶海南楼市!超越阿那亚的,只有阿那亚!

无障碍浏览 进入关怀版