网易首页 > 网易号 > 正文 申请入驻

OpenAI发布权威AI科研基准,扯下AI遮羞布:奥赛金牌≠一流科学家!

0
分享至


新智元报道

编辑:艾伦

【新智元导读】OpenAI最新发布的FrontierScience基准,试图用真实的博士级难题,从物理、化学、生物三个维度上考验AI。真相是残酷的:在没有唯一标准答案的科研实战中,AI作为「顶级做题家」,距离真正的科学家,还差得远。

OpenAI在2025年12月16日发布了一套新基准FrontierScience,用来衡量AI在物理、化学、生物三门学科里,能否做到接近专家水准的科学推理,而不只是背知识点。



OpenAI在文中把科学工作描述成一套更接近「持续试错」的流程。

提出假设,设计验证,推翻再重来,还要把不同领域的线索拼成同一张图。

模型越强,问题就越尖锐,AI能不能把这种深推理用到真正的科研推进上。

OpenAI提到,过去一年他们的系统在国际数学奥林匹克和国际信息学奥林匹克上达到了金牌级表现,同时更重要的变化发生在实验室和办公室里。

研究者开始拿这些模型做跨学科文献检索,跨语言读论文,也拿它们去推复杂证明。

有些原本要耗掉几天甚至几周的工作,被压到几小时就能跑完一轮。

为什么需要FrontierScience?OpenAI给了一个对比。

2023年11月,GPQA这个由博士专家撰写、强调「谷歌搜不到」的科学题库发布时,GPT-4只拿到39%,低于专家基线74%。

两年后,GPT-5.2在同一基准上拿到92%。

当旧题库逐渐被刷穿,新的尺子就必须更长,否则你看不出模型还能往哪里发展。

FrontierScience的设计更像是给模型丢进两种不同的「科学难关」。

一类偏竞赛风格,考你在约束条件下把推理做到干净利落。


物理竞赛题示例

另一类更贴近研究现场,要求你在开放问题里把思路走通,哪怕没有标准答案那么工整。


物理科研问题示例

这套评测总量超过700道文本型题目,其中160道属于「黄金组」(Gold Set)题目。

竞赛赛道有100道题,强调短答案形式,便于核验对错。

研究赛道有60个原创研究子任务,由博士阶段或更资深的研究者设计,用10分制评分,拿到至少7分才算通过。


题目质量是有充足保障的:

竞赛赛道和42位前国际奖牌得主或国家队教练合作,总计109枚奥赛奖牌;

研究赛道由45位合格科学家与领域专家参与,覆盖从量子电动力学到合成有机化学,再到进化生物学等细分方向。

OpenAI还承认了一个不那么「中立」的细节。

两套题在制作流程里会刻意淘汰OpenAI自家内部模型已经能答对的题,因此这套评测对OpenAI自家模型可能更苛刻一些。

与此同时,他们开源了两套赛道的「黄金组」题目,其余题目保留,用来追踪数据污染。

OpenAI说,短答案适合机器判定,但研究型任务需要更细颗粒度的量表,于是他们用GPT-5充当模型判卷员,对照短答案逐项打分。

理想状态是请专家逐题批改,现实是规模不允许,于是规则被设计成尽量客观且可被模型检查,并配了验证流程来校准难度与正确性。

成绩单上,OpenAI给出了一轮初测对比。

他们评测了GPT-5.2、Claude Opus 4.5、Gemini 3 Pro、GPT-4o、OpenAI o4-mini、OpenAI o3等模型。OpenAI表示,GPT-5.2在竞赛题上得分77%,在研究题上得分25%,目前领先;Gemini 3 Pro在竞赛题上拿到76%,紧跟其后。


更值得注意的是失败原因。

OpenAI从答题记录里总结,前沿模型仍会犯推理、逻辑和计算错误,会卡在冷门概念上,也会出现事实性偏差。

另一个很朴素的观察也被写进正文:模型想得更久,准确率往往更高。


OpenAI对FrontierScience的边界也直言不讳。

它把科研切成可控的题目,这让评测更标准化,但也意味着它更像一张高清截图,而不是科研的全景纪录片。

尤其是它不评估模型能否提出真正新颖的假设,也不覆盖它与多模态数据和现实实验系统打交道的能力。

接下来,OpenAI计划迭代题库、扩展领域,并配套更多真实世界评估,看这些系统究竟让科学家多做成了什么。

奥赛金牌≠一流科学家,AI距离成为真正能独当一面的一流科学家,还有很长的路要走完。

参考资料:

https://openai.com/index/frontierscience/

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
俄罗斯主帅:FIFA把我们禁赛了,就算加入亚足联顶多踢亚洲杯

俄罗斯主帅:FIFA把我们禁赛了,就算加入亚足联顶多踢亚洲杯

懂球帝
2026-03-26 16:30:07
中共中央批准,开除刘慧党籍

中共中央批准,开除刘慧党籍

新京报
2026-03-26 17:14:17
中国电信:全面转向token经营!

中国电信:全面转向token经营!

最通信
2026-03-25 20:45:14
伊朗军方:已击中或击落202架各类美以军机

伊朗军方:已击中或击落202架各类美以军机

界面新闻
2026-03-26 15:29:15
引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

家传编辑部
2026-03-26 10:34:27
冒充“中国船”闯过伊朗封锁线!日本货轮全速突围,安全抵达澳洲

冒充“中国船”闯过伊朗封锁线!日本货轮全速突围,安全抵达澳洲

澳洲红领巾
2026-03-26 12:22:58
广东报告梅大高速“5·1”塌方灾害整改落实情况:发现公路隐患1.6万余处

广东报告梅大高速“5·1”塌方灾害整改落实情况:发现公路隐患1.6万余处

封面新闻
2026-03-26 15:36:07
广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

洪观新闻
2026-03-26 10:56:49
新加坡站队了?正式向世界宣布:中方若继续挑衅日本,会让他好看

新加坡站队了?正式向世界宣布:中方若继续挑衅日本,会让他好看

小影的娱乐
2026-03-26 13:45:58
厦门一女子长期遭家暴离家不敢归,丈夫向法院申请宣告其死亡,十多年后决心离婚才知道自己“死了”!

厦门一女子长期遭家暴离家不敢归,丈夫向法院申请宣告其死亡,十多年后决心离婚才知道自己“死了”!

环球网资讯
2026-03-26 14:44:08
张雪峰被骂8年,走后全网才发现:他说的5句话是给普通人的保命符

张雪峰被骂8年,走后全网才发现:他说的5句话是给普通人的保命符

奇思妙想草叶君
2026-03-25 13:22:05
突发传闻:封锁霍尔木兹的伊朗关键人物被击毙

突发传闻:封锁霍尔木兹的伊朗关键人物被击毙

桂系007
2026-03-26 16:19:32
张雪峰去世事件升级!很多人连夜下单AED,有店铺一天销售100多台

张雪峰去世事件升级!很多人连夜下单AED,有店铺一天销售100多台

火山詩话
2026-03-26 07:32:38
小凯文-波特:为了维护科比,我要打破阿德巴约的83分纪录

小凯文-波特:为了维护科比,我要打破阿德巴约的83分纪录

懂球帝
2026-03-26 18:48:05
突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

健康科普365
2026-03-26 09:57:24
心酸!湖南某乡镇一位小学教师哭诉年收入73150元,评论区炸锅了

心酸!湖南某乡镇一位小学教师哭诉年收入73150元,评论区炸锅了

火山詩话
2026-03-26 09:24:48
正脸曝光!强闯我使馆的村田晃大3月15日刚晋升,所持刀具刃长约18厘米

正脸曝光!强闯我使馆的村田晃大3月15日刚晋升,所持刀具刃长约18厘米

中国网
2026-03-26 14:01:45
伊朗或开辟新战线!伊朗外长:霍尔木兹海峡只对敌人关闭,中国、俄罗斯、巴基斯坦、伊拉克、印度、孟加拉国等国船只都安全通过了

伊朗或开辟新战线!伊朗外长:霍尔木兹海峡只对敌人关闭,中国、俄罗斯、巴基斯坦、伊拉克、印度、孟加拉国等国船只都安全通过了

每日经济新闻
2026-03-26 09:53:07
和富商离婚后,上海知名主持沦为网红,如今8岁儿子成她唯一依靠

和富商离婚后,上海知名主持沦为网红,如今8岁儿子成她唯一依靠

往史过眼云烟
2026-03-25 14:51:15
千万粉丝大V,微博账号被禁止关注

千万粉丝大V,微博账号被禁止关注

第一财经资讯
2026-03-26 12:19:47
2026-03-26 19:39:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66721关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
时尚
亲子
数码
手机

家居要闻

傍海而居 静观蝴蝶海

皮衣+裙,高级到炸

亲子要闻

这就是引导型老师的厉害吗?

数码要闻

1+4核,英特尔酷睿3 304处理器现身基准测试

手机要闻

狂揽307万!红米杀疯了:K90破150万、Turbo 5破百万,性价比赢麻

无障碍浏览 进入关怀版