网易首页 > 网易号 > 正文 申请入驻

OpenAI测试暴露AI研究短板:奥赛金牌与科研实力差距

0
分享至



哈喽,大家好,小圆最近刷到OpenAI刚发布的一个科研基准测试,瞬间觉得对AI的认知更清醒了,这两年AI在国际数学、信息学奥赛里拿金牌跟开了挂似的,可新出炉的FrontierScience基准一测才发现,这位顶级做题家在真实科研场景里,连及格线都没摸到。

这波测试算是把AI的遮羞布扯得明明白白:奥赛金牌的光环再亮,也不等于能成为一流科学家,今天咱们就好好聊聊这个戳破行业幻想的基准,看看AI到底差在哪儿。





其实是旧的尺子不够用了,2023年有个叫GPQA的科学题库很火,全是博士级别的难题,强调谷歌搜不到答案,当时GPT-4只考了39分,远低于专家的74分基线,可才过两年,GPT-5.2在这个题库里直接考到92分,旧题库被彻底刷穿。



更关键的是,OpenAI早就想清楚了:科学研究根本不是“做题”那套逻辑,科研是持续试错的过程,要自己提假设、设计实验验证、被推翻了再重来,还得把不同领域的线索串成完整逻辑链,之前的测试只考知识点和解题技巧,根本没触及科研的核心。



FrontierScience的设计思路很明确:不搞虚的,直接把AI丢进两种最真实的科学难关里,一套是竞赛风格的题目,考的是在明确约束下把推理做扎实;另一套是科研现场风格的题目,没有标准答案,只看思路能不能走通、逻辑够不够自洽。



最有意思的是OpenAI的私心,为了避免自家模型靠训练数据作弊,他们在出题时特意把内部模型已经能答对的题全筛掉了,等于给自己的模型加了难度buff,同时还开源了黄金组题目,剩下的题目留着追踪数据污染,这套操作算是把公平做到了极致。





OpenAI公布的初测成绩,把“奥赛金牌≠科学家”的反差拉得明明白白,参与测试的GPT-5.2、Claude Opus 4.5、Gemini 3 Pro等顶尖模型,在竞赛题上表现都不差:GPT-5.2拿了77%的得分,Gemini 3 Pro以76%紧随其后,算是保住了“奥赛金牌”的颜面。

可一到研究题,全体翻车,GPT-5.2作为领头羊,得分也才25%,连及格线都没摸到,其他模型更不用提了,更值得琢磨的是AI的翻车原因,OpenAI总结了几点:要么是推理过程中逻辑断链、计算出错;要么是碰到冷门专业概念就卡壳。



还有些时候会犯低级的事实性错误,最朴素的一个发现更扎心:模型花的思考时间越久,准确率才越高,这跟人类科学家灵光一现的创新思维完全不是一回事,其实这也不难理解,小圆打个比方,奥赛题就像精心设计的迷宫,再难也有固定出口。

AI靠强大的推理和刷题积累,总能找到路径;可真实科研是在一片荒野里开路,没有地图、没有标准答案,得自己判断方向、甚至创造新工具,AI现在的本事,还停留在走迷宫的阶段,离开荒野差得远。



OpenAI说接下来要迭代题库、扩展领域,还要做真实世界评估,看AI到底能帮科学家多做成事,这才是关键,AI不用非要成为科学家,能成为“科学家的最佳搭档”,就已经能给科研带来巨大突破了。



声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
高峰也没想到,他当年抛弃的儿子,如今开始给那英争光了

高峰也没想到,他当年抛弃的儿子,如今开始给那英争光了

趣文说娱
2026-01-04 16:34:24
央视坐实!成本2元售价19800元!不少人受骗,赶紧别用了

央视坐实!成本2元售价19800元!不少人受骗,赶紧别用了

白色得季节
2026-01-27 21:30:49
最后46秒落后2分,暂停布置直接24秒违例,鱼腩6连败剑指垫底

最后46秒落后2分,暂停布置直接24秒违例,鱼腩6连败剑指垫底

体坛小李
2026-01-28 13:41:10
总有人纳闷,王健林就算只剩100亿,为啥王思聪花钱还是那么大方

总有人纳闷,王健林就算只剩100亿,为啥王思聪花钱还是那么大方

小光侃娱乐
2025-12-10 22:10:04
去了北京才发现:没人穿大衣、皮草,满大街都是“海淀风3件套”

去了北京才发现:没人穿大衣、皮草,满大街都是“海淀风3件套”

小虎新车推荐员
2026-01-13 11:24:22
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
郑丽文好猛,送高市早苗一记重拳!大陆决定:给国民党一个大面子

郑丽文好猛,送高市早苗一记重拳!大陆决定:给国民党一个大面子

老搽学科普
2026-01-28 12:40:29
11年恩爱抵不过残酷现实,32岁昆凌青春正盛,奔50周杰伦年老力衰

11年恩爱抵不过残酷现实,32岁昆凌青春正盛,奔50周杰伦年老力衰

林雁飞
2026-01-21 19:36:28
彪马半年亏损2.5亿欧元,为何安踏仍斥资123亿入手?

彪马半年亏损2.5亿欧元,为何安踏仍斥资123亿入手?

剁椒Spicy
2026-01-27 23:34:10
明确规定来了!机关事业单位职工下班后打牌打麻将,算违纪吗?

明确规定来了!机关事业单位职工下班后打牌打麻将,算违纪吗?

阿纂看事
2026-01-24 09:56:48
雷军无奈宣布:全部下架!

雷军无奈宣布:全部下架!

电动知家
2026-01-25 15:31:25
日本该归还了!中国通告全球,靖国神社前的石狮掠自中国三学寺!

日本该归还了!中国通告全球,靖国神社前的石狮掠自中国三学寺!

云舟史策
2026-01-27 23:58:37
陈毅之子陈丹淮求学时遇同学攀比家世,被问及父亲情况,他回应:我父亲只是个处长

陈毅之子陈丹淮求学时遇同学攀比家世,被问及父亲情况,他回应:我父亲只是个处长

文史明鉴
2026-01-26 18:00:13
HBO斥巨资打造,把美剧拍出了新高度

HBO斥巨资打造,把美剧拍出了新高度

来看美剧
2026-01-27 20:21:56
距冬窗关闭仅剩5天!英超一夜官宣3笔交易 维拉成买人大户

距冬窗关闭仅剩5天!英超一夜官宣3笔交易 维拉成买人大户

球事百科吖
2026-01-28 06:07:57
比亚迪大唐曝光:云辇配闪充,冲击30万市场

比亚迪大唐曝光:云辇配闪充,冲击30万市场

驾仕派
2026-01-28 13:41:59
老人带孩子,把用过的纸尿裤直接晒干后给仅两周多的孙女再次使用,邻居多次提醒,老人:没事,买太多钱受不了

老人带孩子,把用过的纸尿裤直接晒干后给仅两周多的孙女再次使用,邻居多次提醒,老人:没事,买太多钱受不了

环球网资讯
2026-01-27 21:32:02
官宣分手?陈幸同发声,做最好选择,分手原因找到,周启豪看懂

官宣分手?陈幸同发声,做最好选择,分手原因找到,周启豪看懂

懂球社
2026-01-27 12:08:33
突然发现孩子真的很平庸,难以接受怎么办?网友分享引起万千共鸣

突然发现孩子真的很平庸,难以接受怎么办?网友分享引起万千共鸣

另子维爱读史
2026-01-27 20:48:17
这种打扮把微胖女生的身材优势完美展现出来了

这种打扮把微胖女生的身材优势完美展现出来了

美女穿搭分享
2026-01-26 17:52:02
2026-01-28 14:28:49
天仙无味小仙女
天仙无味小仙女
天仙无味小仙女
246文章数 51关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

高市早苗拉票时哭了:这三个月我咬紧牙关、全力以赴

头条要闻

高市早苗拉票时哭了:这三个月我咬紧牙关、全力以赴

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

王祖贤入驻某音:一条7秒视频吸粉55万

财经要闻

40倍杠杆断裂!水贝一黄金平台兑付困难

汽车要闻

中国豪华车老大之争:奥迪凭啥干掉奔驰宝马?

态度原创

本地
亲子
家居
房产
公开课

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

亲子要闻

液体钙哪个牌子好?十款权威认证儿童液体钙品牌,归一食口碑推荐

家居要闻

跃式别墅 包络石木为生

房产要闻

实景兑现在即!绿城,在海棠湾重新定义终极旅居想象!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版