网易首页 > 网易号 > 正文 申请入驻

174名北大学生对决AI,谁考得更好?

0
分享至

考试现场SUPERChem总览与例题

近日,北京大学化学与分子工程学院联合北大计算中心、计算机学院、元培学院团队,发布了最新成果SUPERChem:他们以一套“北大试卷”为标尺,冷静丈量着AI在科学推理上的真实边界。





一场特殊的期中考

在北京大学化学与分子工程学院,有机化学考试的期中考前,学生们收到突如其来的一条通知:“请注意,本次考试范围不仅限于有机化学。”

除了考试范围的变化,考场里还迎来的一批“特殊考生”:GPT、Gemini、DeepSeek……这些当下世界上最聪明的AI,会在云端与174位北大化学与分子工程学院的大二学生同场竞技

这是一场精心设计的“图灵测试”,也是北大科研团队为大语言模型投下的一块“试金石”。

晶体结构的精细解析、反应机理的深度推演、物化性质的定量计算……打开SUPERChem的题库,这500道题目并非来自网络上随手可得的公开题库,而是源于对高难度试题和前沿专业文献的深度改编。

之所以要费尽周折重新出题,是“因为大模型太会‘背书’了。”团队成员解释道。互联网可及的测试题大多已被博闻强识的AI在训练阶段熟读,但化学是一门不能只靠死记硬背的学科,既有严密的逻辑推演,又充满了对微观世界的空间想象。“我们非常好奇,大语言模型的一维 next token prediction,能否解决二维、甚至三维空间中的复杂推理问题。”

设计一套让AI“没见过”、必须靠硬实力推理的题目,难度极高。为此,北大化院近百名师生——其中不乏奥林匹克金牌得主——集结起来,决定给AI出一套高门槛、重推理、防作弊的试卷。

他们要考的,是AI是否真的“懂”化学。





前沿模型在SUPERChem上的表现前沿模型的正确率与RPF关系输入模态对不同模型的影响推理断点所属化学能力分布

北大学生对决AI

谁考得更好?

在这场精心设计的考试中,人类展现出了复杂的科学直觉。

作为基线,参与测试的北大化院本科生取得了40.3%的平均准确率。这个数字本身,就足以说明这套题目的硬核程度。

而AI的表现如何?

即便是接受测试的顶尖模型,其成绩也仅与低年级本科生的平均水平相当。





让团队感到意外的是视觉信息带来的困惑。化学的语言是图形,分子结构、反应机理图蕴含着关键信息。然而对于部分模型而言,当引入图像信息时,其准确率不升反降。这说明,当前的AI在将视觉信息转化为化学语义时,仍存在明显的感知瓶颈。



然而,即使选对了答案,解题步骤也可能经不起推敲。因此,团队为每一道题目都标注了详细的评分规则。在SUPERChem这台“显微镜”下,AI是真懂还是装懂,一目了然。

团队发现,AI的推理链条往往断裂于产物结构预测、反应机理识别以及构效关系分析等高阶任务。当前的顶尖模型虽然拥有海量的知识储备,但在处理需要严密逻辑和深刻理解的硬核化学问题时,仍显得力不从心。





让AI与人类对决

意义何在?

SUPERChem的诞生,填补了化学领域多模态深度推理评测的空白。

据介绍,团队发布这项成果,并非为了证明AI的短板,而是为了推动它走得更远。SUPERChem就像一个路标。它提醒我们:从通用的聊天机器人,到能够理解构效关系、推演反应机理的专业科学助手,中间还有很长的一段路要走。那是从“记住知识”到“理解物理世界”的跨越。

目前,SUPERChem项目已全面开源。团队希望这套源自北大的“试卷”,能成为全球科学与人工智能领域的公共财富,去催化下一次技术的爆发。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“特朗普盯的还是中国,但人家有招”

“特朗普盯的还是中国,但人家有招”

观察者网
2026-01-08 08:48:30
女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

汉史趣闻
2025-11-08 09:27:32
全球首款可量产全固态电池发布,充电一分钟可续航60公里,已有摩托车采用

全球首款可量产全固态电池发布,充电一分钟可续航60公里,已有摩托车采用

红星资本局
2026-01-06 19:14:11
大洗牌!中国10大机场城市,又变了

大洗牌!中国10大机场城市,又变了

国民经略
2026-01-07 11:44:42
为什么砂糖橘是带着叶子售卖的?背后“猫腻”你现在知道还不晚

为什么砂糖橘是带着叶子售卖的?背后“猫腻”你现在知道还不晚

美食格物
2026-01-08 00:25:09
一夜两消息!朱婷得分王,再次荣膺MVP,王媛媛3拦,助队占先机

一夜两消息!朱婷得分王,再次荣膺MVP,王媛媛3拦,助队占先机

跑者排球视角
2026-01-08 06:41:04
最新安卓手机处理器份额出炉:高通占比超7成 小米玄戒第四

最新安卓手机处理器份额出炉:高通占比超7成 小米玄戒第四

快科技
2026-01-08 08:37:05
香港下雪?网传欧洲模型料“超级寒潮”月中袭港,最低跌至1°C,香港天文台回应

香港下雪?网传欧洲模型料“超级寒潮”月中袭港,最低跌至1°C,香港天文台回应

星岛记事
2026-01-07 22:16:11
王石的体面,被田朴珺扯得干干净净

王石的体面,被田朴珺扯得干干净净

言叔财经视角
2026-01-05 13:50:10
119-109!这就是库里的影响力,没有他的勇士就是联盟最差

119-109!这就是库里的影响力,没有他的勇士就是联盟最差

奕辰说球
2026-01-07 14:53:01
最公平的保级判官?曼联三连平送给英超倒数三名一人一分

最公平的保级判官?曼联三连平送给英超倒数三名一人一分

懂球帝
2026-01-08 08:27:08
杭州市人民政府关于孙超等同志职务任免的通知

杭州市人民政府关于孙超等同志职务任免的通知

都市快报橙柿互动
2026-01-06 22:29:49
太给力了!郴州一工厂员工聚餐抽奖,奖金168000元,设1143个名额

太给力了!郴州一工厂员工聚餐抽奖,奖金168000元,设1143个名额

火山詩话
2026-01-07 11:06:32
魏建军宣布长城新平台命名归元:“驴火”第四名遗憾败北

魏建军宣布长城新平台命名归元:“驴火”第四名遗憾败北

快科技
2026-01-06 20:33:04
郑丽文口气真大!大陆不安排见高层就不来?国台办回应很明确!

郑丽文口气真大!大陆不安排见高层就不来?国台办回应很明确!

奇思妙想生活家
2026-01-07 13:36:01
天空体育:曼联大胜进前四,阿森纳小胜利物浦,切尔西三连平

天空体育:曼联大胜进前四,阿森纳小胜利物浦,切尔西三连平

嗨皮看球
2026-01-07 14:56:53
深蹲,一个让人又爱又恨的动作!为什么推荐你多做深蹲?

深蹲,一个让人又爱又恨的动作!为什么推荐你多做深蹲?

增肌减脂
2025-10-25 16:58:44
突然,特朗普下令:扣押俄罗斯油轮!美国“将无限期控制委内瑞拉石油销售”!银价,暴跌

突然,特朗普下令:扣押俄罗斯油轮!美国“将无限期控制委内瑞拉石油销售”!银价,暴跌

金融界
2026-01-08 08:07:18
调岗调到舒服岗位是什么体验?网友:这简直是世外桃源

调岗调到舒服岗位是什么体验?网友:这简直是世外桃源

另子维爱读史
2025-12-26 16:14:37
后院彻底起火!丹麦不玩了:美国若敢动格陵兰,北约就地解散!

后院彻底起火!丹麦不玩了:美国若敢动格陵兰,北约就地解散!

防务观察室
2026-01-06 14:42:25
2026-01-08 09:24:49
深度报
深度报
一介草民,不平则鸣。
3429文章数 5172关注度
往期回顾 全部

教育要闻

2025赴美留学人数突破115万,国际学生最青睐的大学名单公布!

头条要闻

牛弹琴:美国又干了件石破天惊的事 俄罗斯遭沉重打击

头条要闻

牛弹琴:美国又干了件石破天惊的事 俄罗斯遭沉重打击

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

《马背摇篮》首播,革命的乐观主义故事

财经要闻

农大教授科普:无需过度担忧蔬菜农残

科技要闻

雷军:现在听到营销这两个字都有点恶心

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

艺术
本地
数码
健康
公开课

艺术要闻

书法巨匠的七重门:人品与创新的深度探讨

本地新闻

“闽东利剑·惠民安商”高效执行专项行动

数码要闻

雷神MIX G2独显游戏迷你主机亮相:行业首款Ultra 9 275HX + RTX 5090

这些新疗法,让化疗不再那么痛苦

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版