网易首页 > 网易号 > 正文 申请入驻

174名北大学生对决AI,谁考得更好?

0
分享至

考试现场SUPERChem总览与例题

近日,北京大学化学与分子工程学院联合北大计算中心、计算机学院、元培学院团队,发布了最新成果SUPERChem:他们以一套“北大试卷”为标尺,冷静丈量着AI在科学推理上的真实边界。





一场特殊的期中考

在北京大学化学与分子工程学院,有机化学考试的期中考前,学生们收到突如其来的一条通知:“请注意,本次考试范围不仅限于有机化学。”

除了考试范围的变化,考场里还迎来的一批“特殊考生”:GPT、Gemini、DeepSeek……这些当下世界上最聪明的AI,会在云端与174位北大化学与分子工程学院的大二学生同场竞技

这是一场精心设计的“图灵测试”,也是北大科研团队为大语言模型投下的一块“试金石”。

晶体结构的精细解析、反应机理的深度推演、物化性质的定量计算……打开SUPERChem的题库,这500道题目并非来自网络上随手可得的公开题库,而是源于对高难度试题和前沿专业文献的深度改编。

之所以要费尽周折重新出题,是“因为大模型太会‘背书’了。”团队成员解释道。互联网可及的测试题大多已被博闻强识的AI在训练阶段熟读,但化学是一门不能只靠死记硬背的学科,既有严密的逻辑推演,又充满了对微观世界的空间想象。“我们非常好奇,大语言模型的一维 next token prediction,能否解决二维、甚至三维空间中的复杂推理问题。”

设计一套让AI“没见过”、必须靠硬实力推理的题目,难度极高。为此,北大化院近百名师生——其中不乏奥林匹克金牌得主——集结起来,决定给AI出一套高门槛、重推理、防作弊的试卷。

他们要考的,是AI是否真的“懂”化学。





前沿模型在SUPERChem上的表现前沿模型的正确率与RPF关系输入模态对不同模型的影响推理断点所属化学能力分布

北大学生对决AI

谁考得更好?

在这场精心设计的考试中,人类展现出了复杂的科学直觉。

作为基线,参与测试的北大化院本科生取得了40.3%的平均准确率。这个数字本身,就足以说明这套题目的硬核程度。

而AI的表现如何?

即便是接受测试的顶尖模型,其成绩也仅与低年级本科生的平均水平相当。





让团队感到意外的是视觉信息带来的困惑。化学的语言是图形,分子结构、反应机理图蕴含着关键信息。然而对于部分模型而言,当引入图像信息时,其准确率不升反降。这说明,当前的AI在将视觉信息转化为化学语义时,仍存在明显的感知瓶颈。



然而,即使选对了答案,解题步骤也可能经不起推敲。因此,团队为每一道题目都标注了详细的评分规则。在SUPERChem这台“显微镜”下,AI是真懂还是装懂,一目了然。

团队发现,AI的推理链条往往断裂于产物结构预测、反应机理识别以及构效关系分析等高阶任务。当前的顶尖模型虽然拥有海量的知识储备,但在处理需要严密逻辑和深刻理解的硬核化学问题时,仍显得力不从心。





让AI与人类对决

意义何在?

SUPERChem的诞生,填补了化学领域多模态深度推理评测的空白。

据介绍,团队发布这项成果,并非为了证明AI的短板,而是为了推动它走得更远。SUPERChem就像一个路标。它提醒我们:从通用的聊天机器人,到能够理解构效关系、推演反应机理的专业科学助手,中间还有很长的一段路要走。那是从“记住知识”到“理解物理世界”的跨越。

目前,SUPERChem项目已全面开源。团队希望这套源自北大的“试卷”,能成为全球科学与人工智能领域的公共财富,去催化下一次技术的爆发。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗用血泪换来的教训:一旦中美开战,中国必须首先锁定这一点

伊朗用血泪换来的教训:一旦中美开战,中国必须首先锁定这一点

泠泠说史
2026-04-13 19:36:33
0-3!输球不可怕,可怕的是赛后切尔西主帅这番话,脸都不要了!

0-3!输球不可怕,可怕的是赛后切尔西主帅这番话,脸都不要了!

田先生篮球
2026-04-13 12:12:38
A股算力龙头业绩集体爆发,净利最高猛增1072%

A股算力龙头业绩集体爆发,净利最高猛增1072%

21世纪经济报道
2026-04-13 23:37:27
CBA一夜过后,季后赛12强基本出炉!广东+深圳+北京竞争直通八强

CBA一夜过后,季后赛12强基本出炉!广东+深圳+北京竞争直通八强

侃球熊弟
2026-04-14 00:04:21
活塞60胜白拿了?球员匿名投票8.2%押绿军,仅4.1%信底特律

活塞60胜白拿了?球员匿名投票8.2%押绿军,仅4.1%信底特律

篮坛第一线
2026-04-14 08:09:53
中岛裕翔32岁闪婚:合作3部戏后,把女主娶回家了

中岛裕翔32岁闪婚:合作3部戏后,把女主娶回家了

热搜摘要官
2026-04-12 08:08:00
死不悔改?国家出手后,又一名人侮辱全红婵,劣行被扒一言难尽

死不悔改?国家出手后,又一名人侮辱全红婵,劣行被扒一言难尽

两只米老鼠
2026-04-14 06:58:48
河南恶魔富豪吴天喜,以资助之名接近女学生,禽兽真的存在

河南恶魔富豪吴天喜,以资助之名接近女学生,禽兽真的存在

星河逍遥游
2025-01-23 17:26:55
美绕月飞船故障不断,宇航员讲述太空感受:只想尽快回家

美绕月飞船故障不断,宇航员讲述太空感受:只想尽快回家

红星新闻
2026-04-13 16:59:34
善恶有报,移居英国仅2年,57岁吴秀波再迎噩耗,步入李易峰后尘

善恶有报,移居英国仅2年,57岁吴秀波再迎噩耗,步入李易峰后尘

有范又有料
2025-12-17 14:54:06
曾志伟72岁寿宴这天,邱淑贞脸干瘪,叶子楣身材傲人,张耀扬壮硕

曾志伟72岁寿宴这天,邱淑贞脸干瘪,叶子楣身材傲人,张耀扬壮硕

洲洲影视娱评
2026-04-13 18:39:12
《八千里路云和月》演员评分出炉:王阳9.0分排第3,黄澄澄仅第4

《八千里路云和月》演员评分出炉:王阳9.0分排第3,黄澄澄仅第4

青橘罐头
2026-04-13 19:38:10
成都“牵手门”事件女主现今状况曝光,太惨了......

成都“牵手门”事件女主现今状况曝光,太惨了......

许三岁
2026-03-17 07:34:05
全网怒喷!梦龙芭蕾舞鞋广告物化女性搞擦边,网友:再也不买

全网怒喷!梦龙芭蕾舞鞋广告物化女性搞擦边,网友:再也不买

雷科技
2026-04-13 12:27:55
四川饲料大王首富变“首负”:欠了近千亿,一年光利息就要18亿

四川饲料大王首富变“首负”:欠了近千亿,一年光利息就要18亿

梦回千年aa
2026-04-12 05:53:20
有意思了,库里谈附加赛如何限制莱昂纳德,勇士队力争淘汰快船队

有意思了,库里谈附加赛如何限制莱昂纳德,勇士队力争淘汰快船队

好火子
2026-04-14 06:08:39
政变只是一个开始,伊朗要变天了,中国最担心的事情,恐将发生

政变只是一个开始,伊朗要变天了,中国最担心的事情,恐将发生

阿坹武器装备科普
2026-04-11 18:32:07
闲鱼变相上调鱼小铺卖家佣金,一家独大的“收割”时刻到了?

闲鱼变相上调鱼小铺卖家佣金,一家独大的“收割”时刻到了?

钛媒体APP
2026-04-13 14:53:09
郑丽文女保镖为什么总是会看到她做出一个托衣角的小动作?

郑丽文女保镖为什么总是会看到她做出一个托衣角的小动作?

南万说娱26
2026-04-13 09:56:24
中纪委连打三虎

中纪委连打三虎

扬子晚报
2026-04-13 11:12:18
2026-04-14 08:32:49
深度报
深度报
一介草民,不平则鸣。
4620文章数 6356关注度
往期回顾 全部

教育要闻

“不让孩子玩手机,就这下场”,中学女孩跳舞视频火了,看清现实

头条要闻

特朗普:美军开始"封锁"伊朗 不允许其敲诈勒索全世界

头条要闻

特朗普:美军开始"封锁"伊朗 不允许其敲诈勒索全世界

体育要闻

一支球队不够烂,也是一种悲哀

娱乐要闻

初代“跑男团”合体,邓超、鹿晗缺席

财经要闻

谈判未完全关闭?3国力促美伊重启谈判

科技要闻

"抄作业"近四年,马斯克版微信周五上线

汽车要闻

不止命名更纯粹 领克10/10+要做纯电操控新王

态度原创

时尚
艺术
游戏
数码
公开课

今年春夏一定要拥有的4条裙子,这样穿减龄又好看!

艺术要闻

郑丽文来啦!揭露蒋经国和宋美龄鲜为人知的秘密!

魔兽世界:时光服上线金币回收机制,黑心商失效,金币变化不大

数码要闻

需求火爆 苹果将首代MacBook Neo产量提升至1000万台

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版