网易首页 > 网易号 > 正文 申请入驻

174名北大学生对决AI,谁考得更好?

0
分享至

近日,北京大学化学与分子工程学院联合北大计算中心、计算机学院、元培学院团队,发布了最新成果SUPERChem:他们以一套“北大试卷”为标尺,冷静丈量着AI在科学推理上的真实边界。


考试现场


一场特殊的期中考

在北京大学化学与分子工程学院,有机化学考试的期中考前,学生们收到突如其来的一条通知:“请注意,本次考试范围不仅限于有机化学。”

除了考试范围的变化,考场里还迎来的一批“特殊考生”:GPT、Gemini、DeepSeek……这些当下世界上最聪明的AI,会在云端与174位北大化学与分子工程学院的大二学生同场竞技

这是一场精心设计的“图灵测试”,也是北大科研团队为大语言模型投下的一块“试金石”。

晶体结构的精细解析、反应机理的深度推演、物化性质的定量计算……打开SUPERChem的题库,这500道题目并非来自网络上随手可得的公开题库,而是源于对高难度试题和前沿专业文献的深度改编。

之所以要费尽周折重新出题,是“因为大模型太会‘背书’了。”团队成员解释道。互联网可及的测试题大多已被博闻强识的AI在训练阶段熟读,但化学是一门不能只靠死记硬背的学科,既有严密的逻辑推演,又充满了对微观世界的空间想象。“我们非常好奇,大语言模型的一维 next token prediction,能否解决二维、甚至三维空间中的复杂推理问题。”

设计一套让AI“没见过”、必须靠硬实力推理的题目,难度极高。为此,北大化院近百名师生——其中不乏奥林匹克金牌得主——集结起来,决定给AI出一套高门槛、重推理、防作弊的试卷。

他们要考的,是AI是否真的“懂”化学。


SUPERChem总览与例题


北大学生对决AI

谁考得更好?

在这场精心设计的考试中,人类展现出了复杂的科学直觉。

作为基线,参与测试的北大化院本科生取得了40.3%的平均准确率。这个数字本身,就足以说明这套题目的硬核程度。

而AI的表现如何?

即便是接受测试的顶尖模型,其成绩也仅与低年级本科生的平均水平相当。


前沿模型在SUPERChem上的表现


前沿模型的正确率与RPF关系

让团队感到意外的是视觉信息带来的困惑。化学的语言是图形,分子结构、反应机理图蕴含着关键信息。然而对于部分模型而言,当引入图像信息时,其准确率不升反降。这说明,当前的AI在将视觉信息转化为化学语义时,仍存在明显的感知瓶颈。


输入模态对不同模型的影响

然而,即使选对了答案,解题步骤也可能经不起推敲。因此,团队为每一道题目都标注了详细的评分规则。在SUPERChem这台“显微镜”下,AI是真懂还是装懂,一目了然。

团队发现,AI的推理链条往往断裂于产物结构预测、反应机理识别以及构效关系分析等高阶任务。当前的顶尖模型虽然拥有海量的知识储备,但在处理需要严密逻辑和深刻理解的硬核化学问题时,仍显得力不从心。


推理断点所属化学能力分布


让AI与人类对决

意义何在?

SUPERChem的诞生,填补了化学领域多模态深度推理评测的空白。

据介绍,团队发布这项成果,并非为了证明AI的短板,而是为了推动它走得更远。SUPERChem就像一个路标。它提醒我们:从通用的聊天机器人,到能够理解构效关系、推演反应机理的专业科学助手,中间还有很长的一段路要走。那是从“记住知识”到“理解物理世界”的跨越。

目前,SUPERChem项目已全面开源。团队希望这套源自北大的“试卷”,能成为全球科学与人工智能领域的公共财富,去催化下一次技术的爆发。

来源 : 央视网综合北京大学

新媒体编辑:常畅

如需交流可联系我们

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
带走1200万欧!阿莫林获赔剩余所有薪水 14个月共消耗曼联3200万

带走1200万欧!阿莫林获赔剩余所有薪水 14个月共消耗曼联3200万

风过乡
2026-01-05 18:46:52
火箭给4年1亿遭拒!12+5要顶薪,首发打20场18胜,谢泼德替补不冤

火箭给4年1亿遭拒!12+5要顶薪,首发打20场18胜,谢泼德替补不冤

你的篮球频道
2026-01-06 06:51:04
美国发动对委内瑞拉战争之前,可能已与俄罗斯和中国达成默契

美国发动对委内瑞拉战争之前,可能已与俄罗斯和中国达成默契

碳基生物关怀组织
2026-01-03 23:30:35
联合国预警:中国生育率全球倒数第二!从14亿到6亿人,只要80年

联合国预警:中国生育率全球倒数第二!从14亿到6亿人,只要80年

远方风林
2026-01-06 06:00:10
哈尔滨零下20℃外国游客光腿穿短裤,耐寒能力惊人

哈尔滨零下20℃外国游客光腿穿短裤,耐寒能力惊人

东方豪侠
2026-01-05 18:18:54
NBA官宣周最佳:阿夫迪亚首获殊荣马克西当选 杜兰特库里等获提名

NBA官宣周最佳:阿夫迪亚首获殊荣马克西当选 杜兰特库里等获提名

罗说NBA
2026-01-06 05:36:18
胡梅元被任命为黄山市人民政府副市长

胡梅元被任命为黄山市人民政府副市长

中安在线
2026-01-06 10:15:02
山姆一夜崩盘,3亿中产天塌了!

山姆一夜崩盘,3亿中产天塌了!

广告案例精选
2026-01-05 20:03:11
中东国家都意识到了,就算中国高端武器再多,也没办法保护他们!

中东国家都意识到了,就算中国高端武器再多,也没办法保护他们!

近史博览
2026-01-05 20:40:01
世纪大和解!曝成龙向女儿抛橄榄枝,吴卓林回应,已回香港创业!

世纪大和解!曝成龙向女儿抛橄榄枝,吴卓林回应,已回香港创业!

来条娱吃
2026-01-05 22:06:14
海清47岁素颜包饺子,厨房大得像影棚,儿子17岁,老公身份曝光

海清47岁素颜包饺子,厨房大得像影棚,儿子17岁,老公身份曝光

小椰的奶奶
2026-01-05 16:25:26
不断挑战底线,凉凉不可避免!香港一步步失去了内地游客的市场!

不断挑战底线,凉凉不可避免!香港一步步失去了内地游客的市场!

诗意世界
2026-01-05 08:00:03
失业的人越来越多了!

失业的人越来越多了!

黯泉
2026-01-05 21:56:19
河南平顶山一老人报警称楼上邻居制毒,大批警察“全副武装”上门,结果一查:有精神病

河南平顶山一老人报警称楼上邻居制毒,大批警察“全副武装”上门,结果一查:有精神病

潇湘晨报
2026-01-05 15:33:10
不讲逻辑已经成为中国人文社会科学第一大危害和威胁

不讲逻辑已经成为中国人文社会科学第一大危害和威胁

深度报
2026-01-03 22:31:43
后续!司晓迪删内容:唯独留下一条,再次更新账号,惊曝奇怪排名

后续!司晓迪删内容:唯独留下一条,再次更新账号,惊曝奇怪排名

李健政观察
2026-01-03 16:57:41
古人指出北平建都有巨大弊端,毛主席也犹豫,一高人帮他下定决心

古人指出北平建都有巨大弊端,毛主席也犹豫,一高人帮他下定决心

鹤羽说个事
2026-01-03 11:17:57
委内瑞拉全国变天,美政府接盘,王毅告知各国,中方甩出一纸宪章

委内瑞拉全国变天,美政府接盘,王毅告知各国,中方甩出一纸宪章

云鹏叙事
2026-01-05 16:23:15
小米雷军谈“丢轮保车”:原以为沃尔沃最早,实则是奔驰

小米雷军谈“丢轮保车”:原以为沃尔沃最早,实则是奔驰

IT之家
2026-01-05 15:33:14
特朗普撤销拨款 美国公共广播公司解散

特朗普撤销拨款 美国公共广播公司解散

财联社
2026-01-06 10:08:04
2026-01-06 10:47:00
中国社会科学网 incentive-icons
中国社会科学网
中国社会科学院官方网站
18828文章数 25583关注度
往期回顾 全部

教育要闻

一根戒尺引发的教育漩涡:孩子与老师的双重困境

头条要闻

马杜罗在出庭期间在纸上做笔记 对旁听席说"新年快乐"

头条要闻

马杜罗在出庭期间在纸上做笔记 对旁听席说"新年快乐"

体育要闻

从NBA最菜首发控卫,到NBA最强乔治

娱乐要闻

《探索新境2》王一博挑战酋长岩

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

科技要闻

性能涨5倍!黄仁勋CES秀肌肉 下代芯片来了

汽车要闻

马斯克评英伟达纯视觉自动驾驶系统Alpamayo

态度原创

本地
房产
数码
健康
公开课

本地新闻

云游内蒙|初见呼和浩特,古今交融的北疆都会

房产要闻

再次登顶海南楼市!超越阿那亚的,只有阿那亚!

数码要闻

小米REDMI蓝牙音箱2“暮焰黑”配色开售,99元

这些新疗法,让化疗不再那么痛苦

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版