网易首页 > 网易号 > 正文 申请入驻

顶尖AI挑战北大化院174名顶尖学子,有机化学考场谁更胜一筹?

0
分享至

欢迎报名掼蛋友谊赛暨产学研对接交流会

导读

近日,北京大学化学与分子工程学院进行了一场特殊的有机化学期中考试,174位北大化院的大二学生与GPT、Gemini、DeepSeek这些顶尖AI同场竞技,那究竟谁更胜一筹呢?


考试现场

近日,北京大学化学与分子工程学院联合计算中心、计算机学院、元培学院团队,发布了最新成果化学大模型基准SUPERChem。该基准针对当前化学知识水平评测中题目难度有限、多模态与推理过程评估缺失等不足,系统构建了专注评估大语言模型(LLM)化学推理分析能力的新体系,旨在推动化学智能评测的深入发展。而这场特殊的期中考试,是北大科研团队为大语言模型投下的一块“试金石”,来丈量AI在科学推理上的真实边界。

打开SUPERChem的题库,一种“压迫感”扑面而来。晶体结构的精细解析、反应机理的深度推演、物化性质的定量计算……这500道题目并非来自网络上随手可得的公开题库,而是源于对高难度试题和前沿专业文献的深度改编。

互联网可及的测试题大多已被博闻强识的AI在训练阶段熟读,考出的高分往往掩盖了其推理能力的苍白。而化学,恰恰是一门不能只靠死记硬背的学科。它既有严密的逻辑推演,又充满了对微观世界的空间想象。要设计一套让AI“没见过”、必须靠硬实力推理的题目,难度极高。然而,这正是北大化院的独特优势所在。近百名师生——其中不乏奥林匹克金牌得主——集结起来,决定给AI出一套高门槛、重推理、防作弊的试卷。

他们要考的,是AI是否真的“懂”化学。


SUPERChem总览与例题

为了构建这套高质量评估集,团队搭建了一个专属协作平台。在这里,出题、审题、修题从单调的任务,变成了一套循序渐进的“通关”流程。成员们在平台上协作,互相审阅、彼此“找茬”,让严谨的科学探讨与活跃的思维碰撞交织共融。团队还引入了积分激励系统,让出题过程就像在游戏中打怪升级。一道题目需历经编写初稿、撰写解析,再通过初审与终审的严格审核,每个环节均由不同的同学把关,并发放相应的积分。终审通过的题目,甚至最多迭代过15个版本。


SUPERChem题库的三阶段审核流程

考试成绩揭晓。在这场精心设计的考试中,人类展现出了复杂的科学直觉。作为基线,参与测试的北大化院本科生取得了40.3%的平均准确率。这个数字本身,就足以说明这套题目的硬核程度。

而AI的表现如何?即便是接受测试的顶尖模型,其成绩也仅与低年级本科生的平均水平相当


前沿模型在SUPERChem上的表现


前沿模型的正确率与RPF关系

让团队感到意外的是视觉信息带来的困惑。化学的语言是图形,分子结构、反应机理图蕴含着关键信息。然而对于部分模型而言,当引入图像信息时,其准确率不升反降。这说明,当前的AI在将视觉信息转化为化学语义时,仍存在明显的感知瓶颈


输入模态对不同模型的影响

团队发现,AI的推理链条往往断裂于产物结构预测、反应机理识别以及构效关系分析等高阶任务。当前的顶尖模型虽然拥有海量的知识储备,但在处理需要严密逻辑和深刻理解的硬核化学问题时,仍显得力不从心。


推理断点所属化学能力分布

SUPERChem的诞生,填补了化学领域多模态深度推理评测的空白。

团队发布这项成果,并非为了证明AI的短板,而是为了推动它走得更远。SUPERChem就像一个路标。它提醒我们:从通用的聊天机器人,到能够理解构效关系、推演反应机理的专业科学助手,中间还有很长的一段路要走。那是从“记住知识”到“理解物理世界”的跨越。

目前,SUPERChem项目已全面开源。团队希望这套源自北大的“试卷”,能成为全球科学与人工智能领域的公共财富,去催化下一次技术的爆发。或许在不久的将来,当我们再次打开这张试卷时,AI能交出一份满分的答卷。那将是化学与人工智能共同的惊喜。


SUPERChem平台界面

更多介绍:

——背景——

2025年,随着开源推理模型DeepSeek-R1推出,LLM在“深度思考”范式下快速发展,其在自然科学领域的应用已从简单问答转向复杂推理。然而,现有通用科学基准趋于饱和,化学专用基准多关注基础能力与化学信息学任务,缺乏对深度推理的系统考察。

从基础教育、化学奥林匹克竞赛到高等教育,化学学习强调知识综合运用与多步推理,是评估推理能力的理想场景。设计高质量评估题目需融合抽象概念与具体情境,构建层层递进的推理链,对出题者专业素养要求极高。

研究团队依托北京大学化学学院水平顶尖的本科生和研究生群体,充分发挥其扎实学科功底与丰富解题命题经验,对已有题目素材进行准确评估与合理优化,共同构建了SUPERChem基准,填补了化学深度推理评估的空白。


图1.SUPERChem总览与例题。

——数据构建——


图2.SUPERChem题库的三阶段审核流程。

SUPERChem题库由北大化学专业近百名师生共建,涵盖题目编写、解析撰写及严格的三阶段审核。题目源自非公开试题与专业文献改编,并采用防泄漏设计,避免LLM依赖记忆或从选项逆推。针对化学信息的多模态特点,同步提供图文交错与纯文本版本的对齐数据集,支持探究视觉信息对推理的影响。

目前,SUPERChem先期发布500道专家级精选题目,覆盖结构与性质、化学反应与合成、化学原理与计算、实验设计与分析四大化学核心领域。为细粒度评估LLM思考过程,SUPERChem引入推理路径一致性(Reasoning Path Fidelity,RPF)指标:团队为每道题目撰写了含关键检查点的详细解析,通过自动化评估模型思维链与解析的一致性,判别模型是否真正“理解”化学。

——评测结果——

1.前沿模型接近低年级本科生水平,不同模型推理一致性存在差异

表1:前沿模型在SUPERChem上的表现。


评测显示,SUPERChem具有较高难度与区分度。在北京大学化学专业低年级本科生闭卷测试中,人类准确率为40.3%。参与评测的前沿模型中,表现最佳的GPT-5 (High)准确率为38.5%,表明其化学推理能力仅与化学专业低年级本科生水平相当,尚未超越人类基础专业认知。


图3. 前沿模型的正确率与RPF关系。

分析RPF指标可见,不同模型推理过程质量差异明显:Gemini-2.5-Pro和GPT-5 (High)在取得较高准确率的同时,其推理逻辑也更符合专家路径;而DeepSeek-V3.1-Thinking虽然准确率相近,但RPF得分相对较低,反映其更倾向通过启发式路径得出结论。

2.多模态信息双刃剑效应


图4:输入模态对不同模型的影响。

在依赖多模态输入的题目中,视觉信息对不同模型影响各异:对Gemini-2.5-Pro等强推理模型,图像输入可提升准确率;对GPT-4o等推理能力较弱的模型,图像信息反而造成干扰。这提示在科学任务中需根据模型能力匹配合适的输入模态。

3.推理断点分析:模型倒在了哪一步?

为进一步探究LLM推理失败的深层原因,研究团队进行了推理断点分析。结果表明,前沿模型的推理断点集中于产物结构预测、反应机理识别、构效关系分析等高阶化学推理环节。这反映出当前LLM在涉及反应性与分子结构理解的核心任务上仍存在短板。


图5. 推理断点所属化学能力分布。

——总结——

综上所述,SUPERChem为系统评估大语言模型的化学推理能力提供了细致、可靠的基准。评测结果指出,当前前沿模型的化学能力仍处于基础水平,在涉及高阶化学推理能力的任务上存在明显局限,为后续模型的针对性优化提供了明确方向。

——团队介绍——

SUPERChem项目由北京大学化学与分子工程学院与元培学院的赵泽华、黄志贤、李隽仁、林思宇同学领衔完成。近百位化学学院博士生与高年级本科生参与题库构建与审核,其中包括多位国际与中国化学奥林匹克决赛获奖选手。174位北京大学化学专业低年级本科生参与了人类基线测试。

SUPERChem项目在北京大学化学与分子工程学院裴坚、高珍老师,计算中心马皓老师, 计算机学院杨仝老师的指导下开展。项目 获 得 北京大学计算中心与高性能计算平台 资源 支持 ,来自 Chemy 、好未来、质心教育等机构 和 化学与分子工程学院邹鹏、郑捷等 多位教授 的 题目素材支持,以及高杨、龙汀汀老师的专业协助 。

项目资源

论文: https://arxiv.org/abs/2512.01274

数据集: https://huggingface.co/datasets/ZehuaZhao/SUPERChem

平台网站: https://superchem.pku.edu.cn

来源:北京大学、北京大学化学与分子工程学院

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美专家惊人兵推曝光:美军若向京沪扔核弹,中国不会选择对等报复

美专家惊人兵推曝光:美军若向京沪扔核弹,中国不会选择对等报复

番茄说史聊
2025-12-28 14:09:37
黎笋之子黎坚诚坦言:父亲选择同中国开战,是其毕生最大的失策

黎笋之子黎坚诚坦言:父亲选择同中国开战,是其毕生最大的失策

磊子讲史
2025-12-24 11:04:05
场均20分3板3助,你把6200万打成白菜价,还把老大2亿顶薪打没了

场均20分3板3助,你把6200万打成白菜价,还把老大2亿顶薪打没了

大西体育
2025-12-30 19:02:53
《康熙》画面已成回忆!66岁曹西平家中猝逝 小S悲痛发声了

《康熙》画面已成回忆!66岁曹西平家中猝逝 小S悲痛发声了

ETtoday星光云
2025-12-30 14:58:04
笑死了!李湘P图风波刚过,王诗龄“AI换脸”更诡异,好离谱操作

笑死了!李湘P图风波刚过,王诗龄“AI换脸”更诡异,好离谱操作

深析古今
2025-12-29 09:41:30
周伯通临死前,把郭靖唤至榻前,颤抖着说:我其实根本没疯

周伯通临死前,把郭靖唤至榻前,颤抖着说:我其实根本没疯

千秋文化
2025-12-27 20:45:01
一场战争掀开了一个政治乞丐

一场战争掀开了一个政治乞丐

维美丽心甜
2025-11-12 07:20:03
年龄将不再是“免罪金牌” 新法来了!明年1月1日起 14周岁以上未成年人、70周岁以上老年人也可能被行政拘留!

年龄将不再是“免罪金牌” 新法来了!明年1月1日起 14周岁以上未成年人、70周岁以上老年人也可能被行政拘留!

观威海
2025-12-29 14:26:07
再添伤员,申京未愈亚当斯再伤脚踝,斯通提前布局助火箭渡过难关

再添伤员,申京未愈亚当斯再伤脚踝,斯通提前布局助火箭渡过难关

拾叁懂球
2025-12-30 23:32:29
打脸了!《疯狂动物城2》破100亿,《阿凡达3》破45亿!

打脸了!《疯狂动物城2》破100亿,《阿凡达3》破45亿!

阿废冷眼观察所
2025-12-30 07:45:34
早就想打!日媒首次爆料:中国双航母出动时日军战机已做战斗准备

早就想打!日媒首次爆料:中国双航母出动时日军战机已做战斗准备

诗意世界
2025-08-21 13:13:50
卫冕冠军掀翻领头羊!看媒体老师怎么说,苏群很直接,贾磊戳心了

卫冕冠军掀翻领头羊!看媒体老师怎么说,苏群很直接,贾磊戳心了

萌兰聊个球
2025-12-30 21:57:18
女子跑3家银行网点没办成1张卡,多家银行工作人员回应:2020年“断卡行动”后办卡开始变严

女子跑3家银行网点没办成1张卡,多家银行工作人员回应:2020年“断卡行动”后办卡开始变严

观威海
2025-12-30 09:18:37
增值税重磅法规出台,涉及6万亿元

增值税重磅法规出台,涉及6万亿元

第一财经资讯
2025-12-30 18:28:13
基恩:加纳乔哪点比库尼亚强了?曼联卖掉他立刻完成升级

基恩:加纳乔哪点比库尼亚强了?曼联卖掉他立刻完成升级

懂球帝
2025-12-30 14:07:50
E句话| 一年能赚几十万,还哭穷?

E句话| 一年能赚几十万,还哭穷?

仙女事件簿
2025-12-29 22:29:01
妈呀!黄景瑜穿西裤参加活动!评论区炸了 网友喊话:卡码拍大!

妈呀!黄景瑜穿西裤参加活动!评论区炸了 网友喊话:卡码拍大!

阿废冷眼观察所
2025-12-30 11:42:39
日本国运的衰落,远远超出了我们的想象

日本国运的衰落,远远超出了我们的想象

优趣纪史记
2025-12-29 19:43:13
一枚42900!退市的1分硬币,谁能找到?

一枚42900!退市的1分硬币,谁能找到?

小陈收藏社
2025-12-30 14:45:13
科学都这么先进了,为什么人类至今还搞不定石油是怎么来的?

科学都这么先进了,为什么人类至今还搞不定石油是怎么来的?

向航说
2025-12-29 00:45:03
2025-12-31 00:07:00
化学加网 incentive-icons
化学加网
萃聚英才,共享化学
12222文章数 8303关注度
往期回顾 全部

教育要闻

初中三年,哪一步错都不行

头条要闻

家中大鹅在水塘中死亡 一个月后主人请挖机抽水"追凶"

头条要闻

家中大鹅在水塘中死亡 一个月后主人请挖机抽水"追凶"

体育要闻

联盟第一人倒下了!掘金还有底牌吗?

娱乐要闻

林俊杰女友被扒 父亲涉经济案卷款13亿?

财经要闻

朱光耀:美关税政策正使WTO名存实亡

科技要闻

估值150亿的智元,开始批量"制造"小独角兽

汽车要闻

标配华为乾崑ADS 4 Pro 华境S明年上半年上市

态度原创

艺术
房产
旅游
数码
亲子

艺术要闻

谢稚柳雪景山水20图

房产要闻

疯了!2025海南拿地榜巨变:榜首狂砸80亿,民企火力全开!

旅游要闻

元旦假期!忻州这些景区、场馆开放时间有变

数码要闻

天使吉米推出RITA主动降噪Hi-Fi头戴式耳机,399元

亲子要闻

饭后强烈要求吃葡萄的三小只

无障碍浏览 进入关怀版