网易首页 > 网易号 > 正文 申请入驻

北大团队发布化学大模型基准SUPERChem:挑战多模态高难度化学推理

0
分享至

导读

近日,北京大学化学与分子工程学院联合计算中心、计算机学院、元培学院发布化学大模型基准SUPERChem。该基准针对当前化学知识水平评测中题目难度有限、多模态与推理过程评估缺失等不足,系统构建了专注评估大语言模型(LLM)化学推理分析能力的新体系,旨在推动化学智能评测的深入发展。

——背景——

2025年,随着开源推理模型DeepSeek-R1推出,LLM在“深度思考”范式下快速发展,其在自然科学领域的应用已从简单问答转向复杂推理。然而,现有通用科学基准趋于饱和,化学专用基准多关注基础能力与化学信息学任务,缺乏对深度推理的系统考察。

从基础教育、化学奥林匹克竞赛到高等教育,化学学习强调知识综合运用与多步推理,是评估推理能力的理想场景。设计高质量评估题目需融合抽象概念与具体情境,构建层层递进的推理链,对出题者专业素养要求极高。

研究团队依托北京大学化学学院水平顶尖的本科生和研究生群体,充分发挥其扎实学科功底与丰富解题命题经验,对已有题目素材进行准确评估与合理优化,共同构建了SUPERChem基准,填补了化学深度推理评估的空白。


图1. SUPERChem总览与例题。

——数据构建——


图2. SUPERChem题库的三阶段审核流程。

SUPERChem题库由北大化学专业近百名师生共建,涵盖题目编写、解析撰写及严格的三阶段审核。题目源自非公开试题与专业文献改编,并采用防泄漏设计,避免LLM依赖记忆或从选项逆推。针对化学信息的多模态特点,同步提供图文交错与纯文本版本的对齐数据集,支持探究视觉信息对推理的影响。

目前,SUPERChem先期发布500道专家级精选题目,覆盖结构与性质、化学反应与合成、化学原理与计算、实验设计与分析四大化学核心领域。为细粒度评估LLM思考过程,SUPERChem引入推理路径一致性(Reasoning Path Fidelity, RPF)指标:团队为每道题目撰写了含关键检查点的详细解析,通过自动化评估模型思维链与解析的一致性,判别模型是否真正“理解”化学。

——评测结果——

1. 前沿模型接近低年级本科生水平,不同模型推理一致性存在差异

表1:前沿模型在SUPERChem上的表现。


评测显示, SUPERChem具有较高难度与区分度。在北京大学化学专业低年级本科生闭卷测试中,人类准确率为40.3%。参与评测的前沿模型中,表现最佳的GPT-5 (High)准确率为38.5%,表明其化学推理能力仅与化学专业低年级本科生水平相当,尚未超越人类基础专业认知。


图3. 前沿模型的正确率与RPF关系。

分析RPF指标可见,不同模型推理过程质量差异明显:Gemini-2.5-Pro和GPT-5 (High)在取得较高准确率的同时,其推理逻辑也更符合专家路径;而DeepSeek-V3.1-Thinking虽然准确率相近,但RPF得分相对较低,反映其更倾向通过启发式路径得出结论。

2. 多模态信息双刃剑效应


图4:输入模态对不同模型的影响。

在依赖多模态输入的题目中,视觉信息对不同模型影响各异:对Gemini-2.5-Pro等强推理模型,图像输入可提升准确率;对GPT-4o等推理能力较弱的模型,图像信息反而造成干扰。这提示在科学任务中需根据模型能力匹配合适的输入模态。

3. 推理断点分析:模型倒在了哪一步?

为进一步探究LLM推理失败的深层原因,研究团队进行了推理断点分析。结果表明,前沿模型的推理断点集中于产物结构预测、反应机理识别、构效关系分析等高阶化学推理环节。这反映出当前LLM在涉及反应性与分子结构理解的核心任务上仍存在短板。


图5. 推理断点所属化学能力分布。

——总结——

综上所述,SUPERChem为系统评估大语言模型的化学推理能力提供了细致、可靠的基准。评测结果指出,当前前沿模型的化学能力仍处于基础水平,在涉及高阶化学推理能力的任务上存在明显局限,为后续模型的针对性优化提供了明确方向。

——团队介绍——

SUPERChem项目由北京大学化学与分子工程学院与元培学院的赵泽华、黄志贤、李隽仁、林思宇同学领衔完成。近百位化学学院博士生与高年级本科生参与题库构建与审核,其中包括多位国际与中国化学奥林匹克决赛获奖选手。174位北京大学化学专业低年级本科生参与了人类基线测试。

SUPERChem项目在北京大学化学与分子工程学院裴坚、高珍老师,计算中心马皓老师 , 计算机学院杨仝老师的指导下开展。项目 获 得 北京大学计算中心与高性能计算平台 资源 支持 ,来自 Chemy 、好未来、质心教育等机构 和 化学与分子工程学院邹鹏、郑捷等 多位教授 的 题目素材支持,以及高杨、龙汀汀老师的专业协助 。

项目资源

论文: https://arxiv.org/abs/2512.01274

数据集: https://huggingface.co/datasets/ZehuaZhao/SUPERChem

平台网站: https://superchem.pku.edu.cn

来源:北京大学化学与分子工程学院


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
陕西吴堡县交通运输局党组书记、局长贾建永接受审查调查

陕西吴堡县交通运输局党组书记、局长贾建永接受审查调查

澎湃新闻
2025-12-30 18:16:04
飞行员举报“情人诈骗700多万”:从万米高空的情书,到以“一般朋友”报案

飞行员举报“情人诈骗700多万”:从万米高空的情书,到以“一般朋友”报案

红星新闻
2025-12-29 23:53:56
浙江女孩爱上西班牙小伙,未婚怀胎8月,连同男友遭婆家哥嫂杀害

浙江女孩爱上西班牙小伙,未婚怀胎8月,连同男友遭婆家哥嫂杀害

观察鉴娱
2025-12-30 09:48:21
西安事变真相:蒋家7侄阵亡护蒋,双方死伤超600,血债被记五十四年

西安事变真相:蒋家7侄阵亡护蒋,双方死伤超600,血债被记五十四年

磊子讲史
2025-12-30 18:03:15
难以置信!网传河北某行食堂被叫停,网友哭诉效益不好,没有钱了

难以置信!网传河北某行食堂被叫停,网友哭诉效益不好,没有钱了

火山詩话
2025-12-30 19:38:00
东莞首富母子交接,母亲将核心资产全部转给儿子,38岁张寓帅成东阳光唯一实控人

东莞首富母子交接,母亲将核心资产全部转给儿子,38岁张寓帅成东阳光唯一实控人

红星资本局
2025-12-30 14:09:20
回国后我才敢说:越南是我去过的所有国家中,最被低估的

回国后我才敢说:越南是我去过的所有国家中,最被低估的

阿纂看事
2025-12-29 09:43:52
斯潘塞这一脚,把掘金的天踩塌了?

斯潘塞这一脚,把掘金的天踩塌了?

火热篮球
2025-12-30 18:45:50
“邱疯子”的末日:身中七弹死麦田,蒋介石哀叹,毛主席下令厚葬

“邱疯子”的末日:身中七弹死麦田,蒋介石哀叹,毛主席下令厚葬

史笔似尘钩
2025-12-29 20:35:59
西部排名又变了:马刺爆冷连败,火箭三喜临门,2队排名互换

西部排名又变了:马刺爆冷连败,火箭三喜临门,2队排名互换

篮球大视野
2025-12-30 17:56:10
天才比不过天赋怪?9岁陈思杨国少夺冠,王楠女儿和她差距太明显

天才比不过天赋怪?9岁陈思杨国少夺冠,王楠女儿和她差距太明显

以茶带书
2025-12-30 14:14:03
投资巨鳄罗杰斯再发警告:2026年将爆发“史上最惨”金融风暴

投资巨鳄罗杰斯再发警告:2026年将爆发“史上最惨”金融风暴

特特农村生活
2025-12-30 15:09:54
一夜3大消息!小卡周最佳,快船连升5位,全明星首轮结果公布

一夜3大消息!小卡周最佳,快船连升5位,全明星首轮结果公布

体坛小李
2025-12-30 08:47:54
轩子:在日常的褶皱里,打捞散落的星光

轩子:在日常的褶皱里,打捞散落的星光

疾跑的小蜗牛
2025-12-30 15:21:40
痛惜!安徽“半挂西施”王迪遇难,有三台X6000,出事前刚换轮胎

痛惜!安徽“半挂西施”王迪遇难,有三台X6000,出事前刚换轮胎

史行途
2025-12-29 14:59:24
冬天多久洗一次澡更科学?其实可以“懒”一点

冬天多久洗一次澡更科学?其实可以“懒”一点

中国日报
2025-12-29 19:57:22
24分大胜天津!8连胜登顶!广东4人满分,杜锋还收获2个利好消息

24分大胜天津!8连胜登顶!广东4人满分,杜锋还收获2个利好消息

后仰大风车
2025-12-30 21:22:55
一场尴尬到近乎荒谬的会面(柯义的乌克兰战争日记)

一场尴尬到近乎荒谬的会面(柯义的乌克兰战争日记)

柯义在乌克兰
2025-12-29 15:07:28
中国人不买账了,西方对华阴谋失败,欧美人造肉为何败退中国

中国人不买账了,西方对华阴谋失败,欧美人造肉为何败退中国

科普100克克
2025-12-29 17:46:42
明日2025最后一天,牢记:1不洗,2不去,吃3样,做2事,圆满收尾

明日2025最后一天,牢记:1不洗,2不去,吃3样,做2事,圆满收尾

小茉莉美食记
2025-12-30 00:40:03
2025-12-30 21:44:49
化学加网 incentive-icons
化学加网
萃聚英才,共享化学
12222文章数 8303关注度
往期回顾 全部

教育要闻

留学中介最喜欢的两所英国大学!

头条要闻

车主质疑步行街停车扫私人码缴费不合规 物业公司回应

头条要闻

车主质疑步行街停车扫私人码缴费不合规 物业公司回应

体育要闻

这个59岁的胖子,还在表演“蝎子摆尾”

娱乐要闻

林俊杰女友被扒 父亲涉经济案卷款13亿?

财经要闻

朱光耀:美关税政策正使WTO名存实亡

科技要闻

估值150亿的智元,开始批量"制造"小独角兽

汽车要闻

标配华为乾崑ADS 4 Pro 华境S明年上半年上市

态度原创

家居
艺术
本地
公开课
军事航空

家居要闻

当归之宅 三胎圆满居所

艺术要闻

谢稚柳雪景山水20图

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

福建海警舰艇与台海巡船对峙航行

无障碍浏览 进入关怀版