![]()
作者丨论文团队
编辑丨ScienceAI
近年来,大语言模型在文本理解、知识问答和通用推理任务中展现出惊人的能力,也逐渐被引入到化学文献分析、反应预测和分子设计等科学场景中。然而,一个关键问题长期被忽视:
模型「看起来会化学」,是否真的具备化学研究所需的能力?
现有主流评测基准(如 MMLU、SciEval 等)大多以通用学科或浅层科学问答为主,难以刻画化学研究中高度专业、层次分明且跨模态的能力需求。即便是已有的化学评测工作,也往往局限于少量任务或单一能力维度,难以反映模型在真实科研场景中的综合表现。
针对这一核心缺口,认知智能全国重点实验室联合研究团队 —— 中国科学技术大学陈恩红教授团队与科大讯飞研究院 AI for Science 团队,在人工智能领域顶级国际会议 ICLR 2026 发表最新研究成果,论文提出了多层级、细粒度的化学能力评测框架 ChemEval,并系统性揭示了大语言模型在化学领域的真实能力边界。
该工作为 AI for Science 方向中「如何科学地评估大模型是否真正理解化学」这一核心问题,提供了完整、可复现且具有学术深度的答案。
![]()
论文地址:https://openreview.net/forum?id=JrqjSkEPrX
论文的主要作者为中国科学技术大学博士生黄育庆、张荣杨,所属认知智能全国重点实验室陈恩红教授团队,其他作者包括科大讯飞 AI 研究院执行院长王士进、副院长李鑫、研究员徐飞扬、梁华东等人。团队在 AI4Chemistry 领域开展深入研究,具体包括化学推理大模型 post-training、化工大模型 DeepReasearch、化学大模型智能体、化学领域大模型评测等。
ChemEval —— 从化学研究者视角出发的评测体系
ChemEval 并非简单堆叠题目,而是围绕化学研究的认知过程,构建了一套四层递进式评测结构:
- 基础与进阶化学知识问答:考察模型对核心化学概念、定量计算与理论知识的掌握;
- 化学文献理解与信息抽取:评估模型从论文、表格和图像中提取关键信息并进行归纳生成的能力;
- 分子层级理解:覆盖分子命名、结构转换、性质预测与描述等核心分子认知任务;
- 科学推理与化学推断:包括逆合成分析、反应条件推荐、产物预测与机理分析等高阶任务。
整个评测体系共包含 13 个能力维度、62 项具体任务,既涵盖文本任务,也系统引入分子结构图、光谱图等多模态输入,贴近真实化学研究流程。
更重要的是,ChemEval 的数据并非简单复用已有公开数据,而是结合开源数据集与化学领域专家人工构建的数据,通过严格的三阶段标注与审校流程,确保科学性与评测可靠性。
![]()
ChemEval 概览图与测试数据示例
通用大模型 vs. 化学专用模型,谁更「懂化学」?
基于 ChemEval,研究团队对主流通用大语言模型与化学专用模型进行了系统评测,得到了一系列具有启发性的结论:
- 通用大模型在化学文献理解、指令遵循和部分推理任务中表现突出,但在涉及分子结构、反应机理等深度化学知识时明显乏力;
- 化学专用模型在术语理解、分子性质等专业任务上具备优势,但往往牺牲了通用语言理解能力,存在「灾难性遗忘」和指令不稳定问题;
- 单纯增加模型规模或引入「思考链」并不足以解决复杂化学任务,瓶颈并不在推理长度,而在领域知识建模与表示能力本身;
- 在多模态化学任务中,当前模型在简单结构识别上尚可,但在综合结构识别 + 机理推断的任务中普遍存在显著困难。
这些结果以系统性、量化方式揭示了当前大模型在化学研究中的真实能力边界,也为后续模型设计与训练方向提供了明确指引。
![]()
通用大模型与化学专用模型的评估结果
为 AI for Science 提供「标尺」,而不只是排行榜
不同于「刷榜型」评测工作,ChemEval 更强调诊断价值:
- 它能够精确定位模型在化学研究流程中「卡在哪一层能力」;
- 揭示通用能力与领域能力之间的结构性矛盾;
- 为化学大模型的训练策略、数据构建和工具增强提供可操作的参考依据。
研究团队认为,真正推动 AI for Science 的关键,不是让模型在单一任务上表现更好,而是让模型在完整科学认知链条中更可靠、更可解释。ChemEval 正是朝这一目标迈出的重要一步。
实验室持续推进 AI × Chemistry 深度融合
该工作是认知智能全国重点实验室与科大讯飞 AI for Science 团队在科学智能与化学大模型评测方向的重要进展之一。近年来,团队围绕「模型是否真正理解科学」这一核心问题,持续在科学推理、多模态理解和领域评测体系建设方面开展系统研究。
未来,团队将进一步探索化学大模型与专业仿真工具、实验数据和多模态信息的深度融合,推动 AI 从「辅助理解」走向「参与发现」,为化学研究范式变革提供坚实的智能基础。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.