中科大、科大讯飞开发ChemEval：化学大模型多维度能力评估新基准|科学|知名企业|chemeval

中科大、科大讯飞开发ChemEval：化学大模型多维度能力评估新基准

2026-02-09 12:59:13　来源: ScienceAI

河北举报

分享至

作者丨论文团队

编辑丨ScienceAI

近年来，大语言模型在文本理解、知识问答和通用推理任务中展现出惊人的能力，也逐渐被引入到化学文献分析、反应预测和分子设计等科学场景中。然而，一个关键问题长期被忽视：

模型「看起来会化学」，是否真的具备化学研究所需的能力？

现有主流评测基准（如 MMLU、SciEval 等）大多以通用学科或浅层科学问答为主，难以刻画化学研究中高度专业、层次分明且跨模态的能力需求。即便是已有的化学评测工作，也往往局限于少量任务或单一能力维度，难以反映模型在真实科研场景中的综合表现。

针对这一核心缺口，认知智能全国重点实验室联合研究团队 —— 中国科学技术大学陈恩红教授团队与科大讯飞研究院 AI for Science 团队，在人工智能领域顶级国际会议 ICLR 2026 发表最新研究成果，论文提出了多层级、细粒度的化学能力评测框架 ChemEval，并系统性揭示了大语言模型在化学领域的真实能力边界。

该工作为 AI for Science 方向中「如何科学地评估大模型是否真正理解化学」这一核心问题，提供了完整、可复现且具有学术深度的答案。

论文地址：https://openreview.net/forum?id=JrqjSkEPrX

论文的主要作者为中国科学技术大学博士生黄育庆、张荣杨，所属认知智能全国重点实验室陈恩红教授团队，其他作者包括科大讯飞 AI 研究院执行院长王士进、副院长李鑫、研究员徐飞扬、梁华东等人。团队在 AI4Chemistry 领域开展深入研究，具体包括化学推理大模型 post-training、化工大模型 DeepReasearch、化学大模型智能体、化学领域大模型评测等。

ChemEval —— 从化学研究者视角出发的评测体系

ChemEval 并非简单堆叠题目，而是围绕化学研究的认知过程，构建了一套四层递进式评测结构：

基础与进阶化学知识问答：考察模型对核心化学概念、定量计算与理论知识的掌握；
化学文献理解与信息抽取：评估模型从论文、表格和图像中提取关键信息并进行归纳生成的能力；
分子层级理解：覆盖分子命名、结构转换、性质预测与描述等核心分子认知任务；
科学推理与化学推断：包括逆合成分析、反应条件推荐、产物预测与机理分析等高阶任务。

整个评测体系共包含 13 个能力维度、62 项具体任务，既涵盖文本任务，也系统引入分子结构图、光谱图等多模态输入，贴近真实化学研究流程。

更重要的是，ChemEval 的数据并非简单复用已有公开数据，而是结合开源数据集与化学领域专家人工构建的数据，通过严格的三阶段标注与审校流程，确保科学性与评测可靠性。

ChemEval 概览图与测试数据示例

通用大模型 vs. 化学专用模型，谁更「懂化学」？

基于 ChemEval，研究团队对主流通用大语言模型与化学专用模型进行了系统评测，得到了一系列具有启发性的结论：

通用大模型在化学文献理解、指令遵循和部分推理任务中表现突出，但在涉及分子结构、反应机理等深度化学知识时明显乏力；
化学专用模型在术语理解、分子性质等专业任务上具备优势，但往往牺牲了通用语言理解能力，存在「灾难性遗忘」和指令不稳定问题；
单纯增加模型规模或引入「思考链」并不足以解决复杂化学任务，瓶颈并不在推理长度，而在领域知识建模与表示能力本身；
在多模态化学任务中，当前模型在简单结构识别上尚可，但在综合结构识别 + 机理推断的任务中普遍存在显著困难。

这些结果以系统性、量化方式揭示了当前大模型在化学研究中的真实能力边界，也为后续模型设计与训练方向提供了明确指引。

通用大模型与化学专用模型的评估结果

为 AI for Science 提供「标尺」，而不只是排行榜

不同于「刷榜型」评测工作，ChemEval 更强调诊断价值：

它能够精确定位模型在化学研究流程中「卡在哪一层能力」；
揭示通用能力与领域能力之间的结构性矛盾；
为化学大模型的训练策略、数据构建和工具增强提供可操作的参考依据。

研究团队认为，真正推动 AI for Science 的关键，不是让模型在单一任务上表现更好，而是让模型在完整科学认知链条中更可靠、更可解释。ChemEval 正是朝这一目标迈出的重要一步。

实验室持续推进 AI × Chemistry 深度融合

该工作是认知智能全国重点实验室与科大讯飞 AI for Science 团队在科学智能与化学大模型评测方向的重要进展之一。近年来，团队围绕「模型是否真正理解科学」这一核心问题，持续在科学推理、多模态理解和领域评测体系建设方面开展系统研究。

未来，团队将进一步探索化学大模型与专业仿真工具、实验数据和多模态信息的深度融合，推动 AI 从「辅助理解」走向「参与发现」，为化学研究范式变革提供坚实的智能基础。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.