网易首页 > 网易号 > 正文 申请入驻

中科大、科大讯飞开发ChemEval:化学大模型多维度能力评估新基准

0
分享至



作者丨论文团队

编辑丨ScienceAI

近年来,大语言模型在文本理解、知识问答和通用推理任务中展现出惊人的能力,也逐渐被引入到化学文献分析、反应预测和分子设计等科学场景中。然而,一个关键问题长期被忽视:

模型「看起来会化学」,是否真的具备化学研究所需的能力?

现有主流评测基准(如 MMLU、SciEval 等)大多以通用学科或浅层科学问答为主,难以刻画化学研究中高度专业、层次分明且跨模态的能力需求。即便是已有的化学评测工作,也往往局限于少量任务或单一能力维度,难以反映模型在真实科研场景中的综合表现。

针对这一核心缺口,认知智能全国重点实验室联合研究团队 —— 中国科学技术大学陈恩红教授团队与科大讯飞研究院 AI for Science 团队,在人工智能领域顶级国际会议 ICLR 2026 发表最新研究成果,论文提出了多层级、细粒度的化学能力评测框架 ChemEval,并系统性揭示了大语言模型在化学领域的真实能力边界。

该工作为 AI for Science 方向中「如何科学地评估大模型是否真正理解化学」这一核心问题,提供了完整、可复现且具有学术深度的答案。



论文地址:https://openreview.net/forum?id=JrqjSkEPrX

论文的主要作者为中国科学技术大学博士生黄育庆、张荣杨,所属认知智能全国重点实验室陈恩红教授团队,其他作者包括科大讯飞 AI 研究院执行院长王士进、副院长李鑫、研究员徐飞扬、梁华东等人。团队在 AI4Chemistry 领域开展深入研究,具体包括化学推理大模型 post-training、化工大模型 DeepReasearch、化学大模型智能体、化学领域大模型评测等。

ChemEval —— 从化学研究者视角出发的评测体系

ChemEval 并非简单堆叠题目,而是围绕化学研究的认知过程,构建了一套四层递进式评测结构:

  • 基础与进阶化学知识问答:考察模型对核心化学概念、定量计算与理论知识的掌握;
  • 化学文献理解与信息抽取:评估模型从论文、表格和图像中提取关键信息并进行归纳生成的能力;
  • 分子层级理解:覆盖分子命名、结构转换、性质预测与描述等核心分子认知任务;
  • 科学推理与化学推断:包括逆合成分析、反应条件推荐、产物预测与机理分析等高阶任务。

整个评测体系共包含 13 个能力维度、62 项具体任务,既涵盖文本任务,也系统引入分子结构图、光谱图等多模态输入,贴近真实化学研究流程。

更重要的是,ChemEval 的数据并非简单复用已有公开数据,而是结合开源数据集与化学领域专家人工构建的数据,通过严格的三阶段标注与审校流程,确保科学性与评测可靠性。



ChemEval 概览图与测试数据示例

通用大模型 vs. 化学专用模型,谁更「懂化学」?

基于 ChemEval,研究团队对主流通用大语言模型与化学专用模型进行了系统评测,得到了一系列具有启发性的结论:

  • 通用大模型在化学文献理解、指令遵循和部分推理任务中表现突出,但在涉及分子结构、反应机理等深度化学知识时明显乏力;
  • 化学专用模型在术语理解、分子性质等专业任务上具备优势,但往往牺牲了通用语言理解能力,存在「灾难性遗忘」和指令不稳定问题;
  • 单纯增加模型规模或引入「思考链」并不足以解决复杂化学任务,瓶颈并不在推理长度,而在领域知识建模与表示能力本身;
  • 在多模态化学任务中,当前模型在简单结构识别上尚可,但在综合结构识别 + 机理推断的任务中普遍存在显著困难。

这些结果以系统性、量化方式揭示了当前大模型在化学研究中的真实能力边界,也为后续模型设计与训练方向提供了明确指引。



通用大模型与化学专用模型的评估结果

为 AI for Science 提供「标尺」,而不只是排行榜

不同于「刷榜型」评测工作,ChemEval 更强调诊断价值:

  • 它能够精确定位模型在化学研究流程中「卡在哪一层能力」;
  • 揭示通用能力与领域能力之间的结构性矛盾;
  • 为化学大模型的训练策略、数据构建和工具增强提供可操作的参考依据。

研究团队认为,真正推动 AI for Science 的关键,不是让模型在单一任务上表现更好,而是让模型在完整科学认知链条中更可靠、更可解释。ChemEval 正是朝这一目标迈出的重要一步。

实验室持续推进 AI × Chemistry 深度融合

该工作是认知智能全国重点实验室与科大讯飞 AI for Science 团队在科学智能与化学大模型评测方向的重要进展之一。近年来,团队围绕「模型是否真正理解科学」这一核心问题,持续在科学推理、多模态理解和领域评测体系建设方面开展系统研究。

未来,团队将进一步探索化学大模型与专业仿真工具、实验数据和多模态信息的深度融合,推动 AI 从「辅助理解」走向「参与发现」,为化学研究范式变革提供坚实的智能基础。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
星链用户突破1000万!

星链用户突破1000万!

太空那些事儿
2026-02-14 08:28:34
百果园一根甘蔗87元,市民吐槽太贵,店员:买之前讲过的,黄金手撕甘蔗按斤卖,已为该消费者退款

百果园一根甘蔗87元,市民吐槽太贵,店员:买之前讲过的,黄金手撕甘蔗按斤卖,已为该消费者退款

大风新闻
2026-02-14 10:01:07
2月13日俄乌最新:创纪录的军事支持

2月13日俄乌最新:创纪录的军事支持

西楼饮月
2026-02-14 10:13:25
AI冲击下,一个行业一个行业排队被枪毙

AI冲击下,一个行业一个行业排队被枪毙

贩财局
2026-02-14 10:22:32
闹大了!上海一家长哭诉,孩子刚上大学提出要把20多万压岁钱拿走

闹大了!上海一家长哭诉,孩子刚上大学提出要把20多万压岁钱拿走

火山詩话
2026-02-13 07:30:50
待宰大鹅流泪引网友喊话求放过,市民只好把鹅送人,鹅真会被“吓哭”吗?专家解答来了

待宰大鹅流泪引网友喊话求放过,市民只好把鹅送人,鹅真会被“吓哭”吗?专家解答来了

大风新闻
2026-02-13 22:20:04
短道速滑男子1500米1/4决赛:林孝埈、孙龙同组,比赛将于凌晨打响

短道速滑男子1500米1/4决赛:林孝埈、孙龙同组,比赛将于凌晨打响

懂球帝
2026-02-14 10:26:18
冬奥会惊天冷门!21岁美国头号夺冠热门自由滑3跳空+2摔 仅获第8

冬奥会惊天冷门!21岁美国头号夺冠热门自由滑3跳空+2摔 仅获第8

念洲
2026-02-14 06:50:32
后天除夕,别只会说“新年快乐”,送你30句祝福语,高端上档次

后天除夕,别只会说“新年快乐”,送你30句祝福语,高端上档次

餐饮新纪元
2026-02-14 00:17:32
半两财经|小米成都碰撞事故完成责任认定!酒后驾车当事人全责

半两财经|小米成都碰撞事故完成责任认定!酒后驾车当事人全责

北青网-北京青年报
2026-02-14 12:14:03
他的事迹至今不敢拍成电影,9次荣获特等功,400万解放军只此一人

他的事迹至今不敢拍成电影,9次荣获特等功,400万解放军只此一人

小莜读史
2026-02-14 12:44:10
东方卫视引进《成长的烦恼》,大年初一开播

东方卫视引进《成长的烦恼》,大年初一开播

北青网-北京青年报
2026-02-14 12:18:03
自家产品被用于绑架马杜罗,这家美国AI公司很不满

自家产品被用于绑架马杜罗,这家美国AI公司很不满

观察者网
2026-02-14 17:44:07
34岁东北姑娘拿下81岁全球首富,长的很漂亮,一年抱俩娃身价上亿

34岁东北姑娘拿下81岁全球首富,长的很漂亮,一年抱俩娃身价上亿

云舟史策
2025-09-13 07:37:04
让人眼红!苏州一公司发出187772元年终奖,员工称没复杂绩效考核

让人眼红!苏州一公司发出187772元年终奖,员工称没复杂绩效考核

火山詩话
2026-02-14 14:52:16
4400颗卫星集体“跳楼”?马斯克的环保棋,把中国空间站逼入死角

4400颗卫星集体“跳楼”?马斯克的环保棋,把中国空间站逼入死角

Hi科普啦
2026-02-13 15:38:33
李家诚起诉周秀娜风波升级!曝隔10年起诉原因,更多情感纠葛被扒

李家诚起诉周秀娜风波升级!曝隔10年起诉原因,更多情感纠葛被扒

古希腊掌管松饼的神
2026-02-14 13:11:35
投票结束日本迎来噩耗,普京划下红线,白宫一句话让高市早苗傻眼

投票结束日本迎来噩耗,普京划下红线,白宫一句话让高市早苗傻眼

趣生活
2026-02-14 11:47:48
深圳官方下场了,让大家搞“一人公司”!网友:打工是给你自己打

深圳官方下场了,让大家搞“一人公司”!网友:打工是给你自己打

火山詩话
2026-02-14 09:18:02
绿皮车的爆火,平台被约谈,打了谁的脸?

绿皮车的爆火,平台被约谈,打了谁的脸?

娱乐洞察点点
2026-02-13 17:31:41
2026-02-14 18:27:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1234文章数 224关注度
往期回顾 全部

科技要闻

字节跳动官宣豆包大模型今日进入2.0阶段

头条要闻

委石油收入超10亿美元 资金将存入美财政部新开设账户

头条要闻

委石油收入超10亿美元 资金将存入美财政部新开设账户

体育要闻

金博洋:天才少年的奥运终章

娱乐要闻

吴克群变“吴克穷”助农,国台办点赞

财经要闻

春节抢黄金,谁赚到钱了?

汽车要闻

星光730新春促销开启 80天销量破2.6万台

态度原创

时尚
健康
本地
艺术
公开课

穿上这些鞋拥抱春天

转头就晕的耳石症,能开车上班吗?

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

艺术要闻

这位“大奸臣”写的书法,连米芾也甘拜下风

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版