网易首页 > 网易号 > 正文 申请入驻

真实科研水平集体不及格!全新基准SFE给主流多模态LLM来了波暴击

0
分享至

当前,驱动科学研究的人工智能(AI for Science,AI4S)在单点取得了可观的进展,实现了工具层面的革新,然而要成为「革命的工具」,需要采用「通专融合 AGI」方式。大模型的突破性能力逐步改变科学研究的模式,而大模型在科学领域的深度应用亟需科学的评测支撑。

现有科学评测面临着两大痛点:现有测试多聚焦知识记忆,而真实科研需要从原始科学数据感知到复杂推理的全链条能力;天文、地球、生命和材料等领域存在大量未开发的多模态数据分析需求。

为此,上海人工智能实验室 AI4S 团队推出了Scientists’ First Exam(以下简称SFE)—— 系统评估多模态大模型(MLLMs)多学科、高难度的科学专业领域认知能力的评测基准。

  • SFE 技术报告链接: https://arxiv.org/abs/2506.10521
  • SFE 数据集链接:https://huggingface.co/datasets/PrismaX/SFE
  • SFE 评测基准已上架到司南评测集社区,欢迎访问:https://hub.opencompass.org.cn/dataset-detail/SFE

SFE 首创「信号感知 - 属性理解 - 对比推理」三级评估体系,涵盖五大科学领域的 66 项高价值任务,采用原始科学数据和中英双语问答形式。测试表明,尽管主流模型在传统基准表现优异,但在 SFE 高阶科学任务上仍面临显著挑战(SOTA 大模型综合得分仅为 30 左右)。SFE 通过系统全面地评测大模型在科学任务上的能力短板,为科学 AI 发展指明了突破方向。

主流 MLLM 在各种 Benchmark 上的性能

三层认知框架评估科学能力的深度和广度

SFE 构建了三层认知框架,包括:

  1. 科学信号感知(L1)
  2. 科学属性理解(L2)
  3. 科学比较推理(L3)

通过这三个认知层级,SFE 考察模型从数据感知到高阶推理的综合能力。SFE 涵盖了天文学、化学、地球科学、生命科学和材料科学五大领域,共包含 66 个由专家精心设计的高价值多模态任务。所有任务基于科学原始数据构建,以视觉问答(VQA)形式呈现,并支持中英文双语。SFE 不仅考查深层次的领域知识和数据分析能力,也旨在提升科学研究效率,促进科学进步。

SFE 旨在全面评估 MLLMs 的科学能力的深度和广度

SFE 任务分布

SFE 数据分布

多学科领域专家共建数据集

SFE 的数据集构建与多学科领域专家进行了广泛合作,包含三个关键阶段:

  1. 结构设计,与专家共同确定高价值科学挑战和方向;
  2. 任务设计,将科学方向细化为具体任务,通过专家设计和评审明确问题类型与认知层级;
  3. 基准搭建,精选科学原始数据,进行渲染和可视化,由专家撰写高质量的 VQA 样本。

SFE 数据收集框架图。1. 根据科学前沿进展和领域专家建议,确定了 18 个科学方向。2. 邀请专家提出领域任务并提供基于三个认知水平的原始任务数据。3. 将任务数据可视化并进一步请领域专家对结果基准进行注释。

评测揭示主流 MLLMs 在高阶科学任务上面临挑战


基于 SFE,对 16 个主流的开源与闭源 MLLMs 进行了评测。为了降低评测过程中的随机性,所有模型的 Temperature 参数都被统一设置为 0。同时,为了保证评测的公平性,所有模型的最大生成 Token 数也被统一限定为 1024。在此实验设置下,SFE 观察到以下关键现象:

闭源 MLLMs 的科学能力显著优于开源 MLLMs

SFE 评测结果显示,闭源大模型(如 GPT-o3、Claude-3.7-Sonnet)在科学认知能力上整体优于开源模型,平均领先 6-8%。

其中,GPT-03 与 Gemini-2.5-Pro 的表现差异超过 26%。造成这一显著差距的主要原因在于,Gemini-2.5-Pro 在推理过程中进行了过多冗余的思考,导致 Token 消耗过快,最终未能完整输出结论。而 GPT-o3 虽同为具备推理能力的模型,但能够更有效地控制思考过程的冗余度,提高推理效率,因此获得了更高的分数。这一结果进一步证明了SFE 能有效区分不同模型的科学能力。

此外,同一系列模型内部也表现出明显进步,例如 Claude-3.7-Sonnet 相比前代提升超过 7%。这一趋势在 InternVL 模型系列中同样存在,反映出模型架构与训练方法的持续改进带来的能力提升。

MLLMs 在 SFE 的不同学科之间表现出明显性能差距

评测结果显示,材料科学是各类模型表现最好的领域,GPT-o3 在该方向的英文任务中达到 63.44%,中文任务为 58.20%,即便是开源模型(如 Qwen2.5-VL-72b、InternVL-3-78B)也能超过 40%。这种优势主要得益于材料科学任务的输入结构化明显(如相图、X 射线衍射图),模型可依赖其较强的符号化视觉信息处理能力,输出结构化的科学答案。

相比之下,天文学任务则更具挑战性,涉及光谱分析和天体物理参数的数值估算,因原始数据噪声大、直观性弱,当前模型普遍难以胜任。该现象反映了SFE 能有效揭示 MLLMs 在不同类型科学推理上的优势与不足。

MLLMs 的科学能力正在从知识理解到高阶推理进行转变

SFE 的三层认知框架显示,最新的 MLLMs 在高阶推理(L3)任务上表现提升显著,而在理解类(L2)任务上的进步有限。例如,GPT-o3 在 L3 任务上的得分从 26.64%(GPT-4.1)提升到 36.48%,但 L2 分数几乎无变化。这说明模型在推理能力、工具使用等方面进步,知识广度则变化不大。

同样,InternVL-3 英文 L3 任务也较前代提升 8%,这主要得益于其多模态预训练和链式思维等新训练策略。L2 任务进步微弱,进一步说明模型的提升主要来源于高阶推理能力的架构与训练创新。

闭源 MLLMs 在可扩展性上普遍优于开源模型

采用 Pass@k 指标评估模型生成高质量答案的能力,结果显示,闭源模型(如 GPT-4.1-2025-04-14 和 Gemini-2.5-Flash)不仅初始表现更好(30.56% vs 26.09%),而且随着 k 增加,性能提升也更明显(30.56% → 37.75% vs 26.09% → 27.33%)。

这表明闭源模型在预训练时或许使用了更丰富多样的数据集,并在后训练阶段注重了探索(Exploration)与利用(Exploitation)的平衡,优于仅注重 Exploitation 的开源模型。

科学领域模型大小的Scaling Law

在 SFE 评测下,不同大小的 MLLMs 表现出模型规模与科学能力提升并不总是成正比。例如,Qwen2.5-VL-72B 与 InternVL-3-78B 相较于自家小模型并未显著提升,Qwen2.5-VL-72B 甚至低于 Qwen2.5-VL-7B,可能存在过拟合问题。

这表明在科学领域,模型扩大的同时需合理扩充科学数据,否则难以实现性能线性提升。


SciPrismaX科学评测平台

共建 AI4Science 生态

除发布了 SFE 评测基准之外,研究团队还构建了「棱镜」(SciPrismaX) 科学评测平台。平台包含了模型能力、学科多样性、评估策略、评估对象与评估工具五大模块,覆盖了 AI for Innovation、AI for computation 和 AI for Data 三层评估维度,致力于构建更严谨、动态且与科研实践深度契合的评估生态。

同时,平台还将通过实时追踪、自建、与社区共建等方式,维护动态更新的高质量科学评测基准数据库,以期共同推进 AI 在 Science 领域基准的进步。

「棱镜」(SciPrismaX) 科学评测平台链接:https://prismax.opencompass.org.cn/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
比国足还惨!意大利已12年未踢世界杯,仅剩33岁维拉蒂踢过世界杯

比国足还惨!意大利已12年未踢世界杯,仅剩33岁维拉蒂踢过世界杯

小金体坛大视野
2026-03-26 11:16:02
中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

每日经济新闻
2026-03-26 13:25:09
是什么,让这个日本自卫官竟敢对中国大使馆举刀?

是什么,让这个日本自卫官竟敢对中国大使馆举刀?

环球时报国际
2026-03-26 00:13:51
中国禁止AI公司Manus两名高管离境?外交部回应

中国禁止AI公司Manus两名高管离境?外交部回应

澎湃新闻
2026-03-26 15:36:31
上海一女子“闪婚”拿到价值近千万房产99%份额,“闪离”后起诉分割房产,法院判了!

上海一女子“闪婚”拿到价值近千万房产99%份额,“闪离”后起诉分割房产,法院判了!

环球网资讯
2026-03-26 08:13:14
我在小城市,一个人做电商,半年挣300万

我在小城市,一个人做电商,半年挣300万

南风窗
2026-03-26 10:07:51
心酸!湖南某乡镇一位小学教师哭诉年收入73150元,评论区炸锅了

心酸!湖南某乡镇一位小学教师哭诉年收入73150元,评论区炸锅了

火山詩话
2026-03-26 09:24:48
女子在按摩店做理疗时被技师偷走金项链

女子在按摩店做理疗时被技师偷走金项链

新闻晨报随申Hi
2026-03-26 09:56:05
想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

过期少女致幻录
2026-03-26 11:44:43
快递每次都被邻居大妈拿走,我改成货到付款,不到三天物业打电话

快递每次都被邻居大妈拿走,我改成货到付款,不到三天物业打电话

船长与船1
2026-03-26 09:44:01
万科高管被要求退还薪酬

万科高管被要求退还薪酬

地产微资讯
2026-03-26 12:22:04
外交部发言人反问日媒:“你见过有人未经允许持刀进入使馆与大使交谈的先例吗?”

外交部发言人反问日媒:“你见过有人未经允许持刀进入使馆与大使交谈的先例吗?”

环球网资讯
2026-03-25 15:39:26
继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

180视角
2026-03-26 11:52:12
丧夫仅5个月,49岁翁帆突传“喜讯”高调露面,状态好到出人意料

丧夫仅5个月,49岁翁帆突传“喜讯”高调露面,状态好到出人意料

冷紫葉
2026-03-24 19:12:36
新加坡站队了?正式向世界宣布:中方若继续挑衅日本,会让他好看

新加坡站队了?正式向世界宣布:中方若继续挑衅日本,会让他好看

小影的娱乐
2026-03-26 13:45:58
原来她是张雪峰前妻,90后历史学博士‌,两人离婚后曾一起上节目

原来她是张雪峰前妻,90后历史学博士‌,两人离婚后曾一起上节目

大铁猫娱乐
2026-03-25 13:03:57
蔡正元即将入狱,国台办做出回应,内容不寻常,已看透他的真面目

蔡正元即将入狱,国台办做出回应,内容不寻常,已看透他的真面目

小陆搞笑日常
2026-03-26 11:57:06
扎哈罗娃警告日本:任何试图向乌提供致命武器之举,都将招致强硬回应

扎哈罗娃警告日本:任何试图向乌提供致命武器之举,都将招致强硬回应

环球网资讯
2026-03-26 08:55:12
日媒曝光强闯我驻日使馆不法之徒照片;案发前行动轨迹公布:乘坐新干线到达东京,在网吧过夜,现场发现的刀具,其称是在车站附近购买

日媒曝光强闯我驻日使馆不法之徒照片;案发前行动轨迹公布:乘坐新干线到达东京,在网吧过夜,现场发现的刀具,其称是在车站附近购买

大风新闻
2026-03-26 12:13:02
张雪峰遗产分割复杂!11岁女儿面临跟后妈争产,是否立遗嘱成关键

张雪峰遗产分割复杂!11岁女儿面临跟后妈争产,是否立遗嘱成关键

萌神木木
2026-03-25 18:56:27
2026-03-26 16:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
艺术
旅游
手机
游戏

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

艺术要闻

哪一座桥不是风景?

旅游要闻

德阳绵竹:赏花、览文旅精品......沿山旅游“火”起来

手机要闻

iPhone「自己打电话」是Bug!苹果终于承认了,怎么回事?

商业互吹or真心话?制作人玩《红色沙漠》忘记工作

无障碍浏览 进入关怀版