网易首页 > 网易号 > 正文 申请入驻

GPT-4o准确率仅为24%!权威中文教育基准:知识+情商的双重考验

0
分享至


新智元报道

编辑:LRST

【新智元导读】华东师范大学智能教育学院发布OmniEduBench,首次从「知识+育人」双维度评测大模型教育能力。测评2.4万道中文题后,实验结果显示:GPT-4o等顶尖AI会做题,却在启发思维、情感支持等育人能力上远不及人类,暴露AI当老师的关键短板。

近年来,大模型在知识问答、数学推理等方面取得了惊人进展。

然而,当这些技术被引入复杂的教育环境时,一个关键问题随之而来:我们现有的评估方式足够吗?我们如何全面评估它们的能力?一个好的「AI老师」仅仅是一个「解题高手」吗?

当前的评测基准,尤其是在中文领域,存在两大局限性:

  1. 维度单一:绝大多数基准(如C-Eval, MMLU等)主要关注模型的知识储备和理解能力,即「知识维度」。此外大多数基准题型简单,很难涵盖现实考试场景中的全部题型类型。

  2. 忽视能力:它们很大程度上忽视了教育场景中不可或缺的「育人维度」(Cultivation Capabilities),例如启发式教学、情感支持、道德价值观培养、批判性思维引导等。

近日,来自华东师范大学的研究者们推出了OmniEduBench,一个专为评估中文大模型「综合教育素质」而设计的全新基准,包含24,602个高质量问答对。

研究指出,现有基准大多集中在知识维度,而严重忽视了真实教育场景中至关重要的「育人能力」。


项目主页:https://mind-lab-ecnu.github.io/OmniEduBench/

论文链接:https://arxiv.org/pdf/2510.26422

代码仓库:https://github.com/remiMZ/OmniEduBench-code/tree/main

论文第一作者为华东师范大学智能教育学院副研究员张敏,其主要研究方向为多模态大模型及AI赋能教育。研究团队发现,即便是Gemini等顶尖闭源模型,在OmniEduBench的特定评测维度上也表现不佳,显示出当前大模型在真正「懂教育」上仍有显著差距。

OmniEduBench

覆盖全学段、全学科


OmniEduBench的核心创新在于其独特的双维度评估体系。

维度一:知识维度 (Knowledge Dimension)

这部分包含18,121个条目,旨在全面考察模型的学科知识掌握程度。

  • 全学段覆盖:涵盖从小学、中学、高中、大学到专业考试的五个难度级别。

  • 全学科覆盖:包含41个不同学科,从人文历史(如中国古代文学史)、理工科(如高等数学、植物生理学)到专业领域(如法学、医学综合)。

  • 题型丰富:包含11种常见的考试题型,如单选、多选、填空、简答、名词解释、案例分析和论述题等。


维度二:育人维度 (Cultivation Dimension)


这部分是OmniEduBench的精髓所在,包含6,481个条目,专注于评估模型在真实教学互动中的「软实力」。

聚焦核心素养,围绕6大细分领域和20个具体教学主题,如:

  • 思维与认知 (Thinking & Cognitive Skills):批判性思维、问题解决能力。

  • 个性化发展 (Personalized Development):启发式教学、兴趣驱动学习。

  • 情感与心理健康(Emotional & MentalHealth):同理心与共情、成长型思维。

  • 品格与价值观 (Character & Values):责任感、正直诚信。

例如,在「育人维度」中,模型需要面对这样的情景题:「有学生在参观烈士陵园时嬉笑打闹,我很生气,该怎么处理?」

考察的不仅是知识,更是模型的情商、价值观和教育智慧。


防泄露、高挑战

为了确保基准的质量与挑战性,OmniEduBench的构建过程堪称严苛,历经四道关卡:


  1. 多源收集 (927K):汇聚公开数据 (21K)、内部试卷等私有数据 (106K),并利用LLM生成场景化问答 (800K),确保数据来源的多样性与独特性。

  2. 结构化清洗 (657K):统一格式,提取学科、年级、题型等元数据,并进行去重、去敏感内容、去外部信息依赖等标准化清洗流程。

  3. 双机筛难 (50K):为避免模型「背题」,用两款强大的模型进行「对抗式」筛选。先用QWQ-32B过滤掉它能答对的简单题,再用更强的Qwen3-235B进行二次筛选,只保留高难度样本。

  4. 专家定版 (24.6K):最后,由50位硕士生和5位资深专家进行最终的人工审核与质量校验。最终抽样质检显示:整体质量4.8/5,答案准确性4.8/5,标注者一致性高达0.90。


实验结果

最强闭源模型也难应对

研究团队在OmniEduBench上对11个主流的闭源和开源LLM(包括GPT-4o, Gemini-2.5 Pro, Claude-4 Sonnet, Qwen系列, DeepSeek-V3.1等)进行了全面测试,结果发人深省:


发现一:知识维度「水土不服」,GPT-4o表现不佳在知识维度上,只有Gemini-2.5 Pro的平均准确率超过了60% (62.76%)。令人惊讶的是,强如GPT-4o在该项测试中表现不佳,准确率仅为24.17%,远低于多个顶尖开源模型(如QwQ-32B为53.87%)。这可能表明GPT系列在处理多样化、本土化的中文教育考试风格题目时存在明显的「水土不服」。

发现二:「育人」能力是集体短板,距人类水平差距巨大在更关键的育人维度上,所有模型都暴露了短板。尽管任务形式相对简单(多为选择题),但即便是表现最好的模型(QwQ-32B,准确率70.27%),与人类在该领域的表现相比,仍有近30%的巨大差距。这表明当前LLM在同理心、启发式引导等高级教育能力上普遍缺乏。

发现三:高难度子集 (OmniEduBench HARD) ,让顶尖模型「现形」研究团队还构建了一个高难度子集OmniEduBench HARD。在这个子集上,所有LLM的性能都出现了「断崖式」下跌,即便是最强的Gemini-2.5 Pro,准确率也不足50%,充分证明了该基准的挑战性和区分度。


为什么OmniEduBench很重要?

考验真实「可用性」:教育AI不应只是「解题器」。OmniEduBench首次将教育场景中的互动能力系统化、可量化,推动行业关注模型在启发、反馈等真实互动场景中的价值。

立足本土「适配性」:中文教育的语言文化与教学实践有其独特性。OmniEduBench是一个原生中文教育基准,从数据到任务定义都更「接地气」,能更准确地评估模型在本土环境下的表现。

结语与展望

OmniEduBench的发布,为中文大模型在教育领域的评测提供了一个急需的、更全面的视角。

它清晰地揭示了当前LLM的短板:尽管模型在知识获取上取得了长足进步,但在实现教育的核心目标——「育人」方面,仍有很长的路要走。

研究团队表示,未来的工作将探索育人维度中更复杂的问题类型,并引入多模态教育场景,以持续推动LLM和MLLM在教育领域的综合能力发展。

参考资料:

https://arxiv.org/pdf/2510.26422

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国可能已被五场战争包围,最先爆发战争的可能不是台湾

中国可能已被五场战争包围,最先爆发战争的可能不是台湾

boss外传
2025-10-17 15:30:03
“电老虎”寇伟,被公诉!

“电老虎”寇伟,被公诉!

中国基金报
2025-11-14 12:36:18
反超,樊振东赢了!

反超,樊振东赢了!

新京报
2025-11-14 13:16:17
毁天灭地震山河,在太平洋战争中大显神威的美军MK7型406毫米舰炮

毁天灭地震山河,在太平洋战争中大显神威的美军MK7型406毫米舰炮

知兵堂军事
2025-11-13 08:52:14
主持人程雷在上海超市购物,他打扮潮流,头发白了,但还是挺帅的

主持人程雷在上海超市购物,他打扮潮流,头发白了,但还是挺帅的

乡野小珥
2025-11-14 14:06:14
孙颖莎4-0迎战朱雨玲!赛后紧握拳头庆祝,小细节尽显高尚品格

孙颖莎4-0迎战朱雨玲!赛后紧握拳头庆祝,小细节尽显高尚品格

五姑娘台球
2025-11-13 21:09:27
华润城价格全面失守,投资客正在集体离场?

华润城价格全面失守,投资客正在集体离场?

楼市诸葛
2025-11-14 14:44:38
英美没想到!联手踢人民币出局,只为巩固美元,交易市场却变天了

英美没想到!联手踢人民币出局,只为巩固美元,交易市场却变天了

来科点谱
2025-11-14 08:56:48
事业单位最闲的岗位是啥?网友:气象局的人看到这个真是笑了

事业单位最闲的岗位是啥?网友:气象局的人看到这个真是笑了

解读热点事件
2025-10-08 00:20:03
毛主席的机要秘书谢静宜,她被开除党籍后说:我永远是党的女儿

毛主席的机要秘书谢静宜,她被开除党籍后说:我永远是党的女儿

大运河时空
2025-11-14 15:20:03
失业之后我才发现:搞钱的野路子原来这么多,而我却只知道上班

失业之后我才发现:搞钱的野路子原来这么多,而我却只知道上班

小鬼头体育
2025-11-11 08:58:38
网友发帖称中奖1200万却被骗光,彩票店老板回应:中奖人是一中年男子,曾买300万新房

网友发帖称中奖1200万却被骗光,彩票店老板回应:中奖人是一中年男子,曾买300万新房

每日经济新闻
2025-11-13 17:22:39
震惊!建筑行业难怪卷成这样,八竿子打不着的交警,居然也在挂证

震惊!建筑行业难怪卷成这样,八竿子打不着的交警,居然也在挂证

火山诗话
2025-11-14 10:52:13
倒闭14万家!曾年赚22亿的奶茶之王,加盟商怒挂条幅:血本无归!

倒闭14万家!曾年赚22亿的奶茶之王,加盟商怒挂条幅:血本无归!

青眼财经
2025-11-13 23:02:27
主谋竟是泽连斯基密友,美欧担忧援助去向,乌克兰腐败丑闻震动西方

主谋竟是泽连斯基密友,美欧担忧援助去向,乌克兰腐败丑闻震动西方

环球网资讯
2025-11-14 06:45:32
高市早苗彻底呆住了,解放军还没动手,日本掀起内讧了。

高市早苗彻底呆住了,解放军还没动手,日本掀起内讧了。

荆楚寰宇文枢
2025-11-13 21:53:10
选择南渡的傅斯年,在去世16年后却祸及了在大陆的家人,令人唏嘘

选择南渡的傅斯年,在去世16年后却祸及了在大陆的家人,令人唏嘘

谈古论今历史有道
2025-11-13 17:40:03
闫妮与任素汐现身沈阳烤肉店,闫妮老得不能看,任素汐室内抽烟!

闫妮与任素汐现身沈阳烤肉店,闫妮老得不能看,任素汐室内抽烟!

小娱乐悠悠
2025-11-13 10:04:58
“5G之战爆发”,27国不许用华为,中方掀桌,为何先拿德国开刀?

“5G之战爆发”,27国不许用华为,中方掀桌,为何先拿德国开刀?

军机Talk
2025-11-14 10:51:48
高市早苗欲与朝鲜会面,朝鲜斥“千年宿敌”中国喊“砍头”,日本历史挑衅遭双线回击

高市早苗欲与朝鲜会面,朝鲜斥“千年宿敌”中国喊“砍头”,日本历史挑衅遭双线回击

星辰夜语
2025-11-14 19:41:11
2025-11-14 20:55:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13866文章数 66246关注度
往期回顾 全部

教育要闻

重磅!2026高考英语听力重大变化!

头条要闻

男子将昏迷妻子扔下土崖致死 女方13天前起诉离婚被驳

头条要闻

男子将昏迷妻子扔下土崖致死 女方13天前起诉离婚被驳

体育要闻

40岁C罗肘击染红 离场时怒骂对手主帅

娱乐要闻

王家卫让古二替秦雯写剧情主线?

财经要闻

财政部:加强逆周期和跨周期调节

科技要闻

京东“失去的五年”后,找到新增长了吗?

汽车要闻

小鹏X9超级增程动态评测全网首发 高速实测车内65分贝

态度原创

数码
艺术
健康
公开课
军事航空

数码要闻

当贝X7 Max:3000流明+4K变焦,家庭影院与游戏主场的新选择

艺术要闻

伟人写给宋庆龄的信:狂草艺术的巅峰之作

金振口服液助力科学应对呼吸道疾病

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

国防部:日方若胆敢铤而走险必将碰得头破血流

无障碍浏览 进入关怀版