网易首页 > 网易号 > 正文 申请入驻

入学考试题搬进中文大模型数据集,20477道题目,还带4个候选答案

0
分享至

机器之心专栏

机器之心编辑部

本文提出了 M3KE 基准数据集,以零样本、少样本形式测试中文大模型对于多级多学科知识的掌握能力。

随着中文大规模语言模型在自然语言理解与自然语言生成方面展现出强大的性能,现有针对特定自然语言处理任务的中文评测基准数据集已经不足以对中文大模型进行有效地评估。传统的中文评测基准主要关注模型对于简单常识(如雨天出门需要带伞)和表层语义(如篮球比赛的报道是体育类还是科技类新闻)的理解能力,而忽略了人类复杂知识的挖掘和利用。目前,针对中文大模型复杂知识评测的数据集十分匮乏,特别是涉及我国教育体系下不同层次和不同领域的专业知识。

为了弥补这一差距,天津大学自然语言处理实验室与华为诺亚方舟实验室联合发布了 M3KE(A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark for Chinese Large Language Models)基准数据集,以零样本、少样本形式测试中文大模型对于多级多学科知识的掌握能力。

论文链接:
https://arxiv.org/abs/2305.10263

数据链接:
https://github.com/tjunlp-lab/M3KE

M3KE 数据集

数据集介绍

M3KE 收集了 20,477 个真人标准化考试题目(包含 4 个候选答案),覆盖 71 个任务,包括小学、初中、高中、大学、研究生入学考试题目,涉及人文、历史、政治、法律、教育、心理学、科学、工程技术、艺术等学科,分布如 Fig 1 所示。

研究人员基于两个标准构建 M3KE 数据集:

1,契合中国教育体系,覆盖多教育阶段

研究人员模仿中国学生的教育经历,即小学、初中、高中、大学等主要教育阶段,旨在评估中文大模型在不同教育阶段下的表现。由于每个教育阶段需要掌握的知识点不同(例如,在语文学科中,小学和初中的知识或考点存在明显的差异),因此,M3KE 在不同教育阶段会包含相同的学科。为了提高数据集中学科知识点的覆盖范围,研究人员选择了中国升学考试中的统考试题,包括小升初、中考、高考,研究生入学考试和中国公务员考试等真题题目。

2,覆盖多学科领域

为提高数据集的学科覆盖率,研究人员基于人文艺术、社会科学和自然科学三大类进行构建,包括:文学、理学,历史、政治、法学、教育学、心理学、科学、工程技术、艺术等学科。为进一步拓展数据集的丰富度,研究人员补充了中医、宗教以及计算机等级考试等任务。

数据集统计

Table 3 显示了 M3KE 的整体统计数据。上述四个学科类别中的任务数量分别为 12、21、31 和 7,而四个学科类别中的问题数量分别为 3,612、6,222、8,162 和 2,126。任务中包含的问题最大数量为 425,最小数量为 100。社会科学和自然科学的问题通常比艺术与人文学科和其他科目的问题更长,而它们的答案选项较短。

多学科视角下的 M3KE 介绍及示例

人文艺术

人文与艺术学科包括语文、艺术和历史等多个领域的学科。这些学科注重对文学和文化文物的分析和解释等,以小学语文为例,考试题目旨在评估 7 至 13 岁学生的语言运用和文学欣赏能力,如使用同义词和反义词的能力。历史学科则涵盖从古代到现代的中国和世界历史。除人文学科外,M3KE 还包括艺术科目,如舞蹈、美术、音乐、电影等,艺术是人类文化的重要组成部分,评测中文大模型在艺术领域的表现同样重要。

美术任务示例:

下面关于拉斯科洞穴壁画说法错误的是?

A. 这个壁画是在法国发现的

B. 发现的动物形象有 100 多个

C. 发现的时间为 1940 年

D. 壁画颜色以黑色为主

世界近现代史任务示例:

从尼德兰革命到法国大革命历时两个多世纪,而此后仅半个世纪资本主义就初步形成了一个世界体系,这主要是因为?

A. 法国大革命的影响得到广泛传播

B. 维也纳体系激化了各国社会矛盾

C. 工业革命使资本主义力量迅速增强

D. 殖民统治遍及世界各大洲

社会科学

社会科学重在人文学科的应用,如法律、政治、教育和心理等学科。政治课程贯穿初中、高中、大学、研究生多个教育阶段,其他学科则主要分布在大学阶段的课程中。社会科学还包括经济和管理学任务,这些任务的试题选自中国研究生入学考试中的经济学联考和管理学联考,知识涉及微观经济学、宏观经济学、管理学和逻辑学等。

刑法学任务示例:

甲欲杀乙,将毒药投入乙的饭食中。乙服食后,甲后悔,赶紧说明情况,并将乙送往医院抢救。医院在抢救过程中检查发现,甲所投放的 "毒药" 根本没有毒性,乙安然无恙。甲的行为属于?

A. 不构成犯罪

B. 犯罪未遂

C. 犯罪中止

D. 犯罪既遂

教育学原理任务示例:

教育研究中最基本、最常用的研究方法是?

A. 教育观察研究

B. 教育调查研究

C. 教育测量研究

D. 教育实验研究

自然科学

自然科学包括工程学、科学、医学和数学、物理学、化学、生物学等基础学科。这些学科通常需要复杂的计算、分析和逻辑推理能力。在我国教育体系中,同一学科在不同阶段会涉及不同类型的知识。例如,小学数学主要学习基本的算术运算,而高中数学则涵盖更高级的数学概念,如数列、导数、几何等。

动物生理学任务示例:

使用普鲁卡因麻醉神经纤维,影响了神经纤维传导兴奋的哪一项特征?

A. 生理完整性

B. 绝缘性

C. 双向传导性

D. 相对不疲劳性

操作系统任务示例:

目录形式对文件的检索效率影响很大,下列最高级的目录形式是?

A. 单级目录

B. 两级目录

C. 三级目录

D. 树形目录

其它

其他类型的任务包括宗教、中国公务员考试,计算机等级考试等。这些任务需要的知识不局限于上述单一层次或学科的知识。如中国公务员考试涉及常识、人文、逻辑等知识,因此研究人员将这些任务视为对中文大模型综合知识的评估。

中国公务员考试任务示例:

以前有几项研究表明,食用巧克力会增加食用者患心脏病的可能性。而一项最新的、更为可靠的研究得出的结论是:食用巧克力与心脏病发病率无关。估计这项研究成果公布以后,巧克力的消费量将会大大增加。上述推论基于以下哪项假设?

A. 尽管有些人知道食用巧克力会增加患心脏病的可能性,却照样大吃特吃

B. 人们从来也不相信进食巧克力会更容易患心脏病的说法

C. 现在许多人吃巧克力是因为他们没有听过巧克力会导致心脏病的说法

D. 现在许多人不吃巧克力完全是因为他们相信巧克力会诱发心脏病

中医学任务示例:

人参有大补元气、益气固脱的作用,而用于慢性虚弱性疾病常以何药作代用品?

丹参

党参

黄芪

太子参

多教育阶段视角下的 M3KE 介绍和示例

研究人员按照中国教育体系对数据集进行了分阶段,包括小学、初中、高中、大学及研究生入学考试。同样,研究人员还选择一些教育体系外的考试科目,如计算机等级考试和中国公务员考试等。

小学

小学语文任务示例:

下列词语书写完全正确的一项是?

A. 天籁之音 行云流水 笔走龙蛇 翻箱倒柜

B. 高山流水 轻歌曼舞 画龙点睛 别出心栽

C. 余音绕梁 巧夺天功 妙笔生花 焦躁不安

D. 黄钟大吕 惟妙惟肖 栩栩如生 精兵减政

小学数学任务示例:

一件商品,先提价 20%,以后又降价 20%,现在的价格与原来相比?

A. 提高了

B. 降低了

C. 不变

D. 不知道

初中

初中语文任务示例:

下列说法正确的一项是?

A. 《最苦与最乐》选自《梁启超文选》,作者梁启超是明代思想家、学者

B. 《邹忌讽齐王纳谏》选自《战国策》,《战国策》是战国时游说之士的策谋和言论的汇编,由东汉的刘向编订为三十三篇

C. 词又称 “长短句”,句式长短不一。兴盛于宋代,苏轼和辛弃疾是豪放派的代表人物,而李清照是婉约派的代表人物

D.《岳阳楼记》实际上是一篇借物言志的文章,寄寓了作者与民同乐的思想

初中政治任务示例:

班级要以 “崇尚法治精神” 为主题制作黑板报,小兰负责 “践行平等” 版块内容的编写。以下她搜集的素材适合入选的是?

A. 公交车上设有 “老弱病戏孕” 爱心专座

B. 中学生到革命传统教育基地参加研学活动

C. 解放军战士不畏严寒酷暑,守卫祖国边疆

D. 同学们利用节假日到街头清除小广告

高中

高中语文任务示例:

沈括在《梦溪笔谈》中说道:“天地之变,寒暑风雨,水旱螟蝗,率皆有法。” 这句话的哲学寓意是?

A. 规律是客观事物变化的根本原因

B. 规律具有客观性、普遍性

C. 要学会用联系的观点看问题

D. 要学会用发展的观点看问题

高中生物任务示例:

环境容纳量取决于一个种群所处的环境条件。下列叙述正确的是?

甲乙两地的灰喜鹊种群的环境容纳量一定是相同的

生活在某草原的东亚飞蝗不同年份的环境容纳量可能是相同的

当种群数量接近环境容纳量时,死亡率会升高,出生率不变

生活在微山湖中的鲫鱼和黑鱼环境容纳量是相同的

大学

大学口腔医学任务示例:

排在我国口腔癌之首的是?

A. 牙槽黏膜癌

B. 颊黏膜癌

C. 唇癌

D. 舌癌

大学经济学综合任务示例:

下列项目哪一项应计入 GDP?

A. 政府转移支付

B. 购买一辆用过的汽车

C. 企业支付的贷款和债券利息

D. 购买彩票赢得的 1 万元

其它

计算机等级考试之计算机基础任务示例:

因某工作表数据非常多,在滚动浏览时第一行的标题无法始终看到,应如何操作才能始终看到标题行,最快捷的方法是?

A. 设置 “打印标题”

B. 冻结窗格

C. 冻结首行

D. 冻结首列

宗教任务示例:

宗教能够与社会主义社会相适应的政治基础是?

A. 人民民主专政国家政权的建立

B. 广大教徒是拥护社会主义制度的,同全国人民在根本利益上是一致的

C. 中国共产党领导和执政地位的确立

D. 独立自主,自办教会

实验

评测模型

GLM-335M/10B/130B,由清华大学开发的预训练大语言模型,支持中、英文双语。研究人员选择 GLM 中文版的三个模型,参数规模分别为 335M, 10B 和 130B。

BLOOM-7.1B,Hugging Face 推出的多语言大模型,由数百名研究人员合作开发。

ChatGLM-6B,由清华大学开发的语言模型,使用指令数据微调,并通过基于人类反馈的强化学习进一步训练。

MOSS-16B-SFT, 由复旦大学开发的语言模型,实验中使用经过指令微调版的 MOSS-moon-003-SFT 版本。

BELLE-7B-0.2M,基于 BLOOMZ-7.1B-mt 开发的经过 20 万条指令微调的语言模型。

BELLE-7B-2M,基于 BLOOMZ-7.1B-mt 开发的经过 200 万条指令微调的语言模型。

GPT-3.5-turbo,由 OpenAI 开发的语言模型。采用人工构建的高质量指令数据,进行人类反馈强化学习训练。

Zero-shot/Few-shot 评估

在零样本设置条件下,模型要求直接回答问题;在少样本设置条件下,会预先给定模型同任务的若干示例,引导模型进行情景学习(In-Context Learning)。在 M3KE 中,所有题目均使用准确率计算得分。

不同学科类别下的评测结果

不同教育阶段下的评测结果

实验结果分析

1,在零样本评估中(Table 4&6),所有参数小于 10B 的预训练语言模型(未经过微调)准确率都低于随机结果(25%),少样本的设置(Table 5&7)有助于模型性能的提升。但是,GLM130B 在零样本评估的结果好于少样本评估结果,原因可能是 GLM130B 在预训练阶段已经使用了部分指令数据,使其已经具备较好的零样本学习能力。

2,大部分经过微调后的中文大模型仅达到随机结果(25%)水平,即使在小学阶段的测试中(Table 6&7)。这说明较低教育阶段中的知识仍然是当前中文大模型的短板之一。

3,在零样本评估中,BELLE-7B-2M 取得了中文大模型中最好的成绩,但仍然与 GPT-3.5-turbo 有 14.8% 的差距。此外,有监督微调指令的数量也是一个重要的因素,经过两百万指令微调的 BELLE-7B-2M 好于经过二十万指令微调的 BELLE-7B-0.2M(Table 4)。

4,少样本的设置在大多数情况下并没有带来性能的改善(Table 5&7 vs Table 4&6),尤其是经过指令微调或基于人类反馈的强化学习训练后的语言模型。这表明对预训练语言模型进行指令微调可以显著提升语言模型的零样本学习能力,不需要额外的示例就能理解指令或问题的意图。

结论

研究人员提出了一个新的基准 M3KE,用于评估中文大模型在多个学科和不同教育阶段下中文大模型知识掌握能力。M3KE 包含 71 个任务和 20,447 个问题。研究人员发现,所有参与评估的开源中文大模型都明显落后于 GPT-3.5。研究人员希望 M3KE 有助于发现中文大模型的知识漏洞,促进中文大模型进一步的发展。

M3KE 中所有的任务

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
还没进行大规模基建的印度GDP增长率居然达到7.1%,匪夷所思!

还没进行大规模基建的印度GDP增长率居然达到7.1%,匪夷所思!

商业思维纵横
2023-12-05 11:15:18
刚上市就“火了”!61天就卖出26050台,油耗才0.7L,还降2万

刚上市就“火了”!61天就卖出26050台,油耗才0.7L,还降2万

你没见过的绝活
2023-12-06 08:45:07
做事不要妇人之仁,看张居正的问路斩樵,跟古人学学如何对待小人

做事不要妇人之仁,看张居正的问路斩樵,跟古人学学如何对待小人

纪实社会百态
2023-11-29 11:23:22
刘宇宁是怎么进去娱乐圈的啊?他的颜值并不高啊

刘宇宁是怎么进去娱乐圈的啊?他的颜值并不高啊

娱乐综艺巴士站
2023-12-05 17:38:48
不出所料,财经江湖人称“叶女侠”之叶檀,最新检查结果已经公布

不出所料,财经江湖人称“叶女侠”之叶檀,最新检查结果已经公布

娱乐圈的大爆炸
2023-12-06 09:06:42
华国锋担任代总理后,江青问如何登报?毛主席:好办,去掉一个字

华国锋担任代总理后,江青问如何登报?毛主席:好办,去掉一个字

种花家历史
2023-12-05 16:24:55
张玉凤晚年接受采访,透露国家最高机密: 毛主席并不是宣传的那样

张玉凤晚年接受采访,透露国家最高机密: 毛主席并不是宣传的那样

稷下花语
2023-12-03 05:30:03
山东初中生平均身高1米75以上,引发网友热议:为什么这么高?

山东初中生平均身高1米75以上,引发网友热议:为什么这么高?

请叫我教育君
2023-12-06 08:32:57
刘伯温、李淳风神秘预言:2024更加难熬,会有一位圣人浮出尘世

刘伯温、李淳风神秘预言:2024更加难熬,会有一位圣人浮出尘世

心灵短笛
2023-11-23 16:54:00
2024春晚主持人名单一锤定音,董卿由龙洋替代,董卿不再回归!

2024春晚主持人名单一锤定音,董卿由龙洋替代,董卿不再回归!

开心蕾蕾
2023-12-04 14:11:44
教育部任命:周大旺同志为科学技术与信息化司司长

教育部任命:周大旺同志为科学技术与信息化司司长

中国教育在线
2023-12-05 16:40:11
反转!一场4-3令阿森纳队内再变天,25岁悍将重新上位,取代拉亚

反转!一场4-3令阿森纳队内再变天,25岁悍将重新上位,取代拉亚

球场没跑道
2023-12-06 08:00:18
阿里巴巴将首次派发年度股息

阿里巴巴将首次派发年度股息

三言科技
2023-12-06 08:59:50
这才是羊脂玉

这才是羊脂玉

运动界观察者
2023-12-06 08:32:47
格局!广东北控赛前训练,闵鹿蕾主动和杜锋打招呼,两人握手大笑

格局!广东北控赛前训练,闵鹿蕾主动和杜锋打招呼,两人握手大笑

时光见证
2023-12-06 12:45:04
林永健儿子一表人才!他应该是整个娱乐圈,最会遗传的星二代了!

林永健儿子一表人才!他应该是整个娱乐圈,最会遗传的星二代了!

花花lo先森
2023-12-04 11:16:38
特斯拉11月在华销量下跌17.8%,创一年来最大跌幅

特斯拉11月在华销量下跌17.8%,创一年来最大跌幅

车林外传
2023-12-05 09:39:15
18日退休工资7530多直接掉到3650元,退休老师声称心里不是滋味

18日退休工资7530多直接掉到3650元,退休老师声称心里不是滋味

呼呼历史论
2023-12-06 03:38:34
黄暐瀚发文明确远离柯文哲阵营

黄暐瀚发文明确远离柯文哲阵营

科学档案录
2023-12-06 11:15:28
27岁儿子跟妈妈睡一张床,洗澡时互相搓背,越界的亲情不堪入目

27岁儿子跟妈妈睡一张床,洗澡时互相搓背,越界的亲情不堪入目

大家里的小家事
2023-12-05 07:11:09
2023-12-06 13:56:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
8484文章数 141727关注度
往期回顾 全部

教育要闻

教育部办公厅关于开展2024届高校毕业生秋季校园招聘月系列活动的通知

头条要闻

美媒:顶住欧美的孤立压力 普京"罕见出访"两国

头条要闻

美媒:顶住欧美的孤立压力 普京"罕见出访"两国

体育要闻

肯德基打工仔说要踢英超 大家听笑了

娱乐要闻

五月天主唱阿信发声:做好自己

财经要闻

当低垂的果实被摘完,抖音如何强攻美团?

科技要闻

被中国跨境电商"逼急了"!亚马逊大幅削减抽佣比例

汽车要闻

纯电70/150公里/预售9.38万起 五菱星光今上市

态度原创

教育
房产
亲子
手机
时尚

教育要闻

继新闻学后,张雪峰又砸一类专业饭碗?给普通考生推荐10个专业

房产要闻

直降100万!丰台「首开•君礼著」推出一口价房源

亲子要闻

男孩被小鸡踢踹,选择以牙还牙,网友:今晚必须加餐

手机要闻

OPPO Find X7工程机曝光:四摄+八卦阵镜头,明年1月发布

她可能是内娱争议最大的女明星?

无障碍浏览 进入关怀版