网易首页 > 网易号 > 正文 申请入驻

AI大模型“高考”成绩公布:几乎都偏文,数学有点差,解题思路特别“轴”

0
分享至

2024年全国高考甫一结束,上海人工智能实验室旗下的大模型开源开放评测体系司南(OpenCompass)选取国内外7个AI大模型进行高考全科目测试,7名AI考生的试卷,由具有高考评卷经验的教师在不知考生身份的情况下判分。

日前,测试结果出炉:书生·浦语2.0系列文曲星大语言模型、阿里通义千问大模型Qwen2-72B以及GPT-4o的成绩在所有AI考生中位列前三。以今年河南省分数线为参考,这三名AI考生的文科成绩均超"一本线",理科成绩稳居"二本线"之上。

分析AI考生们交上的答卷,业内认为,在现阶段,大模型在解决记忆类和逻辑类难题时与人类有着天差地别的思考轨迹,但这也为此后AI的进化指明了方向。

语言类考试表现不俗,数学简答题成"越不过去的坎"

此次测试结果显示,AI考生都有些偏科,且貌似都是"文科生"。

7个大模型中,有4个在新课标I卷的英语测试中取得130以上的高分,其中GPT-4o拔得英语测试头筹,还在作文上得到了一位英语阅卷老师的欣赏,称其"句型丰富,语言无瑕疵",只是字数稍少,所以酌情扣1分。

此外,AI考生的语文新课标I卷答题表现也不错:在现代文阅读、古诗文阅读、名句默写和作文上均有高于70%的平均得分率。

AI通常被认为应该在逻辑思维方面有着出色能力,但此次测试中,AI考生面对数学新课标I卷几乎"全军覆没",得分均未达到总分的一半(即75分)。数学简答题更成了这群考生"越不过去的坎",五道简答题的平均得分率仅为18.9%。

复旦大学计算机科学技术学院教授张军平介绍,此次参加测试的AI考生都是语言类大模型,接受过语料库训练,因此在作答语言类试卷时较有优势。而在数理类科目的考查中,由于要求考生具有一定推理能力,而这项能力一直以来都是大模型的短板。

"快系统"思维模式,让AI考生不会"打草稿"

为啥AI考生会偏科,还偏得如此厉害?多位深耕人工智能领域的研究者指出,这和现阶段大模型的"思考"方式有很大关系。

"做题时,人一般是先形成解题思路,然后再作答。但AI则不然,不管三七二十一,直接硬做,做不出来再‘乱凑’。"上海人工智能实验室相关负责人告诉记者,数理类题目的解题过程有极高的不确定性,因此,人类考生通常会先在草稿纸上理清思路,再开始答题。而大模型则是依次生成文本,缺乏一种"打草稿"的能力,答题时如果它们一开始思路走偏,基本就没有挽回余地。

"AI考生和人类考生的这两种思维模式,分别可以类比为丹尼尔·卡尼曼在《思考,快与慢》中提出的‘快系统’和‘慢系统’。"张军平解释说,AI总是快速输出答案,运用概率运算模拟推理过程,而人类对问题的认识往往依赖经验积累,可以整体、宏观地看事物,所以也看得更深入些。

试卷上暴露的问题,也是AI发展的"新考卷"

在高考这场选拔赛上,人类暂时还是远超AI的。"组织AI大模型参加高考,是为了评测当前大模型的真实水平,找准问题,持续推进技术进步。"上海人工智能实验室相关负责人强调,AI考生的成绩同时暴露了大模型的优势及软肋,也为其未来的发展提出了许多值得思考的方向。

上海人工智能实验室相关负责人告诉记者,大部分模型尚不存在自行纠错的能力,做错了也要"硬闯"到底,甚至通过"胡说八道"圆回来。所以,提升纠错能力或许是未来大模型训练中需要格外注意的。

此外,大模型的"幻觉"仍然存在,它们会"一本正经"地虚构内容。"此次测试中,有的大模型会杜撰诗句,让部分阅卷老师误以为真的存在它们编出的某首诗,只是自己不知道。"人工智能实验室相关负责人补充,如何提升AI的可信度,仍然在路上。

  作者:张菲垭

文:见习记者 张菲垭 图:视觉中国 编辑:张菲垭 责任编辑:樊丽萍

转载此文请注明出处。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
陈光标又闹笑话了,火速删掉博文!

陈光标又闹笑话了,火速删掉博文!

葱哥说
2026-04-08 13:12:40
马斯克被调查,震动行业!

马斯克被调查,震动行业!

互联网品牌官
2026-04-08 09:52:27
大换血!王励勤秦志戬"断腕",弃用4大猛将,新阵藏着哪些狠招?

大换血!王励勤秦志戬"断腕",弃用4大猛将,新阵藏着哪些狠招?

八斗小先生
2026-04-08 14:57:20
11:2!中俄联手投反对票,伊朗感谢主持公道,特朗普急忙喊话中国

11:2!中俄联手投反对票,伊朗感谢主持公道,特朗普急忙喊话中国

阿天爱旅行
2026-04-08 17:23:12
拼命演戏还清一亿四千万巨债,豪门梦醒,现回浙江农家过踏实日子

拼命演戏还清一亿四千万巨债,豪门梦醒,现回浙江农家过踏实日子

距离距离
2026-04-06 20:51:58
特朗普将撤销4000名在美伊朗精英的签证,并将其驱逐出境

特朗普将撤销4000名在美伊朗精英的签证,并将其驱逐出境

山河路口
2026-04-07 22:35:19
赖清德怕了、想拉美国下水,转头发现:郑丽文要毁他的“命根”了

赖清德怕了、想拉美国下水,转头发现:郑丽文要毁他的“命根”了

野史日记
2026-04-08 07:45:05
停车场偶遇“球花”,好看的人,披块布都好看

停车场偶遇“球花”,好看的人,披块布都好看

飛娱日记
2026-03-13 08:10:03
撕毁合同倒向日本,拒赔中国361亿违约金,这个国家如今怎么样了

撕毁合同倒向日本,拒赔中国361亿违约金,这个国家如今怎么样了

涵豆说娱
2026-04-08 20:05:39
签证被“倒查”!华人妈妈移民12年后被要求离境:只因十多年前一次遗漏

签证被“倒查”!华人妈妈移民12年后被要求离境:只因十多年前一次遗漏

华人生活网
2026-04-09 02:36:26
美股大涨,道指狂飙1300点,中概股爆发,原油盘中创近六年最大跌幅

美股大涨,道指狂飙1300点,中概股爆发,原油盘中创近六年最大跌幅

第一财经资讯
2026-04-09 07:26:58
马士基暂不恢复霍尔木兹航线

马士基暂不恢复霍尔木兹航线

每日经济新闻
2026-04-08 22:39:29
维嘉拒给亲妈遗产引争议,何炅落泪力挺

维嘉拒给亲妈遗产引争议,何炅落泪力挺

无处遁形
2026-04-07 12:06:48
这样的“规则”太“霸王” !无法说话,四肢瘫痪,16岁女孩误购演唱会门票求退票,平台规则“概不退票”

这样的“规则”太“霸王” !无法说话,四肢瘫痪,16岁女孩误购演唱会门票求退票,平台规则“概不退票”

新民晚报
2026-04-08 12:58:55
阿里巴巴集团CEO发全员信,宣布重大人事变动

阿里巴巴集团CEO发全员信,宣布重大人事变动

ZAKER新闻
2026-04-08 18:29:22
俄已经有三支主要的反俄武装了  最大的一支有数万人

俄已经有三支主要的反俄武装了 最大的一支有数万人

律法刑道
2026-04-07 11:00:43
巴萨球迷意难平!不止因为0-2不敌马竞失先机,更多在于以下6点!

巴萨球迷意难平!不止因为0-2不敌马竞失先机,更多在于以下6点!

球场新视角1号
2026-04-09 07:13:43
清明后,这5种水果尽量别买,不是迷信,老祖宗的经验要记牢

清明后,这5种水果尽量别买,不是迷信,老祖宗的经验要记牢

江江食研社
2026-04-08 18:30:11
李镇全逃过处罚!媒体人热议:骂人会激怒对手,搞不好或反噬自身

李镇全逃过处罚!媒体人热议:骂人会激怒对手,搞不好或反噬自身

奥拜尔
2026-04-08 23:28:32
英国遭到拒绝后发出警告,中国若不合作,中企海外资产将被没收!

英国遭到拒绝后发出警告,中国若不合作,中企海外资产将被没收!

真正能保护你的
2026-04-08 04:20:50
2026-04-09 07:56:49
文汇报 incentive-icons
文汇报
华语世界高品质人文阅读平台
274663文章数 310000关注度
往期回顾 全部

科技要闻

吴泳铭成立阿里技术委员会 为何这四人入选

头条要闻

特朗普称"彻底胜利" 美媒:目标一个没实现还陷入困境

头条要闻

特朗普称"彻底胜利" 美媒:目标一个没实现还陷入困境

体育要闻

40岁,但实力倒退12年

娱乐要闻

侯佩岑全家悉尼度假,一家四口幸福满溢

财经要闻

谁骗了董宇辉?

汽车要闻

20万级满配华为全家桶 华境S是懂家庭的大六座

态度原创

本地
家居
艺术
公开课
军事航空

本地新闻

跟着歌声游安徽,听古村回响

家居要闻

自在恣意 侘寂风别墅

艺术要闻

赵丽颖再传喜讯,获央视点赞!网友:她的底气,藏不住了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

文化符号当“弹药” 美伊将信息战带入新阶段

无障碍浏览 进入关怀版