网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

【AI高考挑战】上海人工智能实验室首秀：303分的奇迹与数学科目的滑铁卢

2024-06-20 20:35:33　来源: AIGC视界汇

北京举报

0

分享至

上海人工智能实验室近期公布了首个针对人工智能模型的高考全卷评测结果。这次评测涵盖了语文、数学和英语三门科目，总分满分为420分。根据评测结果，参与测试的人工智能模型在语文和英语方面表现较好，但在数学部分则全部不及格，最高分仅为75分。

评测背景与目的： 评测由上海人工智能实验室旗下司南评测体系OpenCompass进行，旨在评估AI模型在高考“语数外”三科全卷的能力。

参与评测的模型包括6个开源模型及OpenAI的GPT-4o，确保所有模型在高考前已开源，保证评测的“闭卷”性。

评测方法与标准： 评测采用全国新课标I卷，确保与真实高考具有相同的难度和考察范围。

成绩由具有高考评卷经验的教师人工评判，以更接近真实阅卷标准。

模型测评分别为：

阿里通义千问2-72B模型在综合评测中排名第一，总分达到了303分。

OpenAI的GPT-4o模型紧随其后，获得了296分。

上海人工智能实验室自家的“书生·浦语”2.0模型位列第三。

这三个模型的得分率均超过了70%，显示出它们在语文和英语方面的强大理解与生成能力。

法国大模型初创公司Mistral的模型在这次评测中排名最末。

所有模型在数学部分的表现不佳，没有一个模型能够达到及格线。

详细分析： 语文与英语：大部分模型在这两科中表现良好，语文平均得分率为67%，英语更是达到了81%。

数学： 成为所有大模型的短板，平均得分率仅为36%，且无一及格。其中，书生·浦语2.0文曲星（InternLM2-20B-WQX）取得了75分的最高分，但仍未达到及格水平（及格分数通常为90分或满分的60%）。

其他参与模型：法国AI创业公司Mistral的Mixtral 8x22B模型、零一万物公司的Yi-1.5-34B模型、智谱AI的GLM-4-9B、阿里巴巴的通义千问Qwen2系列的混合专家（MoE）模型Qwen2-57B-A14B也参与了评测，但得分相对较低。

版权声明：图片和内容来源互联网

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

恶臭!上海一别墅区传出高频尖叫,居民不堪其扰

看看新闻Knews 2026-06-12 22:37:03
1207 跟贴 1207
刚刚，人类历史上首位万亿美元富豪诞生！

每日经济新闻 2026-06-12 22:32:06
1595 跟贴 1595

高铁行李架现白色宠物蛇列车长仅用塑料袋徒手拿捏

极目新闻 2026-06-12 10:06:52
1075 跟贴 1075

美拟撤走北约欧洲防务三分之一战机

界面新闻 2026-06-12 13:06:43
1691 跟贴 1691
公开征求意见！广州拟继续在全市所有道路禁止机动车鸣喇叭

南方都市报 2026-06-12 19:04:34
130 跟贴 130

“张雪机车”获得WSBK艾米利亚-罗马涅站杆位赛第三名

极目新闻 2026-06-12 23:00:07
29 跟贴 29

"中医匠人"卖课号称"行走的CT" 自称学技术可挣钱改命

新京报 2026-06-12 11:56:14
1272 跟贴 1272
“年年交1.5元一度电从来没变过，都麻木了” ，市民纷纷吐槽广州城中村电费加价

南方都市报 2026-06-12 08:28:28
77 跟贴 77

闹心！奥迪纯电SUV，提车三天“故障频发”！上海车主7个月报修10次，结果更闹心

新民晚报 2026-06-12 19:26:49
258 跟贴 258
5个月神话破灭！Donut Lab固态电池被实锤造假背后：从未实际生产过电池电芯，固态电池产业化仍需五到十年

每日经济新闻 2026-06-11 16:39:10
168 跟贴 168
揭秘：为什么不建议老旧家电“超期服役”?

北青网-北京青年报 2026-06-12 12:00:04
265 跟贴 265
上官正义：月薪2万武术教练、为取证曾请坏人吃饭、副业书法老师

社会日日鲜 2026-06-13 05:27:07
3 跟贴 3
吉利银河的单车依赖症更严重了

界面新闻 2026-06-12 15:11:25
55 跟贴 55
高考，考的不仅仅是分数

环球网资讯 2026-06-12 18:45:15
153 跟贴 153
韩国队逆转抢下出线主动权，“亚洲之光”孙兴慜状态堪忧

南方都市报 2026-06-12 14:20:14
48 跟贴 48
35岁老将揭幕战进球后双手指天泪洒赛场原因披露

红星新闻 2026-06-12 10:17:17
73 跟贴 73
海光信息在汉披露：国产CPU处理器性能已比肩英特尔

支点财经 2026-06-11 21:27:18
173 跟贴 173
证监会同意长鑫科技科创板IPO注册申请

财联社 2026-06-12 18:45:19
21 跟贴 21
中流砥柱记（伟大征程）

人民网 2026-06-12 06:37:31
51 跟贴 51
高铁站隐藏着什么猫腻？为什么女乘务员纷纷离职？内幕终被揭开

老王的视角 2026-06-13 04:48:44
0 跟贴 0
学校拖欠工程款耍赖，教体局甩锅:如此作为，怎能教好学生

胡言炫语 2026-06-13 05:33:57
0 跟贴 0

5000万砸懵乒坛！张本一家全入编，国乒根基被抄了？

5000万砸懵乒坛！张本一家全入编，国乒根基被抄了？

八卦阿弥

2026-06-11 12:09:42

好消息！网约车车等人时间改了，等满3分钟就能取消订单

好消息！网约车车等人时间改了，等满3分钟就能取消订单

呼呼历史论

2026-06-13 01:00:48

墙倒众人扶！被人民日报点名的李维刚，再次证明真诚才是必杀技

墙倒众人扶！被人民日报点名的李维刚，再次证明真诚才是必杀技

舊事別提

2026-06-12 07:09:01

“墨西哥吴镇宇”比肩梅西C罗奥乔亚六战世界杯

“墨西哥吴镇宇”比肩梅西C罗奥乔亚六战世界杯

大象新闻

2026-06-12 08:33:18

新一轮人事调整！涉及福建多家医院领导岗位

新一轮人事调整！涉及福建多家医院领导岗位

福建卫生报

2026-06-10 12:14:49

中学生深夜看色情网站上千部隐晦内容已吸引上亿次观看！

中学生深夜看色情网站上千部隐晦内容已吸引上亿次观看！

闪电新闻

2026-06-12 07:10:35

王守业贪污1.6亿，2005年“双规”后却被放出，他叫嚣：我摆平了

王守业贪污1.6亿，2005年“双规”后却被放出，他叫嚣：我摆平了

帝哥说史

2026-06-02 21:40:03

生育率的“回旋镖”还是呼啦啦来了

生育率的“回旋镖”还是呼啦啦来了

新浪财经

2026-05-18 07:42:35

贵州女子刚生产完，丈夫冲到产房将其脑袋砍下：她死有余辜

贵州女子刚生产完，丈夫冲到产房将其脑袋砍下：她死有余辜

莫地方

2026-06-04 01:45:03

日媒：赴日留学生人数突破40万人！中国大陆占近1/3

日媒：赴日留学生人数突破40万人！中国大陆占近1/3

随波荡漾的漂流瓶

2026-06-12 12:08:35

周末风雨上线，下周雨日增多，梅雨倒计时了？

周末风雨上线，下周雨日增多，梅雨倒计时了？

上海预警发布

2026-06-12 17:14:05

央媒发声：4400万电车或将开征养路费

央媒发声：4400万电车或将开征养路费

月下守候

2026-06-12 15:54:55

为什么在世界杯的广告牌上，你几乎看不到汽车品牌？

为什么在世界杯的广告牌上，你几乎看不到汽车品牌？

电科技网

2026-06-10 18:14:17

借钱创业的深圳4人组，干出个全球第一

借钱创业的深圳4人组，干出个全球第一

最商业Plus

2026-06-12 12:14:45

前TVB女星官宣儿子出生，正式成为妈妈，嫁给富商后淡出娱乐圈

前TVB女星官宣儿子出生，正式成为妈妈，嫁给富商后淡出娱乐圈

看尽落尘花q

2026-06-13 03:34:34

这很科学：89%的人幻想过同时和多人发生性行为，算精神出轨吗？

这很科学：89%的人幻想过同时和多人发生性行为，算精神出轨吗？

宇宙时空

2026-05-26 18:20:10

电讯报：韩国vs捷克官宣上座率98.5%，但大片空位让FIFA尴尬

电讯报：韩国vs捷克官宣上座率98.5%，但大片空位让FIFA尴尬

懂球帝

2026-06-12 17:20:12

一语成谶是一种怎样的体验？网友:她的儿子永远停留在了十七岁

一语成谶是一种怎样的体验？网友:她的儿子永远停留在了十七岁

夜深爱杂谈

2026-06-11 22:23:29

南通数十米长“巨无霸”预制件运输中移位，砸坏两车并截断马路，警方：致1人受伤

南通数十米长“巨无霸”预制件运输中移位，砸坏两车并截断马路，警方：致1人受伤

极目新闻

2026-06-12 21:59:05

79岁林子祥和老婆上海购物，叶蒨文打扮贵气，脖子上挂着几串珍珠

79岁林子祥和老婆上海购物，叶蒨文打扮贵气，脖子上挂着几串珍珠

一盅情怀

2026-06-12 19:26:34

专注于AIGC领域视觉创意内容分享

220文章数 0关注度

往期回顾全部

科技要闻

刚刚，人类历史上首位万亿美元富豪诞生！

头条要闻

SpaceX上市首日收涨19% 总市值报2.1万亿美元

头条要闻

SpaceX上市首日收涨19% 总市值报2.1万亿美元

体育要闻

欧洲恐韩？肉德维德？

娱乐要闻

一天4个瓜，肖战热巴最意外

财经要闻

万亿美元顺差背后，透露这些信号

汽车要闻

标配激光雷达/双动力可选昊铂S600限时售17.99万起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

时尚

教育

艺术

房产

健康

夏天别总穿一身白或一身黑！试试一半彩色、一半基础色，高级亮眼

教育要闻

唐尚珺第17次写高考作文：不后悔放弃中国政法大学，为救治父亲

艺术要闻

砸了640亿，再赔160亿！沙特“The Line”项目彻底凉了？

房产要闻

海南最赚钱行业曝光！最快4年半，海口全款买三房！

老人、小孩、孕妇，吃粽子有啥风险

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版