网易首页 > 网易号 > 正文 申请入驻

【AI高考挑战】上海人工智能实验室首秀:303分的奇迹与数学科目的滑铁卢

0
分享至

上海人工智能实验室近期公布了首个针对人工智能模型的高考全卷评测结果。这次评测涵盖了语文、数学和英语三门科目,总分满分为420分。根据评测结果,参与测试的人工智能模型在语文和英语方面表现较好,但在数学部分则全部不及格,最高分仅为75分。

评测背景与目的: 评测由上海人工智能实验室旗下司南评测体系OpenCompass进行,旨在评估AI模型在高考“语数外”三科全卷的能力。

参与评测的模型包括6个开源模型及OpenAI的GPT-4o,确保所有模型在高考前已开源,保证评测的“闭卷”性。

评测方法与标准: 评测采用全国新课标I卷,确保与真实高考具有相同的难度和考察范围。

成绩由具有高考评卷经验的教师人工评判,以更接近真实阅卷标准。

模型测评分别为:

阿里通义千问2-72B模型在综合评测中排名第一,总分达到了303分。

OpenAI的GPT-4o模型紧随其后,获得了296分。

上海人工智能实验室自家的“书生·浦语”2.0模型位列第三。

这三个模型的得分率均超过了70%,显示出它们在语文和英语方面的强大理解与生成能力。

法国大模型初创公司Mistral的模型在这次评测中排名最末。

所有模型在数学部分的表现不佳,没有一个模型能够达到及格线。

详细分析: 语文与英语:大部分模型在这两科中表现良好,语文平均得分率为67%,英语更是达到了81%。

数学: 成为所有大模型的短板,平均得分率仅为36%,且无一及格。其中,书生·浦语2.0文曲星(InternLM2-20B-WQX)取得了75分的最高分,但仍未达到及格水平(及格分数通常为90分或满分的60%)。

其他参与模型:法国AI创业公司Mistral的Mixtral 8x22B模型、零一万物公司的Yi-1.5-34B模型、智谱AI的GLM-4-9B、阿里巴巴的通义千问Qwen2系列的混合专家(MoE)模型Qwen2-57B-A14B也参与了评测,但得分相对较低。

版权声明: 图片和内容 来源互联网

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方终于动手,大批货轮空集装箱离开,巴媒:中资撤离或重创经济

中方终于动手,大批货轮空集装箱离开,巴媒:中资撤离或重创经济

谛听骨语本尊
2026-03-13 18:27:49
美国恨透了中国北斗,却不敢轻易干扰北斗信号,美在害怕什么?

美国恨透了中国北斗,却不敢轻易干扰北斗信号,美在害怕什么?

阿纂看事
2026-03-04 11:40:53
伊朗这一战把美军底裤扒光,全球军事格局从此改写

伊朗这一战把美军底裤扒光,全球军事格局从此改写

纪史行者
2026-03-10 07:45:50
刘强东500亿接盘48座万达广场,救王健林于水火,真相远不止救急

刘强东500亿接盘48座万达广场,救王健林于水火,真相远不止救急

老特有话说
2026-03-13 14:20:28
花600万买别墅签完合同才发现旁边有公墓,拒付4万中介费,买方被中介告上法庭

花600万买别墅签完合同才发现旁边有公墓,拒付4万中介费,买方被中介告上法庭

红星新闻
2026-03-13 16:28:10
免费变收费,乘客却增加了!上海打网约公交车的人越来越多了,票价1元,不用挤公交、也不用站站停

免费变收费,乘客却增加了!上海打网约公交车的人越来越多了,票价1元,不用挤公交、也不用站站停

新闻晨报随申Hi
2026-03-13 22:00:09
卡里克谈斯科尔斯在社媒的言论;邮报记者:卡里克的言行举止就像他认为自己能留任

卡里克谈斯科尔斯在社媒的言论;邮报记者:卡里克的言行举止就像他认为自己能留任

MUREDS
2026-03-13 23:29:21
火锅店竹筒餐具现黑色斑点,店方否认发霉,监管部门:已送检并责令下架类似问题餐具

火锅店竹筒餐具现黑色斑点,店方否认发霉,监管部门:已送检并责令下架类似问题餐具

极目新闻
2026-03-13 19:52:03
伊朗将袭击英伟达!

伊朗将袭击英伟达!

中国半导体论坛
2026-03-12 22:31:09
人要坏成什么样子,才能干出这种自导自演砸人饭碗的事?

人要坏成什么样子,才能干出这种自导自演砸人饭碗的事?

胖胖说他不胖
2026-03-13 09:00:25
中国打捞沉于威海的英国海神号潜艇,卡梅伦指责中方窃取其技术

中国打捞沉于威海的英国海神号潜艇,卡梅伦指责中方窃取其技术

唠叨说历史
2026-03-13 18:27:10
演员王鹤润评论王玉雯“古装太肿太蠢”,本人道歉:没有任何理由和借口

演员王鹤润评论王玉雯“古装太肿太蠢”,本人道歉:没有任何理由和借口

红星新闻
2026-03-13 12:54:13
伊朗武装部队誓言卫国至最后一滴血

伊朗武装部队誓言卫国至最后一滴血

财联社
2026-03-13 00:29:08
第二个富士康?关停120亿工厂、10万工人丢掉饭碗,未来何去何从

第二个富士康?关停120亿工厂、10万工人丢掉饭碗,未来何去何从

胖福的小木屋
2026-03-13 11:09:42
震惊!一网友称到40多岁玩腻了,出去花钱也没爽点,内心一潭死水

震惊!一网友称到40多岁玩腻了,出去花钱也没爽点,内心一潭死水

火山詩话
2026-03-12 07:06:51
卡里克建议曼联出售4人,偿还4亿欠款!铁腰玩物丧志训练最早走人

卡里克建议曼联出售4人,偿还4亿欠款!铁腰玩物丧志训练最早走人

罗米的曼联博客
2026-03-14 08:32:00
日本争相曝光“高市丑闻”!一条比一条劲爆

日本争相曝光“高市丑闻”!一条比一条劲爆

这里是东京
2026-03-13 17:51:55
这是同一个人吗?

这是同一个人吗?

太急张三疯
2026-03-13 12:00:15
未被人类征服的6666米:为什么冈仁波齐至今无人登顶

未被人类征服的6666米:为什么冈仁波齐至今无人登顶

似水流年忘我
2026-03-13 21:30:34
吉利发布最强磷酸铁锂电池,这是要做电池行业新标杆?

吉利发布最强磷酸铁锂电池,这是要做电池行业新标杆?

优视汽车
2026-03-12 11:34:34
2026-03-14 09:04:49
AIGC视界汇
AIGC视界汇
专注于AIGC领域视觉创意内容分享
220文章数 0关注度
往期回顾 全部

科技要闻

龙虾热卷到AI硬件 “无脑”硬件或被淘汰

头条要闻

两中国公民在澳洲洪灾中遇难 家属:系去农场上班报到

头条要闻

两中国公民在澳洲洪灾中遇难 家属:系去农场上班报到

体育要闻

叕战奥运,张雨霏要做回“小将”

娱乐要闻

广电总局公布演员将用姓氏笔画定番位

财经要闻

“十五五”规划纲要,全文来了!

汽车要闻

置换补贴价8.68万 五菱缤果S 525km旗舰款上市

态度原创

旅游
数码
亲子
房产
艺术

旅游要闻

西安这面弹孔墙,才是最该去看的“网红墙”!遗憾知道的人不多

数码要闻

CounterPoint称苹果iPad吸金能力再创新高

亲子要闻

你的声音可能决定孩子一声

房产要闻

不容易啊!海口终于又要卖地了!

艺术要闻

毛泽东的书法究竟需不需要天赋?看邓宝珊的信揭晓真相!

无障碍浏览 进入关怀版