网易首页 > 网易号 > 正文 申请入驻

AI大模型“集体高考”,成绩单揭晓

0
分享至

央广网北京6月26日消息(记者 徐芳)2024年全国高考结束后,国内外众多AI大模型随之上阵,在考场外参加了一场“高考”。6月24日,极客公园高考新课标Ⅰ卷全科目大模型评测报告出炉,成绩单让广大网友很感兴趣。

据了解,本次“大模型考生”包括GPT-4o(OpenAI)、豆包(字节跳动)、文心4.0(百度)、百小应(百川智能)、通义千问2.5(阿里巴巴)、Kimi智能助手(月之暗面)、元宝(腾讯)、智谱清言(智谱AI)以及海螺AI(MiniMax)等。使用的考卷,是覆盖地域广泛的“新课标Ⅰ卷”,与河南省考生所用的考卷相同。

从考试成绩来看,在文科方面,GPT-4o以562分位列榜首,国产大模型豆包表现优异,斩获542.5分的高分,成功超过河南文科一本线20多分。据悉,2024年河南文科本科一批录取分数线为521分,豆包、文心4.0、百小应三款国产AI大模型成功“冲上一本线”。

真实考题+名师阅卷文科表现出色,理科成绩欠佳

据了解,本次大模型“高考”,语文作文的阅卷人是北京市级骨干教师、怀柔区语文学科带头人夏老师。夏老师多次参与全国高考语文阅卷,经验颇为丰富。记者综合网络资料发现,在文科考试中,大模型们的表现普遍比较出色,特别是在语言类科目上,展现出了一定的逻辑与语言组织能力。然而在写作方面,尽管大模型的文章结构清晰、语言通顺,但普遍存在理性有余而感性不足的情况,缺乏感情色彩与感染力。

理科方面,大模型们的成绩则普遍欠佳,多数大模型的理科总分在400分以下,与河南理科511分的一本线存在差距。

理科普遍不及格,大模型更像文科生

资料显示,在由历史、地理、政治组成的新课标“文综”考卷评测中,GPT-4o获得237分,平均分79分,优于多数真实考生。

国产大模型产品中,豆包的文综成绩最高,为224.5分。历史科目最高分82.5分,豆包摘得;政治科目最高分88分,GPT-4o摘得;地理科目最高分68分,GPT-4o摘得。

理科考试中,9款大模型产品里,数学考试只有GPT-4o、文心一言4.0和豆包获得60分以上的成绩,但面对满分150分的试卷,均未及格。在重点考查实验探究能力的化学和物理试卷中,各模型的平均分分别只有34分(满分100分)和39分(满分110分)。

尽管在理科考试中,各家大模型都有可圈可点之处,例如“豆包”大模型在求导题目和三角函数题上表现较好,展现出了一定的解题能力,但整体而言,在本次“高考”中数理科目全线不及格,大模型的理科最好成绩还无法进入真实考生的前30%。如何让大模型“文理兼修”,像人类一样思考和解决问题,大模型或许还有很长的路要走。

国产AI技术能力显著进步,挑战依然巨大

从这次“高考”结果来看,大模型在文科领域展现出了一定的优势,尤其在语言处理和知识记忆方面表现突出。河南高考分数段统计数据显示,GPT-4o的562分在文科考生中排名8811名,相当于真实考生的前2.45%,国产大模型“豆包”位列约4.27%的位置。在过去一年多的时间里,国产AI技术能力取得了显著进步。

理科领域,面对需要深度逻辑推理和灵活应变的问题时,大模型仍面临巨大挑战。这表明大模型在处理某些特定类型的任务时具备较强能力,但在综合运用知识和解决复杂实际问题方面,与人类的智力水平仍存在差距。

此次通过“高考”检验各家大模型,不仅备受业界及广大网友关注,对于大模型的发展也意义重大。一方面,为评估大模型的学习和知识运用能力提供了全新、客观的标准。同时,也让我们更加清晰地看到了各家大模型的优势和不足。在接下来的一年中,各家大模型将如何进步与发展,值得持续追踪。

更多精彩资讯请在应用市场下载“央广网”客户端。欢迎提供新闻线索,24小时报料热线400-800-0088;消费者也可通过央广网“啄木鸟消费者投诉平台”线上投诉。版权声明:本文章版权归属央广网所有,未经授权不得转载。转载请联系:cnrbanquan@cnr.cn,不尊重原创的行为我们将追究责任。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
她陪毛主席11年终身未嫁,临终前说了8个字,竟和主席同月同日离世

她陪毛主席11年终身未嫁,临终前说了8个字,竟和主席同月同日离世

寄史言志
2026-03-21 17:06:11
64118人!工体再创上座率纪录,中超历史第2,仅少3439人

64118人!工体再创上座率纪录,中超历史第2,仅少3439人

奥拜尔
2026-03-21 17:17:59
“这次穿得算保守了”,女老师短裙配蕾丝袜,学生上课头都不敢抬

“这次穿得算保守了”,女老师短裙配蕾丝袜,学生上课头都不敢抬

妍妍教育日记
2026-03-21 10:05:03
突发!美国宣布批准临时交付和销售滞留海上的伊朗石油,预计将新增1.4亿桶

突发!美国宣布批准临时交付和销售滞留海上的伊朗石油,预计将新增1.4亿桶

每日经济新闻
2026-03-21 08:11:08
哈萨克斯坦给伊朗打了一个样

哈萨克斯坦给伊朗打了一个样

寰宇大观察
2026-03-21 15:48:13
歌手跪地演唱时遭观众上台辱骂,起身用话筒反击后又参与围殴,歌舞团负责人:意想不到,已报警处理

歌手跪地演唱时遭观众上台辱骂,起身用话筒反击后又参与围殴,歌舞团负责人:意想不到,已报警处理

大风新闻
2026-03-21 16:53:30
美国动作巨星查克·诺里斯去世,享年86岁,曾与李小龙演对手戏

美国动作巨星查克·诺里斯去世,享年86岁,曾与李小龙演对手戏

界面新闻
2026-03-20 22:51:45
好消息,广东某公司大涨薪!

好消息,广东某公司大涨薪!

黯泉
2026-03-21 12:28:27
两年巨亏超2.5亿,95后女董事长因涉嫌信息披露违法违规被立案

两年巨亏超2.5亿,95后女董事长因涉嫌信息披露违法违规被立案

三湘都市报
2026-03-21 09:30:32
雷克萨斯全新一代ES300h正式开启预售,30.88万元起

雷克萨斯全新一代ES300h正式开启预售,30.88万元起

凡兮说
2026-03-20 15:53:49
特朗普,被“背叛”了

特朗普,被“背叛”了

中国新闻周刊
2026-03-21 15:26:15
暴涨超20%,有商家暂停接单!广州网友:想不到它会涨价

暴涨超20%,有商家暂停接单!广州网友:想不到它会涨价

羊城攻略
2026-03-20 23:04:43
刘诗诗和唐嫣冲上热搜!曝离婚分割财产完毕,为争抚养权做出妥协

刘诗诗和唐嫣冲上热搜!曝离婚分割财产完毕,为争抚养权做出妥协

离离言几许
2026-03-20 15:24:58
长春路虎哥刚被刑拘,人民网出手!多人受牵连,更严重的还在后面

长春路虎哥刚被刑拘,人民网出手!多人受牵连,更严重的还在后面

观察鉴娱
2026-03-21 12:25:26
路虎车主把手伸到举报者单位,人民日报发声:势力再大,也没用!

路虎车主把手伸到举报者单位,人民日报发声:势力再大,也没用!

奇思妙想草叶君
2026-03-21 14:39:01
随着日本1-0夺冠,亚洲杯奖金分配出炉:中国队真少,亚足联太抠

随着日本1-0夺冠,亚洲杯奖金分配出炉:中国队真少,亚足联太抠

侃球熊弟
2026-03-21 19:27:39
一场1-1,让蓉城狂喜!3大豪门踢完3轮全是负分,中超积分榜变天

一场1-1,让蓉城狂喜!3大豪门踢完3轮全是负分,中超积分榜变天

侃球熊弟
2026-03-21 17:37:21
无负极锂电池新突破!能量密度是锂电池2倍,成本低25%

无负极锂电池新突破!能量密度是锂电池2倍,成本低25%

环球零碳
2026-03-20 20:24:55
杜锋正式向广东队提出辞职!

杜锋正式向广东队提出辞职!

体育哲人
2026-03-21 21:26:47
海南陵水发生交通事故致2死5伤,警方通报

海南陵水发生交通事故致2死5伤,警方通报

界面新闻
2026-03-21 17:40:15
2026-03-21 22:03:00
央广网 incentive-icons
央广网
讲好中国故事 传播中国声音
649174文章数 1254483关注度
往期回顾 全部

科技要闻

宇树招股书拆解,人形机器人出货量第一!

头条要闻

军事专家推演美军夺取哈尔克岛的三种可能:步步惊心

头条要闻

军事专家推演美军夺取哈尔克岛的三种可能:步步惊心

体育要闻

谁在决定字母哥未来?

娱乐要闻

田栩宁终于凉了?出轨风波影响恶劣

财经要闻

通胀警报拉响,加息潮要来了?

汽车要闻

小鹏汽车2025年Q4盈利净赚3.8亿 全年营收767亿

态度原创

家居
房产
数码
健康
游戏

家居要闻

时空交织 空间绮梦

房产要闻

全城狂送1000杯咖啡!网易房产【早C计划】,即刻启动!

数码要闻

存储芯片短缺困境难以缓解,专家称电脑手机或涨超20%

转头就晕的耳石症,能开车上班吗?

口碑崩盘!3A大作争议DLC永久免费 已购玩家全额退款

无障碍浏览 进入关怀版