网易首页 > 网易号 > 正文 申请入驻

大模型2024高考发榜,豆包等三款国产AI考上文科一本线

0
分享至

大模型参加高考,能考多少分,上什么大学?

6月24日,在极客公园最新发布的高考新课标Ⅰ卷大模型评测报告中,GPT-4o 以562分排名文科总分第一。国内产品中,字节跳动旗下的豆包拔得头筹,成绩是542.5分,其后依次是百度文心一言4.0的537.5分、百川智能“百小应”的521分。本次大模型高考评测与河南省考卷完全相同,河南高考录取分数线显示,文科本科一批录取分数线为521分,豆包等三款国产AI成功冲上一本线。

与文科相比,大模型的理科成绩要差很多,最高分还不到480分,大多数大模型的理科总分在400分以下。相比河南理科511分的一本线,大模型尚有较大差距。

大语言模型遇上语言考试:有望冲满分

语文、英语的语言类考试,是大模型有能力和人类考生较量的赛场,多家产品能拿到客观题目的满分或接近满分。

凭借中文语言的“主场优势”,三款国产大模型产品获得了语文考试前三名,分别是百小应、字节豆包和腾讯元宝,得分依次为128分、125.5分和120.5分。除了少数开放性的阅读理解和语言文字运用问题,各家大模型主要丢分在语文写作上。

作为本次评测的语文作文阅卷人,北京市级骨干教师、怀柔区语文学科带头人夏老师曾多次参加全国高考语文阅卷。夏老师认为:“Al写出的文章大多有清晰完整的结构,有逻辑性,语言通俗流畅。但其理性有余,感性不足,缺乏感情色彩,自然就缺乏感染力。”

英语写作同样是大模型的一大难题。本次评测默认所有大模型的听力都获得30分满分。在阅读和语言运用两大项客观问题的考试上,GPT-4o、百小应、通义千问获得80分满分,豆包和文心一言4.0也接近满分。但是在40分的写作考试中,最高分只有29分,分别由GPT-4o和百小应获得,各家模型的英语写作主要丢分在表达空泛、缺少细节上。如果大模型在未来能够提升写作能力,获得高考满分并非难事。

文综出色,豆包获“历史”最高分

在由历史、地理、政治组成的新课标文综考卷评测中,GPT-4o获得237分的成绩,平均分达到79分,优于多数人类考生。国产大模型产品中,豆包的文综成绩最高,分数达到224.5分,其中历史科目拿到82.5分,在所有9款大模型中得分第一。

政治考试中,GPT-4o出人意料的获得了88分的最高分,百小应和豆包得分超过80。地理考卷则有大量图片问题,对一众大模型是不小的挑战,图像理解能力较强的GPT-4o得到最高分,但仅有68分。

河南高考分数段统计数据显示,GPT-4o的562分在文科考生中排名8811名,相当于人类考生的前2.45%,豆包则处于前4.27%的位置。在过去一年多时间里,国产AI技术能力获得了长足进步,目前已经接近国际顶尖大模型的水平。

数理全线不及格,AI有待提升

与人类顶尖考生相比,大模型在数学、物理、化学等数理学科上差距极大,包括GPT-4o在内的所有大模型都无法达到及格水平。尽管在语文、英语两科上能获得高分,大模型的理科最好成绩还无法进入人类考生的前30%。

以数学试卷为例,9款大模型产品中,仅GPT-4o、文心一言4.0和豆包获得60分以上的成绩(满分150分),目前的大模型只能正确推理步骤相对简单的问题。据测试机构透露,豆包等大模型能准确运用求导公式和三角函数定理,但是面对较为复杂的推导和证明问题就很难继续得分。

重点考查实验探究能力的化学和物理试卷,各模型平均分更是只有34分和39分(满分为100和110)。化学单项最高分由豆包获得,成绩为49.5分,GPT-4o仅有42分。大模型在应对考试的灵活性上也不如人类。例如物理有一道送分题,人类考生根据“时间不会倒流”可以排除错误选项,轻易选对正确答案“C”,大模型则几乎全军覆没。要学会像人类一样思考和解决问题,大模型还有很长的路要走。(资讯)

上游新闻 马亮

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
善恶到头终有报,如今73岁的唐国强,已经走上了一条不归路!

善恶到头终有报,如今73岁的唐国强,已经走上了一条不归路!

吴蒂旅行ing
2026-03-20 05:20:46
退休后从广州搬到佛山,住一年才明白:这不是换地方,是换活法

退休后从广州搬到佛山,住一年才明白:这不是换地方,是换活法

呼呼历史论
2026-03-21 19:06:50
油价一夜突变!3月20日全国油价调整后92/95汽油价格、0号柴油价格最新公布

油价一夜突变!3月20日全国油价调整后92/95汽油价格、0号柴油价格最新公布

趣味萌宠的日常
2026-03-20 11:07:44
“永远不要和任何人修复关系,无论是谁,人和人的关系只有一次”

“永远不要和任何人修复关系,无论是谁,人和人的关系只有一次”

衷曲无闻
2026-03-20 21:31:55
去深圳才发现:年轻人都不穿耐克、萨洛蒙了,满街都是这3个品牌

去深圳才发现:年轻人都不穿耐克、萨洛蒙了,满街都是这3个品牌

白宸侃片
2026-03-11 13:18:49
“神探”林宇辉称模拟画像与梅姨本人相似度达90%,曾多次更新是考虑其年龄增长

“神探”林宇辉称模拟画像与梅姨本人相似度达90%,曾多次更新是考虑其年龄增长

潇湘晨报
2026-03-21 14:38:09
福建宁德一派出所教导员办公室猥亵15岁女生,一审被判2年9个月,家属欲申请抗诉

福建宁德一派出所教导员办公室猥亵15岁女生,一审被判2年9个月,家属欲申请抗诉

大风新闻
2026-03-21 11:58:12
这不是补贴大战,是赤裸裸的倾销

这不是补贴大战,是赤裸裸的倾销

大树乡谈
2026-03-20 21:18:18
风向骤变!以德为首的西方国家齐发声:中国已在换电关键领域崛起

风向骤变!以德为首的西方国家齐发声:中国已在换电关键领域崛起

聚焦最新动态
2026-03-21 13:02:00
34分钟1.5万台!小米新车又爆火,但雷军却变了

34分钟1.5万台!小米新车又爆火,但雷军却变了

象视汽车
2026-03-21 07:00:05
贾国龙新开焖面馆:600平独栋大店,巨大土陶砂锅上桌,客单价40元

贾国龙新开焖面馆:600平独栋大店,巨大土陶砂锅上桌,客单价40元

职业餐饮网
2026-03-21 20:25:02
英媒曾爆料:法航母在南海追中国潜艇?结果碰上中国40艘军舰懵了

英媒曾爆料:法航母在南海追中国潜艇?结果碰上中国40艘军舰懵了

书纪文谭
2026-03-21 15:13:51
你干过最舒服的工作是啥?网友:姐,你们公司还招人吗

你干过最舒服的工作是啥?网友:姐,你们公司还招人吗

带你感受人间冷暖
2026-03-19 22:37:39
李干杰在云南调研

李干杰在云南调研

国家民委
2026-03-21 18:06:45
彻底失望!香港纨绔富二代惨失500亿家产!

彻底失望!香港纨绔富二代惨失500亿家产!

港港地
2026-03-20 10:03:49
66岁中将被除名:任核试验基地司令,最后露面照曝出详细过程披露

66岁中将被除名:任核试验基地司令,最后露面照曝出详细过程披露

博士观察
2026-03-21 14:05:14
跟我比天赋?火箭终结老鹰11连胜,杜兰特乐开花,1战看清5个现实

跟我比天赋?火箭终结老鹰11连胜,杜兰特乐开花,1战看清5个现实

毒舌NBA
2026-03-21 10:26:37
巴拿马总统寻求中国宽恕,避免20亿违约金

巴拿马总统寻求中国宽恕,避免20亿违约金

小彭的灿烂笔记1
2026-03-21 09:40:22
许利民:比分上是战胜了对手,事实是我们战胜、超越了自己

许利民:比分上是战胜了对手,事实是我们战胜、超越了自己

懂球帝
2026-03-21 21:57:43
内塔尼亚胡失算,击中俄罗斯记者后,普京下令反击,以色列恐遭殃

内塔尼亚胡失算,击中俄罗斯记者后,普京下令反击,以色列恐遭殃

阿芒娱乐说
2026-03-20 19:54:59
2026-03-21 23:07:00
上游新闻 incentive-icons
上游新闻
重庆“门户级”新闻客户端
250219文章数 584793关注度
往期回顾 全部

教育要闻

全国正确率仅有5%的解方程,易错

头条要闻

达利欧:霍尔木兹海峡大决战即将爆发

头条要闻

达利欧:霍尔木兹海峡大决战即将爆发

体育要闻

谁在决定字母哥未来?

娱乐要闻

田栩宁终于凉了?出轨风波影响恶劣

财经要闻

通胀警报拉响,加息潮要来了?

科技要闻

宇树招股书拆解,人形机器人出货量第一!

汽车要闻

小鹏汽车2025年Q4盈利净赚3.8亿 全年营收767亿

态度原创

艺术
教育
时尚
健康
军事航空

艺术要闻

法国女人就这样诱惑了全世界的男人...

教育要闻

宋清辉错了,你的孩子只是你的孩子,绝不会是别人的孩子

这个趋势好适合亚洲人!不用花大钱也能跟

转头就晕的耳石症,能开车上班吗?

军事要闻

特朗普:正考虑逐步降级对伊朗的军事行动

无障碍浏览 进入关怀版