网易首页 > 网易号 > 正文 申请入驻

国产大模型互评高考作文,真“学霸”竟然是它?

0
分享至

撰文 | 李信马

题图 | 图虫创意

人工智能又一次重量级的“破圈”,是成为了高考作文的题目。

2024年新课标 I 卷的作文题目是:

随着互联网的普及、人工智能的应用,越来越多的问题能很快得到答案。那么,我们的问题是否会越来越少?

以上材料引发了你怎样的联想和思考?请写一篇文章。

要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。

作为高考中最重要、分值最高的主观题,每年的高考作文都会引起全社会的广泛关注。对大模型来说,这也是它们最擅长的领域,不过,写作文容易评分难,所以DoNews决定,让目前国内五家主流的大模型分别写一篇高考作文,然后让它们作为考官,对5篇文章的合集进行评分,通过自评和互评的方式,来看看哪家大模型的综合评分最高。

以下是打分的Prompt——

假如你是一名高考阅卷老师,针对刚刚的作文题,对于下面5篇文章,满分60分的情况下,你会分别打多少分?并给出理由:

闲话少说,我们直接来看结果。令人有些意外的是,五家大模型都将最高分(绿色)给到了通义大模型,通义也获得了53.8分的最高平均分,与其他大模型明显拉开差距;文心大模型和混元大模型都在51分的档位,几乎没有差距;而豆包大模型和星火大模型的平均分不到50分,豆包更是收获了3个最低分(黄色)。

从结果上来说,五家大模型的打分都比较“公正”,虽然可能多少有点“主观意识”,没有哪家大模型自评最低分,像是星火给了豆包最低分,而豆包也把最低分给了星火,但整体还是比较令人信服。

不过,为什么会出现这样的差别?我们摘取了五家大模型分别对五篇作文的评价进行对比。

百度文心是“老好人”,对五篇作文的打分很接近,不过对通义作文的评价是“整篇文章论据充分,论述有力”,对混元作文的评价则是“在论证过程中,部分观点略显重复,稍显遗憾”,对最低分的星火作文的评价则有“部分观点阐述不够深入,部分内容略显表面化,因此在分数上稍逊一筹”。

阿里通义对五篇作文的点评就犀利的多,文心的作文“略显保守”,混元的作文“深度和广度上略显不足,且创新点不够突出”,星火的作文缺少“论述的深度和语言的艺术性”,豆包的作文则是论述常规缺乏亮点。

通义大模型对作文的自评 图片来源:通义

腾讯混元认为除了通义,自己和文心、星火的作文都有些文采不足,而豆包的作文则是“在逻辑性和条理性方面略显不足,部分观点未能充分展开”,得分最低。

讯飞星火则最“挑剔”,打分都偏低而且更抠细节,得分最高的通义,也有“少量语法错误需要修正”,而得分最低的豆包“论证上缺乏深度,并且有些句子表述不够清晰”。

最后,字节豆包对通义、文心和混元都是正面的评价,但认为星火的作文“结尾部分的措施略显单薄”,自己的作文“在文采方面还有提升的空间”。

豆包大模型对作文的自评 图片来源:豆包

不难发现,五家大模型对不同文章的看法,颇有类似之处,比如都“diss”了豆包的文采,还有认为星火的论述缺乏深度等。值得一提的是,最“年轻”的豆包拿到了最低分可以理解,而通义的脱颖而出,侧面印证了其实力日益强大。

在6月7日,通义千问正式发布了 Qwen2 大模型,在十几项国际权威测评中,Qwen2-72B 得分都超过了开源标杆 Llama3-70B,发布两小时就冲上了 HggingFace 开源大模型榜单第一。可以预见,未来一小段时间里,通义在各个榜单的名次还会有所进步。

最后,比完了分数也看过了点评,我们也按照分数由高到低,将五篇作文都附在结尾。大家可以看下,大模型写作文究竟写的如何?它们打出的分数,又是否靠谱呢?

阿里通义大模型的高考作文:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

复转这些年
2026-01-27 03:00:03
冲8连胜!雷霆5人缺席,骑士双塔遭遇内线压力,哈登或被包夹对待

冲8连胜!雷霆5人缺席,骑士双塔遭遇内线压力,哈登或被包夹对待

一登侃球
2026-02-22 09:52:06
有什么反击混账父母原生家庭的案例 网友的讲述真是让人惊掉下巴

有什么反击混账父母原生家庭的案例 网友的讲述真是让人惊掉下巴

侃神评故事
2026-02-21 17:35:03
斐济群岛发生6.0级地震 震源深度530千米

斐济群岛发生6.0级地震 震源深度530千米

每日经济新闻
2026-02-11 05:50:05
四川一男子搭载妻女高速匝道逆行!驾驶人:“没想到这么严重!”

四川一男子搭载妻女高速匝道逆行!驾驶人:“没想到这么严重!”

封面新闻
2026-02-21 21:09:07
急了!印度最近为啥拼命要和中国谈边界?再拖就真没机会了

急了!印度最近为啥拼命要和中国谈边界?再拖就真没机会了

趣生活
2026-02-16 20:18:37
港独组织头目郑松泰:曾在北大读博士,文弱书生缘何变成凶恶暴徒

港独组织头目郑松泰:曾在北大读博士,文弱书生缘何变成凶恶暴徒

乐天闲聊
2025-12-27 10:10:19
乌克兰的打击,终结俄罗斯预警机制造企业

乌克兰的打击,终结俄罗斯预警机制造企业

走进乌克兰2022
2026-02-21 14:23:25
耗资12亿建世界最高佛,如今水喝不起拜不起

耗资12亿建世界最高佛,如今水喝不起拜不起

时光流转追梦人
2026-02-20 13:09:13
订单排到6年后,燃气轮机怎么卖爆了?

订单排到6年后,燃气轮机怎么卖爆了?

牲产队
2026-02-21 14:39:12
向美国捐8亿被骂叛徒!无锡唐氏21代掌门:我的钱只认文明归属

向美国捐8亿被骂叛徒!无锡唐氏21代掌门:我的钱只认文明归属

谈史论天地
2026-02-10 08:16:24
15年前,那个当着全世界喝下核污染水的日本官员,如今还活着吗?

15年前,那个当着全世界喝下核污染水的日本官员,如今还活着吗?

墨兰史书
2026-02-09 23:08:35
台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

顾史
2026-01-21 21:04:39
2023年,985女硕士王懿在东京活活饿死,父母拒绝为其收尸

2023年,985女硕士王懿在东京活活饿死,父母拒绝为其收尸

谈史论天地
2026-02-18 17:45:40
老板娘发我的,该怎么回复?

老板娘发我的,该怎么回复?

太急张三疯
2026-02-22 12:42:33
央视官宣,歼-16竟同时锁定2架F-22,歼-20驱离F-35,咋做到的?

央视官宣,歼-16竟同时锁定2架F-22,歼-20驱离F-35,咋做到的?

蓝星杂谈
2026-02-22 15:07:41
爆冷丢金!中国队太遗憾,争议性选择失误收尾 金牌数无缘超日本

爆冷丢金!中国队太遗憾,争议性选择失误收尾 金牌数无缘超日本

大秦壁虎白话体育
2026-02-21 19:57:04
泡泡玛特官宣新IP“放学后的Merodi”

泡泡玛特官宣新IP“放学后的Merodi”

新浪财经
2026-02-21 22:28:40
拒绝34分大逆转!波神首秀惊艳,库里重创,布朗23分15板13助攻

拒绝34分大逆转!波神首秀惊艳,库里重创,布朗23分15板13助攻

篮球扫地僧
2026-02-21 17:15:35
突传利好!000988:AI高速光模块产线24小时满负荷运转,订单排到四季度!

突传利好!000988:AI高速光模块产线24小时满负荷运转,订单排到四季度!

证券时报e公司
2026-02-22 12:28:50
2026-02-22 16:08:49
DoNews incentive-icons
DoNews
不局限于对互联网行业的追踪与探索,更要向未来、向未知的方向迈进。
105937文章数 26807关注度
往期回顾 全部

教育要闻

成都七中,真正的“别人家的高中”

头条要闻

河北"钓帝"从感冒到离世仅5天 儿子:太快了 没留遗言

头条要闻

河北"钓帝"从感冒到离世仅5天 儿子:太快了 没留遗言

体育要闻

75673人见证!迈阿密0-3:梅西孙兴慜过招

娱乐要闻

裴世矩养侄为刃 看懂两次放行裴行俨!

财经要闻

特朗普新加征关税税率从10%提升至15%

科技要闻

马斯克:星舰每年将发射超过10000颗卫星

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

房产
教育
本地
健康
数码

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

教育要闻

今年高二下半学期,平时基础六七十分,做英语高考卷子有用吗?

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

转头就晕的耳石症,能开车上班吗?

数码要闻

全球电视产业格局重构:索尼轻装上阵 TCL借道冲顶

无障碍浏览 进入关怀版