网易首页 > 网易号 > 正文 申请入驻

人工智能阅卷“翻车” 其实是“翻”在了自然语言处理

0
分享至


开学季,美国一款号称服务两万所学校的AI阅卷系统遭到质疑,学生们只要借助系统漏洞,输入相应关键词,即使关键词之间并无关联,也能轻易获得高分。


随着人工智能的发展,不少教育App都应用了智能评分系统,评分系统阅卷迅速,及时出分,受到不少师生的欢迎。但同时,也有不少家长吐槽智能评分系统,像英语跟读App的评分系统,有时候即使拥有英语专业八级水平的人,测试得分也只有80分。


除了应用于英语口语的智能评分系统,人工智能还被应用于判卷上。不过这种智能阅卷系统也时有“翻车”现象。据报道,在开学季,一款号称服务于美国两万所学校的AI阅卷系统就受到了质疑,学生们借助它的漏洞,“裸考”就能轻松及格。之所以被学生们钻了空子,是由于该系统只是通过关键词进行评分,学生们只要输入相应关键词,即使几个关键词之间没有关系,也能顺利过关甚至获得高分。


阅卷前需先设定评判标准


“自动测评打分系统一般需要先设定评测的标准,而后根据设定的标准去设计合适的评测算法与模型。”天津大学智能与计算学部教授、博士生导师熊德意介绍,比如像口语测评打分,就需要机器去评判人的发音是否标准,所读句子的重音是否正确,读出的语句是否连贯流畅,连读部分是否准确等。


AI阅卷系统则涉及到对语言文字的评判,涵盖很多方面,如语法、语义等,会大量运用到自然语言处理技术。


“自然语言处理技术是人工智能的一个重要分支,研究利用计算机对自然语言进行智能化处理,基础的自然语言处理技术主要围绕语言的不同层级展开,包括音位(语言的发音模式)、形态(字、字母如何构成单词、单词的形态变化)、词汇(单词之间的关系)、句法(单词如何形成句子)、语义(语言表述对应的意思)、语用(不同语境中的语义解释)、篇章(句子如何组合成段落)7个层级。”熊德意强调,这些基本的自然语言处理技术经常被运用到下游的多种自然语言处理任务(如机器翻译、对话、问答、文档摘要等)中,自动阅卷中的语言文字评测通常涉及这7个层级的若干层。


设计自动评测指标的方法有多种,通常会根据不同的评判类型去选择适合的方法。“比如阅卷系统若要进行翻译题的自动评判,可以让老师事先写好多个参考译文答案,然后把学生的答案和参考答案进行类比,计算它们的相似度作为学生答案好坏的评测指标。”熊德意举例说,机器翻译常用的评测指标BLEU,就是基于参考译文和机器译文之间的N-grams(N元)匹配度计算相似度的。


一个单词是一元,两个相连的单词是二元,还有三元、四元,如果答案中有一个单词与参考答案中的单词一致,那么就会给出一个一元评分,类似的可以计算二元、三元、四元的评分。研究人员为不同元设置不同权重,然后把得分统筹起来变成一个客观值,得分越高就说明两者之间的相似性越高。


不同AI评分系统结果相差甚远


此次AI阅卷系统“翻车”的导火索是一位美国历史系教授的儿子在进行历史考试的时候只得到了50%的分数,而她对儿子的答案进行评测后,觉得孩子的回答基本没有问题。


同样的答案,人工评价和机器评价为何有如此大的出入?


“这就是基于AI算法的自动评测面临的最大挑战:如何与人工评价保持一致。应对这个挑战需要解决的问题很多。比如如何制定合适的评测标准,主观题进行自动评测必须要有合适的评测标准和规范;比如如何应对语言的千变万化,语言的多样性是自然语言处理技术的主要挑战之一,语言的自动测评和自动处理都要面对多样性的挑战;比如如何设计一个综合性的评测指标,虽然目前有各种各样的指标,但是很少有指标综合考虑语言文字的方方面面,例如作文自动阅卷,可能要考虑用词是否合理(词汇)、句子是否流畅(句法)、段落组织是否有条理(篇章)、内容是否扣题(语义、语用)等。”熊德意说,上面提到的BLEU就是只考虑了单词形式的严格匹配,没有考虑单词的形态变化、语义相似性、译文的句法合理性等因素。


“遵循的评测规则、评判的出发点不同,相应的算法模型都不一样,因此最后的结果也会相差甚远。”熊德意说。


因此仅仅利用一种评测方法显然是不全面的,这也就解释了当孩子的母亲尝试在答案里加入“财富、商队、中国、印度”等题目中的关键词时,即使这些关键词之间没有任何串联,她也得了满分。“可能这个AI阅卷系统只使用了简单的关键词匹配,因此会出现‘关键词沙拉’也能蒙混过关的情况。”熊德意解释。


此外,口语的人工测评与机器测评也存在较大出入。“近年来,语音识别性能虽然在深度学习技术的推动下取得了显著的提升,但是在开放环境、噪音环境下,这种识别率就会下降很多。”熊德意解释,如果机器“听”错了一个单词,而后机器进行测评,就会形成一个错误传播,也就是上游系统的错误会导致下一系统错误,错上加错,越错越离谱,测评结果也会大相径庭。


“目前有很多设计评测指标的方法,还有很多改进的方法,如在计算准确率的同时也计算召回率等。另外,还有对评测指标进行评测的,即评测的评测,看看哪个评测指标更完善,更和人的评价一致。”熊德意感叹,很多时候,自动评测的难度和对应的自然语言处理任务的难度,从技术层面来说是一样的,比如用机器评价一个译文的好坏与用机器生成一个译文的难度类似,用机器评判一个文档摘要的好坏与用机器生成一个摘要的难度也差不多。


可结合人工评测让系统更智能


“传统的自动评测指标通常是基于符号进行计算的,现在深度学习等AI技术也越来越多地应用于测评工具中。”熊德意介绍,使用深度学习,可以把语言符号映射到实数稠密向量的语义空间,利用语义向量计算相似度。哪怕说的词语和计算机原本学习的不一样,但只要语义是一致的,机器就可以进行精准的评价。因此,基于深度学习的自动评测某种程度上可以应对语言的多样性挑战。不过深度学习也有一个问题,就是需要大量的数据让机器进行学习。


基于自监督学习的预训练语言模型,近几年,在语言表示学习中,取得了突破性的进展。“OpenAI的预训练语言模型GPT-3,在5000亿单词的海量语料上训练了一个带有1750亿个参数的神经网络,通过大量学习网络上各种语言的文本,GPT-3形成了强大的语言表示能力,可以进行多种任务,比如自动翻译、故事生成、常识推理、问答等,甚至可以进行加减法运算,比如其两位数加减法正确率达到100%,五位数加减法正确率接近10%。”熊德意介绍,不过,这么庞大的神经网络,如果用单精度浮点数存储,需要700G的存储空间,另外模型训练一次就花费了460万美元。因此,即使GPT-3具有较好的零样本、小样本学习能力,其高昂的成本使其离普遍可用还有很远的距离。


但是AI作为阅卷评测“老师”,其又有人工不可比拟的优势。比如AI自动批阅卷系统相比人工批阅速度更快,老师不可能一次记住所有的多项选择题答案,需要不断检查标准答案,这是很费时的,自动批阅系统帮助老师大大提高了效率;另外,自动批阅系统更加理性,不受外界条件干扰,不会因疲劳等原因导致误判。即使在复杂的干扰环境中,仍然可以得到正确的结果;AI阅卷系统还可以在评分后直接做好学情分析,统计出考试数据、错题数据等教学材料,帮助老师减负增效,帮助学生提高学习效率。


“将主观题合理地客观化,可以降低自动阅卷的难度。”熊德意表示,对无法客观化的主观题,虽然设定全面的评测标准比较难,但是设定某一方面的评测标准还是可行的,比如针对单词词法、句子语法的评判,目前准确率还是挺高的,这类技术可以从实验室走向产品应用。


也可以引入人工评测,对AI阅卷系统打分进行复核与修正,通过这种反复的修正,累积大量的评测训练数据,让机器评分变得更加智能。


“利用自然语言处理等人工智能技术,进一步完善主观智能评分系统,将是未来教育领域的一个非常重要的课题。”熊德意说,以后的AI自动批阅系统肯定会越来越“聪明”,人工智能与教育的结合也会越来越紧密。


(原标题 AI阅卷“翻车” 其实是“翻”在了自然语言处理)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海黑帮大佬抗战时他把15岁的儿子送往延安,意外为自己铺好后路

上海黑帮大佬抗战时他把15岁的儿子送往延安,意外为自己铺好后路

磊子讲史
2026-05-25 14:11:33
世界上顶尖发动机,一颗螺丝钉都不卖中国,美方至今没能实现超越

世界上顶尖发动机,一颗螺丝钉都不卖中国,美方至今没能实现超越

阿晭评论哥
2026-05-25 16:59:09
华为不发新产品了,改发新定律

华为不发新产品了,改发新定律

远方青木
2026-05-26 00:10:17
真性情!当着全世界的面,这个女发言人把日本记者骂到全场死寂!

真性情!当着全世界的面,这个女发言人把日本记者骂到全场死寂!

菁菁子衿
2026-05-26 21:25:11
女子多次告知自己花生严重过敏 餐厅仍在菜中加入花生油 致女子出现严重过敏反应进抢救室 女子要求赔偿1000元被质疑“敲诈勒索”

女子多次告知自己花生严重过敏 餐厅仍在菜中加入花生油 致女子出现严重过敏反应进抢救室 女子要求赔偿1000元被质疑“敲诈勒索”

闪电新闻
2026-05-26 18:43:15
反转!皇马大选迎转折,新候选人抛出两大条件,老佛爷无奈

反转!皇马大选迎转折,新候选人抛出两大条件,老佛爷无奈

祥谈体育
2026-05-26 19:32:39
半导体大佬集体减持后,杭州豪宅被抢疯了!

半导体大佬集体减持后,杭州豪宅被抢疯了!

樱桃大房子
2026-05-25 21:52:46
重演阿萨德悲剧?武契奇访华归国后,可能主动提交辞呈!

重演阿萨德悲剧?武契奇访华归国后,可能主动提交辞呈!

阿龙聊军事
2026-05-26 11:49:19
美国下狠手!赶人“新规”,百万华人一旦回国,十年都没法再入境

美国下狠手!赶人“新规”,百万华人一旦回国,十年都没法再入境

好贤观史记
2026-05-26 16:53:23
全球越来越热,地球反而要进入冰河时代?这个反直觉预言正被验证

全球越来越热,地球反而要进入冰河时代?这个反直觉预言正被验证

半解智士
2026-04-13 15:47:58
阿斯:弗里克开季将仅有11名一线队员

阿斯:弗里克开季将仅有11名一线队员

懂球帝
2026-05-26 20:04:12
2万亿资产四川发展“换帅”,张希接任党委书记

2万亿资产四川发展“换帅”,张希接任党委书记

楼市全搜索
2026-05-26 21:00:06
宇宙真的是无限大吗?这种观点会彻底颠覆你的宇宙观!

宇宙真的是无限大吗?这种观点会彻底颠覆你的宇宙观!

宇宙时空
2026-05-25 22:00:06
实锤了!前经纪人直播证实鹿晗关晓彤分手,曝出3个不官宣原因!

实锤了!前经纪人直播证实鹿晗关晓彤分手,曝出3个不官宣原因!

往史过眼云烟
2026-05-25 16:47:59
维拉夺冠就卖真核 标价8000万镑 阿尔特塔力荐阿森纳引进

维拉夺冠就卖真核 标价8000万镑 阿尔特塔力荐阿森纳引进

智道足球
2026-05-26 20:55:09
74岁朴槿惠罕见露面:背驼了也瘦了老态尽显,柳荣夏依旧在她身边

74岁朴槿惠罕见露面:背驼了也瘦了老态尽显,柳荣夏依旧在她身边

照见古今
2026-05-26 18:46:02
补强!国安夏窗2签曝光:成都门将投奔恩师,球队或回购边路快马

补强!国安夏窗2签曝光:成都门将投奔恩师,球队或回购边路快马

体坛鉴春秋
2026-05-26 20:17:16
王楚钦母亲首次谈儿媳标准!3个要求曝光后,网友集体沉默了

王楚钦母亲首次谈儿媳标准!3个要求曝光后,网友集体沉默了

橙星文娱
2026-05-26 10:53:35
刚刚,大批浙江人晒出家中照片!画面惊人一致!什么时候是个头......

刚刚,大批浙江人晒出家中照片!画面惊人一致!什么时候是个头......

浙江之声
2026-05-26 15:44:35
藤原纪香54岁近照曝光,穿紫色紧身裙亮相,丰满身材依旧吸睛

藤原纪香54岁近照曝光,穿紫色紧身裙亮相,丰满身材依旧吸睛

一盅情怀
2026-05-23 10:05:54
2026-05-26 23:47:00
澎湃新闻 incentive-icons
澎湃新闻
专注时政与思想的新闻平台。
899339文章数 5091519关注度
往期回顾 全部

科技要闻

中国AI要向外卷,而不只是做第二个OpenAI

头条要闻

留神峪逃生矿工在宿舍不肯离开:拿到被拖欠的工资再走

头条要闻

留神峪逃生矿工在宿舍不肯离开:拿到被拖欠的工资再走

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

数码
教育
旅游
本地
军事航空

数码要闻

小米Poco Pad C1海外发布,入门平板也卷高刷?

教育要闻

你的分数能报哪些好学校?教育部直属院校美术类招生专业汇总!

旅游要闻

明月山康养升级:不止温泉,更是生活

本地新闻

用云锦的方式,打开江苏南京

军事要闻

美伊在阿巴斯港附近短暂交火 交战过程披露

无障碍浏览 进入关怀版