高人口增长对国内生产总值有什么影响?经济学学生对这样的考试问题再熟悉不过了。作为开放性问题,它们不仅需要专业知识,还需要经济思维和论证能力。然而,给这些答案评分对大学助理来说是一项耗时的工作,每个答案都需要单独检查和评估。
人工智能能否做到这项工作?来自帕绍大学经济学和计算机科学的研究人员对此进行了研究。他们的研究最近在 Scientific Reports 上 发表。研究结果显示,OpenAI的GPT-4语言模型在对开放性文本答案进行评分时,与人类考官的表现相当。
结果概览:
- 当AI模型被要求根据正确性和完整性对文本回答进行排名时——即最佳、次佳或最差答案——GPT的评估与人类考官相当。
- 学生用AI生成的文本无法让GPT印象深刻:GPT对AI生成的或较长的答案没有显著偏好。
- 在使用积分系统评估文本回答时,AI模型的质量表现略逊一筹。GPT在评估中往往比人类更宽容,在某些情况下,评分差距几乎达到一个完整的等级。
研究人员得出结论,AI尚不能取代人类评分。“撰写优秀的样本答案和进行复查仍然必须由人类来完成,”负责该研究实验设计的帕绍大学经济理论教授约翰·格拉夫·兰布斯多夫解释道,他与德博拉·沃斯和斯特凡·格施温德共同参与了研究。
计算机科学家阿卜杜拉·阿尔·祖拜尔负责技术实施和评估的编程工作,在迈克尔·格兰尼策教授(数据科学)的监督下进行。研究人员认为,考试任务仍需人类进行密切监督。然而,AI无疑适合作为一个重要的第二考官。
比较AI和人类评估的新方法
已经有几项研究探讨了AI作为考生的评估。然而,关于AI作为考官的研究很少,现有的少数研究使用人类评估作为真实基础。帕绍团队更进一步:他们调查了AI评估是否能与人类考官的评估相竞争——而不认为人类的评估总是正确。
在这项实验中,研究人员使用了宏观经济学课程中学生对六个问题的开放式回答。团队为每个问题选择了50个回答。共评估了300个回答,由经过培训的纠正助理进行评估。同时,GPT也被赋予了相同的评估任务。
由于开放性问题没有明确的“正确”答案,因此不清楚错误是出在人工智能还是人类的评估上。为了能够进行比较,研究团队采用了一种方法:将评估之间的一致性作为接近假设真理的衡量标准。一致性越高,越接近真理。
研究的起点是人类考官之间的一致性。然后用GPT替换了一名考官。如果这样导致了一致性水平的提高,就说明AI的评估比人类考官更好。实际上,GPT在某些问题上的得分略有提高。
“我们自己对人工智能在某些评估中的表现也感到有些惊讶,”Voß说。
Al Zubaer补充道:“在我们的测试中,即使在指令不精确或错误的情况下,GPT-4的质量仍然保持了相对稳定。”根据团队的说法,这表明人工智能是强大而灵活多变的,即使在基于分数的评估中表现稍微逊色。
了解更多信息:Abdullah Al Zubaer等,GPT-4在排名开放文本答案方面表现与人类考官相媲美,Scientific Reports(2025)。 DOI: 10.1038/s41598-025-21572-8
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.