人工智能助力宏观经济学考试评分，与人类评审高度一致|科学|计算机

人工智能助力宏观经济学考试评分，与人类评审高度一致

分享至

高人口增长对国内生产总值有什么影响？经济学学生对这样的考试问题再熟悉不过了。作为开放性问题，它们不仅需要专业知识，还需要经济思维和论证能力。然而，给这些答案评分对大学助理来说是一项耗时的工作，每个答案都需要单独检查和评估。

人工智能能否做到这项工作？来自帕绍大学经济学和计算机科学的研究人员对此进行了研究。他们的研究最近在 Scientific Reports 上发表。研究结果显示，OpenAI的GPT-4语言模型在对开放性文本答案进行评分时，与人类考官的表现相当。

结果概览：

当AI模型被要求根据正确性和完整性对文本回答进行排名时——即最佳、次佳或最差答案——GPT的评估与人类考官相当。
学生用AI生成的文本无法让GPT印象深刻：GPT对AI生成的或较长的答案没有显著偏好。
在使用积分系统评估文本回答时，AI模型的质量表现略逊一筹。GPT在评估中往往比人类更宽容，在某些情况下，评分差距几乎达到一个完整的等级。

研究人员得出结论，AI尚不能取代人类评分。“撰写优秀的样本答案和进行复查仍然必须由人类来完成，”负责该研究实验设计的帕绍大学经济理论教授约翰·格拉夫·兰布斯多夫解释道，他与德博拉·沃斯和斯特凡·格施温德共同参与了研究。

计算机科学家阿卜杜拉·阿尔·祖拜尔负责技术实施和评估的编程工作，在迈克尔·格兰尼策教授（数据科学）的监督下进行。研究人员认为，考试任务仍需人类进行密切监督。然而，AI无疑适合作为一个重要的第二考官。

比较AI和人类评估的新方法

已经有几项研究探讨了AI作为考生的评估。然而，关于AI作为考官的研究很少，现有的少数研究使用人类评估作为真实基础。帕绍团队更进一步：他们调查了AI评估是否能与人类考官的评估相竞争——而不认为人类的评估总是正确。

在这项实验中，研究人员使用了宏观经济学课程中学生对六个问题的开放式回答。团队为每个问题选择了50个回答。共评估了300个回答，由经过培训的纠正助理进行评估。同时，GPT也被赋予了相同的评估任务。

由于开放性问题没有明确的“正确”答案，因此不清楚错误是出在人工智能还是人类的评估上。为了能够进行比较，研究团队采用了一种方法：将评估之间的一致性作为接近假设真理的衡量标准。一致性越高，越接近真理。

研究的起点是人类考官之间的一致性。然后用GPT替换了一名考官。如果这样导致了一致性水平的提高，就说明AI的评估比人类考官更好。实际上，GPT在某些问题上的得分略有提高。

“我们自己对人工智能在某些评估中的表现也感到有些惊讶，”Voß说。

Al Zubaer补充道：“在我们的测试中，即使在指令不精确或错误的情况下，GPT-4的质量仍然保持了相对稳定。”根据团队的说法，这表明人工智能是强大而灵活多变的，即使在基于分数的评估中表现稍微逊色。

了解更多信息：Abdullah Al Zubaer等，GPT-4在排名开放文本答案方面表现与人类考官相媲美，Scientific Reports（2025）。 DOI: 10.1038/s41598-025-21572-8

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

人工智能助力宏观经济学考试评分，与人类评审高度一致

比较AI和人类评估的新方法

几千亿只是开胃菜，AI基建还得再砸几万亿

小伙骑车撞特斯拉后贷款赔1.5万修车费 发票只开9千元

小伙骑车撞特斯拉后贷款赔1.5万修车费 发票只开9千元

珍妮回应爆料：湖人不感激詹姆斯付出绝非事实

钟丽缇土耳其高空落泪 与张伦硕拥吻

申通快递创始人被前夫索要股份

今年集中上市 旅行车的春天可能真要来了

态度原创

打工人年终总结！健康通关=赢麻了

小姑娘的跆拳道太厉害了

时间定了！今年高考全国统考将于6月7日、8日举行

小伙骑车撞特斯拉后贷款赔1.5万修车费发票只开9千元

小伙骑车撞特斯拉后贷款赔1.5万修车费发票只开9千元

钟丽缇土耳其高空落泪与张伦硕拥吻

今年集中上市旅行车的春天可能真要来了