网易首页 > 网易号 > 正文 申请入驻

人工智能助力宏观经济学考试评分,与人类评审高度一致

0
分享至

高人口增长对国内生产总值有什么影响?经济学学生对这样的考试问题再熟悉不过了。作为开放性问题,它们不仅需要专业知识,还需要经济思维和论证能力。然而,给这些答案评分对大学助理来说是一项耗时的工作,每个答案都需要单独检查和评估。

人工智能能否做到这项工作?来自帕绍大学经济学和计算机科学的研究人员对此进行了研究。他们的研究最近在 Scientific Reports 上 发表。研究结果显示,OpenAI的GPT-4语言模型在对开放性文本答案进行评分时,与人类考官的表现相当。

结果概览:

  • 当AI模型被要求根据正确性和完整性对文本回答进行排名时——即最佳、次佳或最差答案——GPT的评估与人类考官相当。
  • 学生用AI生成的文本无法让GPT印象深刻:GPT对AI生成的或较长的答案没有显著偏好。
  • 在使用积分系统评估文本回答时,AI模型的质量表现略逊一筹。GPT在评估中往往比人类更宽容,在某些情况下,评分差距几乎达到一个完整的等级。

研究人员得出结论,AI尚不能取代人类评分。“撰写优秀的样本答案和进行复查仍然必须由人类来完成,”负责该研究实验设计的帕绍大学经济理论教授约翰·格拉夫·兰布斯多夫解释道,他与德博拉·沃斯和斯特凡·格施温德共同参与了研究。

计算机科学家阿卜杜拉·阿尔·祖拜尔负责技术实施和评估的编程工作,在迈克尔·格兰尼策教授(数据科学)的监督下进行。研究人员认为,考试任务仍需人类进行密切监督。然而,AI无疑适合作为一个重要的第二考官。

比较AI和人类评估的新方法

已经有几项研究探讨了AI作为考生的评估。然而,关于AI作为考官的研究很少,现有的少数研究使用人类评估作为真实基础。帕绍团队更进一步:他们调查了AI评估是否能与人类考官的评估相竞争——而不认为人类的评估总是正确。

在这项实验中,研究人员使用了宏观经济学课程中学生对六个问题的开放式回答。团队为每个问题选择了50个回答。共评估了300个回答,由经过培训的纠正助理进行评估。同时,GPT也被赋予了相同的评估任务。

由于开放性问题没有明确的“正确”答案,因此不清楚错误是出在人工智能还是人类的评估上。为了能够进行比较,研究团队采用了一种方法:将评估之间的一致性作为接近假设真理的衡量标准。一致性越高,越接近真理。

研究的起点是人类考官之间的一致性。然后用GPT替换了一名考官。如果这样导致了一致性水平的提高,就说明AI的评估比人类考官更好。实际上,GPT在某些问题上的得分略有提高。

“我们自己对人工智能在某些评估中的表现也感到有些惊讶,”Voß说。

Al Zubaer补充道:“在我们的测试中,即使在指令不精确或错误的情况下,GPT-4的质量仍然保持了相对稳定。”根据团队的说法,这表明人工智能是强大而灵活多变的,即使在基于分数的评估中表现稍微逊色。

了解更多信息:Abdullah Al Zubaer等,GPT-4在排名开放文本答案方面表现与人类考官相媲美,Scientific Reports(2025)。 DOI: 10.1038/s41598-025-21572-8

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
志愿军夺下山头,意外发现2个没见过的武器,首长急令:赶紧仿造

志愿军夺下山头,意外发现2个没见过的武器,首长急令:赶紧仿造

浩渺青史
2026-01-21 05:49:50
深圳多区有人被查!警方提醒

深圳多区有人被查!警方提醒

深圳晚报
2026-01-21 20:57:47
中年觉醒:经营好自己的40-50岁

中年觉醒:经营好自己的40-50岁

诗词中国
2026-01-14 20:47:21
随着C罗破门+率队2-1,沙特联最新积分榜出炉:利雅得胜利逼近榜首

随着C罗破门+率队2-1,沙特联最新积分榜出炉:利雅得胜利逼近榜首

侧身凌空斩
2026-01-22 03:59:59
央视春晚联排阵容惊喜,该来的都来了狠狠期待,这次真的不一样

央视春晚联排阵容惊喜,该来的都来了狠狠期待,这次真的不一样

娱乐圈十三太保
2026-01-20 16:23:43
1948年,毛泽东在一破村里,发408封电报,把老蒋800万军队打没了

1948年,毛泽东在一破村里,发408封电报,把老蒋800万军队打没了

清澈之玹
2026-01-22 10:39:28
打脸U23政策!U23国脚大爆发,已有多名中超主力,两人本土射手王

打脸U23政策!U23国脚大爆发,已有多名中超主力,两人本土射手王

小金体坛大视野
2026-01-22 09:28:32
2025年邮政行业寄递业务量完成2165.1亿件 同比增长11.8%

2025年邮政行业寄递业务量完成2165.1亿件 同比增长11.8%

财联社
2026-01-22 11:38:22
淮阳人民中学“食堂承包商举报校领导2年拿走300余万现金”?官方通报

淮阳人民中学“食堂承包商举报校领导2年拿走300余万现金”?官方通报

界面新闻
2026-01-21 10:11:25
林黛玉不是编的!她病逝那夜曹雪芹哭断肝肠,写下“葬花词”

林黛玉不是编的!她病逝那夜曹雪芹哭断肝肠,写下“葬花词”

千秋文化
2026-01-20 20:39:41
北京首辆加长劳斯莱斯银刺,车里带电话,开库里南的都羡慕

北京首辆加长劳斯莱斯银刺,车里带电话,开库里南的都羡慕

华庭讲美食
2026-01-22 12:10:42
惊人的两倍电力鸿沟,让所有制裁成了笑话

惊人的两倍电力鸿沟,让所有制裁成了笑话

李荣茂
2026-01-20 08:45:13
央视曝光!真别再吃了!头皮发麻!市监局通报40批食品抽检不合格

央视曝光!真别再吃了!头皮发麻!市监局通报40批食品抽检不合格

科学发掘
2026-01-22 11:29:26
4换3交易方案出炉,小波特驰援湖人,里夫斯加盟篮网?

4换3交易方案出炉,小波特驰援湖人,里夫斯加盟篮网?

弄月公子
2026-01-22 13:24:04
公务部门为什么不能引入类似末位淘汰的机制,像过去国企改革一样

公务部门为什么不能引入类似末位淘汰的机制,像过去国企改革一样

细说职场
2025-12-11 11:44:03
这支中国U23怎么不太像“中国足球”?外因非奥运年龄段、内因整体实力提高

这支中国U23怎么不太像“中国足球”?外因非奥运年龄段、内因整体实力提高

上观新闻
2026-01-21 04:40:13
是什么让15万将士对安禄山死心塌地?三大原因,揭开乱世枭雄的底牌

是什么让15万将士对安禄山死心塌地?三大原因,揭开乱世枭雄的底牌

寄史言志
2026-01-21 18:39:10
梁洛施罕见谈离开李泽楷原因:他很富有,是一生挚爱,也不后悔

梁洛施罕见谈离开李泽楷原因:他很富有,是一生挚爱,也不后悔

素素娱乐
2026-01-21 09:55:35
藏得很深的“亲美疏中”的郑丽文,佩服国台办迟迟未发出的邀请函

藏得很深的“亲美疏中”的郑丽文,佩服国台办迟迟未发出的邀请函

开着车去流浪
2026-01-21 23:52:57
河南32岁程序员猝死,妻子哭诉:天天10点后回家,死后还被分工作

河南32岁程序员猝死,妻子哭诉:天天10点后回家,死后还被分工作

有范又有料
2026-01-21 22:23:58
2026-01-22 14:51:00
行走的知识库
行走的知识库
每天分享有趣的生活妙招和所见所闻
3013文章数 2938关注度
往期回顾 全部

科技要闻

几千亿只是开胃菜,AI基建还得再砸几万亿

头条要闻

小伙骑车撞特斯拉后贷款赔1.5万修车费 发票只开9千元

头条要闻

小伙骑车撞特斯拉后贷款赔1.5万修车费 发票只开9千元

体育要闻

珍妮回应爆料:湖人不感激詹姆斯付出绝非事实

娱乐要闻

钟丽缇土耳其高空落泪 与张伦硕拥吻

财经要闻

申通快递创始人被前夫索要股份

汽车要闻

今年集中上市 旅行车的春天可能真要来了

态度原创

旅游
健康
亲子
教育
公开课

旅游要闻

2026年马德里国际旅游展举行

打工人年终总结!健康通关=赢麻了

亲子要闻

小姑娘的跆拳道太厉害了

教育要闻

时间定了!今年高考全国统考将于6月7日、8日举行

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版