网易首页 > 网易号 > 正文 申请入驻

数字教育理事会发布AI重塑评估报告

0
分享至


2025年7月7日,数字教育理事会(Digital Education Council,成立于2024年,是一个由100多家机构组成的全球实践共同体,致力于推动高等教育和劳动力发展领域的可持续创新和AI应用,总部位于新加坡)与培生集团(Pearson)联合发布《评估的新时代:AI在评估设计中的全球综述》(The Next Era of Assessment:A Global Review of AI in Assessment Design),首次全面梳理了全球教育工作者如何利用AI重塑评估体系。报告聚焦高等教育领域,具体从AI对评估各环节的影响、AI时代的评估体系重构及实践指南等方面进行了分析。

一、AI对评估各个环节的影响

评估一般包括设定学习目标(Set Learning Outcomes)、规划课程(Plan Curriculum)、制定评估(Develop Assessments)、评估实施(Assessment Delivery)、反馈与改进(Feedback and Review)5个环节。该报告从AI可对各个环节带来哪些可能性和针对AI需做出哪些调整两个维度进行了分析。


1.AI对设定学习目标环节的影响

可能性——通过分析劳动力市场数据等大规模数据集,识别技能缺口并制定与时俱进的学习目标;自动化常规任务使学生能专注于高阶认知活动,推动评估向批判性和复杂技能发展。

必要调整——评估需纳入AI相关能力指标,如AI输出评估、负责任使用AI等;明确区分需独立掌握的技能和可通过AI强化的技能。

2.AI对规划课程环节的影响

可能性——基于预期学习成果自动生成课程体系建议;根据学生画像提供个性化学习路径设计。

必要调整——划课程时需明确AI工具的使用规范;增设AI工具使用相关的伦理教育内容;平衡人类核心能力与AI技能的培养。

3.AI对制定评估环节的影响

可能性——自动生成测验题、案例分析和评分标准;作为写作辅助工具或模拟器参与评估设计;通过模拟真实场景提升评估真实性。

必要调整——重构评估形式以减少对AI的依赖;从结果导向转向过程评估;更新评分标准以鼓励原创性和批判性思维。

4.AI对评估实施环节的影响

可能性——实时反馈指导学生改进;自动化监考功能;通过AI角色扮演增强情景化评估。

必要调整——明确每项评估的AI使用规则;增加现场考核环节确保评估真实性;记录学生完成任务的过程性证据。

5.AI对反馈与改进环节的影响

可能性——协助评分并提供个性化反馈;对评估数据进行大规模分析以辅助改进;生成课堂表现概要并提出改进评估建议。

必要调整——建立定期评估更新机制,确保评估工具始终有效抵御AI演进带来的挑战。

二、重新思考AI时代的评估

报告认为,AI时代评估设计需要从多个层面进行审慎考量——从单项任务到贯穿整个课程的评估组合。这一重构过程主要围绕三个关键维度展开:评估类型、评估设计原则和评估组合。

1.评估类型:在完成单项评估任务时,人工智能应扮演何种角色?

根据具体学习目标和AI使用对目标实现的影响程度,确定评估应采用"AI禁用型"(AI-Free Assessment)、"AI辅助型"(AI-Assisted Assessment)还是"AI融合型"(AI-Integrated Assessment)模式(见表1)。

表1 AI评估分类

类型

使用场景

核心特征

AI禁用型评估

专门设计为无需AI协助完成的评估

评估的目标、能力和设计本身有意排除或减少对AI的运用,而侧重于学生独立思考的能力以及基础技能的培养

AI辅助型评估

在明确边界内允许使用AI完成特定任务(如头脑风暴、大纲拟定)

评估的目标、能力和结构允许AI作为一种支持工具发挥作用,鼓励使用基本的AI来提供帮助或反馈,同时确保学生主导的学习仍占据主导地位

AI融合型评估

将AI工具作为学习和评估体验的有机组成部分

评估的目标、能力和提示要求学生有意义的参与AI作为核心部分的任务,包括在其学科领域内应用、批判和反思AI

2.评估设计原则:如何确保所有评估在AI存在的情况下仍保持效度和信度?

抗AI干扰性(AI-Resilient)原则正逐渐成为保障各类评估有效性与完整性的关键设计原则。这种抗干扰性设计并非依赖学生的自觉遵守,而是通过精心构建条件与框架,使学生难以借助AI完成核心学习任务,从而确保核心学习成果不会被轻易外包给AI。实现抗AI干扰性不仅需要更新规则或技术,更需要对评估体系进行结构性重构。教育工作者可采用多种创新策略重构评估方式以实现这一目标(见表2)。

表2 重构评估以实现抗AI干扰性的策略

策略

描述

示例

课堂上保持人类核心任务

将评估拆分为多个部分——允许AI承担课外可执行的任务,但需将批判性思维、讨论和阐释环节保留在结构化且有监督的教学环境中

学生在家中使用AI进行头脑风暴并起草方案,但在课堂上需现场陈述论点并即时回应提问

将关注点从“输出”转向“过程”

评估导致最终结果的推理、规划和决策过程,而不仅仅是结果本身。鼓励元认知层面的参与。

学生在最终提交的作品中需记录并反思影响其工作的AI交互过程,或对解决方案提供合理性说明

嵌入检查点与可追溯发展

引入结构化里程碑,例如中期提交、现场讨论、反馈循环或规划工件,以展示学生的渐进式思维

在课堂上组织同伴讨论与反馈环节,并要求学生根据反馈意见修改作业

单元层面而非任务层面的效度验证

需认识到并非所有评估方式都能完全规避人工智能的影响。相反,应通过单元或课程中一系列相互关联的评估来验证学生的学习成效。其中每项评估都基于学生先前的作业成果,并以贴合其学习情境的方式递进构建。

学生在四节课中逐步完成最终作品——从概念构思开始,到最终的互动展示结束。

每个阶段都要求学生基于前期成果完成不同的任务。有效性体现在四节课之间的连贯性与递进性,而非单一任务的表现。

3.评估组合:如何组合不同类型的评估,以同时培养基础能力和面向未来的AI技能?

在课程层面,教师应确保其评估体系能同时支持人类核心能力(基础知识、批判性思维、学科专业知识以及独立技能)与AI相关技能(有效且合乎道德地使用AI工具的能力、支持反映未来职场需求的形成性与真实性评估)的培养。


基于已有研究,数字教育委员会提出“双优先级方法”,旨在帮助教师有意识地在各类评估中平衡这两个互补目标。三种评估类型可在这两个优先级框架下发挥不同作用(见表3)。

表3 支持类型总结

评估类型

优先级1:人类能力

优先级2:人机协作

AI禁用型评估

主要关注点

不适用

AI辅助型评估

关键关注点

培养基础AI技能

AI融合型评估

需精心设计以支持人类能力培养

关键关注点

教师不应孤立地设计评估方式,而应有意识地规划和多样化评估手段,以便在整个课程中兼顾这两个优先级。

三、AI时代评估设计指南

该报告针对三类评估均提出了具体的实践建议,并重点介绍了AI融合型评估的实践路径。

1.AI禁用型评估

报告指出,在设计旨在培养或测试学生独立思考和基础技能的评估时(AI禁用型评估),关键在于从结构上消除使用AI的可能性,而非仅发布“禁用AI”的规定并寄希望于学生自觉遵守。解决方案在于构建具有内在抗AI干扰性的评估体系。其中最有效方法是将异步评估转为同步评估,从根本上阻断学生在完成任务时接触AI的途径。监考测试、口试、课堂写作研讨会、实时演讲或课堂讨论等形式在结构上天然具备抵御AI干扰的特性。这些同步评估模式并非通过监控手段,而是通过消除使用机会来降低AI滥用的可能性。

然而,要求所有作业都采用这种形式并不现实,尤其是那些支持持续性形成性学习的评估,为此,教师还可以通过设计能利用AI当前缺陷的任务,使得AI难以或无法代学生完成任务。具体策略包括:

情境化应用任务——要求学生将知识或技能应用于本地情境、时事热点或近期课堂讨论,这些背景信息通常超出AI的获取与解读能力范围。

过程性文档记录——要求学生提交思维过程的实证材料,如带批注的草稿、规划笔记或语音备忘录,以展示其观点随时间演进的轨迹。

2.AI辅助型评估

报告指出,在允许学生将AI应用于评估时,教育者必须审慎考量其适用场景与限制边界,以确保AI技术能有效支持——而非削弱——既定教学目标。

AI可参与评估流程的多个环节。报告给出了以下使用导图(见表4),系统梳理了学生在作业中可能接触AI的关键节点。

教师可参照此导图,将AI应用与具体学习目标精准对接,明确划定允许使用、限制使用或需提供明确指导的领域。对于需要限制AI使用的评估环节,教师应着力重构这些评估要素以增强其“抗AI干扰性”,而非单纯依赖学生的自律遵守。

表4 AI使用导图

阶段

关键AI接触点

规划阶段

头脑风暴/框架建议/时间规划

研究阶段

关键词推荐/文献检索/文献综述/术语解释/提出论点或观点/方法设计

创作阶段

大纲生成/初稿撰写/生成部门内容/图表制作/内容整合

修改阶段

语句润色/语法检查/反论证模拟/修正参考列表/缩短或延长/错误修正

反馈与反思阶段

生成评价/促进反思/对照评分标准

3.AI融合型评估

报告指出,AI通过引入评估学习进程的新方法、增强与现实场景的关联性以及赋能AI相关能力的发展,为革新测评实践展现出巨大潜力。

基于101个全球案例研究,报告将AI融合型评估进一步总结为两种主要方法:一是利用AI技术提升传统评估方式,即利用AI辅助核心学科学习;二是将AI作为研究对象,重点培养学生的AI素养。围绕这两种方法,报告归纳出14种新兴的AI融合型评估设计方法,并将其与特定的学习目标和AI能力(例如提示词设计、AI输出评估和AI伦理)进行了对应分析(见下表5和6),并给出了每一种方法的具体实践案例。

表5 用于增强传统评估的新兴AI融合设计方法

方法论

描述

最适合达成的学习成果

最适合培养的AI能力

01 AI引导的自我评估与反思

学生与AI工具进行结构化对话,以测试、解释或评估自己对某个概念或论点的理解。

•自我反思

•输入设计与信息质量

•概念理解

•AI反思与元认知

02 AI先行,人工修订

学生首先使用生成式AI工具生成初稿或解决方案,然后对其进行评估、修订和扩展。

•文本/文学分析

•AI输出评估

•过程改进与评估

•AI偏见与限制意识

03 人工先行,AI评审

学生先独立完成任务,然后使用生成式AI工具来评审和改进自己的作品。

•过程改进与评估

•AI反思与元认知

•概念理解

•AI输出评估

04 AI生成分析材料

AI生成样本材料(如案例、解决方案),学生随后运用学科方法对其进行分析、解读或解决。

•定量/数据分析

•AI输出评估

•概念理解

•AI偏见与限制意识

05 AI作为模拟协作者或角色扮演者

学生与模拟某个角色、专家或真实人物的AI进行互动。

•沟通

•AI输出评估

•自我反思

•AI整合与应用

06 用于沉浸式学习的AI

学生使用生成式AI工具创造丰富的体验,以加深对学科概念的理解。

•概念理解

•AI整合与应用

•创造力与创新

•输入设计与信息质量

07 人工与AI工作成果比较

学生对同一项任务中人工完成和AI生成的结果进行分析和比较。

•过程改进与评估

•AI输出评估

•自我反思

•AI偏见与限制意识

08 AI作为助手

学生在任务的一个或多个阶段将AI工具作为协作者使用。

•沟通

•AI整合与应用

•研究与调查

•输入设计与信息质量

表6. 以AI为主要研究对象的新兴AI融合设计方法

方法论

描述

最适合达成的学习成果

最适合培养的AI能力

01 AI输出批判与评估

学生批判性地评估AI生成内容的质量、准确性或偏见。

•自我反思

•概念理解

•AI输出评估

•AI反思与元认知

02 提示词工程与过程分析

学生尝试设计AI提示词,并反思输入设计如何影响输出结果。

•概念理解

•协作与团队合作

•AI输出评估

•输入设计与信息质量

03 AI伦理、政策与社会影响

学生通过辩论、反思或政策设计,探讨AI的伦理、法律和社会影响。

•自我反思

•伦理与责任

•AI反思与元认知

•AI伦理与负责任使用

04 建设性误用

学生有意地“误用”AI至其极限,以揭示其缺陷或偏见。

•概念理解

•伦理与责任

•AI输出评估

•AI伦理与负责任使用

05 AI作为情境化案例研究

AI被用作一个透镜,来探索特定学科领域内的概念。

•自我反思

•概念理解

•AI伦理与负责任使用

•AI反思与元认知

06 AI作为人造产物

学生设计或定制自己的AI工具。

•过程改进与评估

•实际应用

•AI整合与应用

•AI伦理与负责任使用

资料来源:

Digital Education Council. The Next Era of Assessment: A Global Review of AI in Assessment Design. https://www.digitaleducationcouncil.com/post/the-next-era-of-assessment-a-global-review-of-ai-in-assessment-design

[本文为教育部国别和区域研究基地中国教育科学研究院国际教育研究中心成果]


本文由中国教育科学研究院“教育国际前沿”课题组整理,课题组负责人张永军,编辑刘强。点击左下角阅读原文可下载该文献。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江苏一店推出闭关项目,价格2980到19800元不等,不让带手机等个人物品被质疑“花钱关禁闭”,工作人员回应:每个人看事物不一样

江苏一店推出闭关项目,价格2980到19800元不等,不让带手机等个人物品被质疑“花钱关禁闭”,工作人员回应:每个人看事物不一样

大象新闻
2026-02-27 10:45:04
韩媒:日本优势这么大竟输球;日媒:廖三宁不受裁判影响引导逆转

韩媒:日本优势这么大竟输球;日媒:廖三宁不受裁判影响引导逆转

现代小青青慕慕
2026-02-28 00:00:33
中国男篮逆转日本不到24小时,恶心的一幕发生,原来郭士强没说谎

中国男篮逆转日本不到24小时,恶心的一幕发生,原来郭士强没说谎

小徐讲八卦
2026-02-28 06:04:53
数名粉丝强闯机场防爆检测围栏被行政拘留和罚款,杭州机场立牌警示追星“保持理智”

数名粉丝强闯机场防爆检测围栏被行政拘留和罚款,杭州机场立牌警示追星“保持理智”

潇湘晨报
2026-02-27 19:50:12
为什么东风-41洲际导弹,拒绝使用“北斗”卫星导航制导?

为什么东风-41洲际导弹,拒绝使用“北斗”卫星导航制导?

Ck的蜜糖
2026-02-28 01:00:58
俄政治学家直言不讳:战争拖垮的不只是经济,更是整个国家的未来

俄政治学家直言不讳:战争拖垮的不只是经济,更是整个国家的未来

老马拉车莫少装
2026-02-26 23:31:28
1980年邓小平说:毛主席的错误,要毫不含糊地批评,但要实事求是

1980年邓小平说:毛主席的错误,要毫不含糊地批评,但要实事求是

帝哥说史
2026-02-25 06:30:03
深圳湾公园晚上“黑灯瞎火”被吐槽,公园管理中心回应:为了让鸟儿睡好觉,主要出入口等地保留了基础照明

深圳湾公园晚上“黑灯瞎火”被吐槽,公园管理中心回应:为了让鸟儿睡好觉,主要出入口等地保留了基础照明

扬子晚报
2026-02-27 12:33:02
东莞长安公安分局原局长张仲平被“双开”

东莞长安公安分局原局长张仲平被“双开”

南方都市报
2026-02-27 21:33:09
广东省体育局局长崔剑出任国家体育总局副局长

广东省体育局局长崔剑出任国家体育总局副局长

澎湃新闻
2026-02-27 19:08:27
你干过哪些阴暗龌龊的事?网友:最后一个真的好炸裂好真实

你干过哪些阴暗龌龊的事?网友:最后一个真的好炸裂好真实

带你感受人间冷暖
2026-02-17 01:00:24
36 岁离婚女子独自过年崩溃痛哭:没老公没孩子,谁还会娶我

36 岁离婚女子独自过年崩溃痛哭:没老公没孩子,谁还会娶我

一盅情怀
2026-02-23 14:10:06
天津市人大教育科学文化卫生委员会原副主任委员王平接受纪律审查和监察调查

天津市人大教育科学文化卫生委员会原副主任委员王平接受纪律审查和监察调查

环球网资讯
2026-02-27 16:51:02
发布比赛结果帖子中措辞不妥,FIBA国际篮联致歉

发布比赛结果帖子中措辞不妥,FIBA国际篮联致歉

环球网资讯
2026-02-27 18:26:51
长餐桌已经退出中国家庭,学浙江人的做法,很多人都开始纷纷效仿

长餐桌已经退出中国家庭,学浙江人的做法,很多人都开始纷纷效仿

室内设计师有料儿
2026-02-27 20:49:11
乌克兰宣布“退群”

乌克兰宣布“退群”

陆弃
2026-02-27 08:10:03
蒋家后人含泪召开发布会,请求迁灵回大陆,两句话让全场沉默

蒋家后人含泪召开发布会,请求迁灵回大陆,两句话让全场沉默

老范谈史
2026-02-27 19:55:01
西贝退场,是消费者的胜利!?

西贝退场,是消费者的胜利!?

马烨君丨智识工场
2026-02-28 07:07:41
74岁陈凯歌三亚过年超豪气!5万皮鞋配大金表,脸上老年斑藏不住

74岁陈凯歌三亚过年超豪气!5万皮鞋配大金表,脸上老年斑藏不住

复转小能手
2026-02-25 23:46:10
段永平:炒股票的人会很危险,因为你炒不过梁文锋了

段永平:炒股票的人会很危险,因为你炒不过梁文锋了

风风顺
2026-02-22 13:51:05
2026-02-28 08:52:49
国际与比较教育研究所 incentive-icons
国际与比较教育研究所
中国教育科学研究院
418文章数 407关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

牛弹琴:伊朗面临生死存亡关键时刻 信号已经很明显了

头条要闻

牛弹琴:伊朗面临生死存亡关键时刻 信号已经很明显了

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

郭晶晶霍启刚现身香港艺术节尽显恩爱

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

数码
家居
本地
公开课
军事航空

数码要闻

消息称苹果有两款Studio Display 2显示器:高端机型接口更先进

家居要闻

素色肌理 品意式格调

本地新闻

津南好·四时总相宜

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国11架F-22隐形战机抵达以色列

无障碍浏览 进入关怀版