网易首页 > 网易号 > 正文 申请入驻

数字教育理事会发布AI重塑评估报告

0
分享至


2025年7月7日,数字教育理事会(Digital Education Council,成立于2024年,是一个由100多家机构组成的全球实践共同体,致力于推动高等教育和劳动力发展领域的可持续创新和AI应用,总部位于新加坡)与培生集团(Pearson)联合发布《评估的新时代:AI在评估设计中的全球综述》(The Next Era of Assessment:A Global Review of AI in Assessment Design),首次全面梳理了全球教育工作者如何利用AI重塑评估体系。报告聚焦高等教育领域,具体从AI对评估各环节的影响、AI时代的评估体系重构及实践指南等方面进行了分析。

一、AI对评估各个环节的影响

评估一般包括设定学习目标(Set Learning Outcomes)、规划课程(Plan Curriculum)、制定评估(Develop Assessments)、评估实施(Assessment Delivery)、反馈与改进(Feedback and Review)5个环节。该报告从AI可对各个环节带来哪些可能性和针对AI需做出哪些调整两个维度进行了分析。


1.AI对设定学习目标环节的影响

可能性——通过分析劳动力市场数据等大规模数据集,识别技能缺口并制定与时俱进的学习目标;自动化常规任务使学生能专注于高阶认知活动,推动评估向批判性和复杂技能发展。

必要调整——评估需纳入AI相关能力指标,如AI输出评估、负责任使用AI等;明确区分需独立掌握的技能和可通过AI强化的技能。

2.AI对规划课程环节的影响

可能性——基于预期学习成果自动生成课程体系建议;根据学生画像提供个性化学习路径设计。

必要调整——划课程时需明确AI工具的使用规范;增设AI工具使用相关的伦理教育内容;平衡人类核心能力与AI技能的培养。

3.AI对制定评估环节的影响

可能性——自动生成测验题、案例分析和评分标准;作为写作辅助工具或模拟器参与评估设计;通过模拟真实场景提升评估真实性。

必要调整——重构评估形式以减少对AI的依赖;从结果导向转向过程评估;更新评分标准以鼓励原创性和批判性思维。

4.AI对评估实施环节的影响

可能性——实时反馈指导学生改进;自动化监考功能;通过AI角色扮演增强情景化评估。

必要调整——明确每项评估的AI使用规则;增加现场考核环节确保评估真实性;记录学生完成任务的过程性证据。

5.AI对反馈与改进环节的影响

可能性——协助评分并提供个性化反馈;对评估数据进行大规模分析以辅助改进;生成课堂表现概要并提出改进评估建议。

必要调整——建立定期评估更新机制,确保评估工具始终有效抵御AI演进带来的挑战。

二、重新思考AI时代的评估

报告认为,AI时代评估设计需要从多个层面进行审慎考量——从单项任务到贯穿整个课程的评估组合。这一重构过程主要围绕三个关键维度展开:评估类型、评估设计原则和评估组合。

1.评估类型:在完成单项评估任务时,人工智能应扮演何种角色?

根据具体学习目标和AI使用对目标实现的影响程度,确定评估应采用"AI禁用型"(AI-Free Assessment)、"AI辅助型"(AI-Assisted Assessment)还是"AI融合型"(AI-Integrated Assessment)模式(见表1)。

表1 AI评估分类

类型

使用场景

核心特征

AI禁用型评估

专门设计为无需AI协助完成的评估

评估的目标、能力和设计本身有意排除或减少对AI的运用,而侧重于学生独立思考的能力以及基础技能的培养

AI辅助型评估

在明确边界内允许使用AI完成特定任务(如头脑风暴、大纲拟定)

评估的目标、能力和结构允许AI作为一种支持工具发挥作用,鼓励使用基本的AI来提供帮助或反馈,同时确保学生主导的学习仍占据主导地位

AI融合型评估

将AI工具作为学习和评估体验的有机组成部分

评估的目标、能力和提示要求学生有意义的参与AI作为核心部分的任务,包括在其学科领域内应用、批判和反思AI

2.评估设计原则:如何确保所有评估在AI存在的情况下仍保持效度和信度?

抗AI干扰性(AI-Resilient)原则正逐渐成为保障各类评估有效性与完整性的关键设计原则。这种抗干扰性设计并非依赖学生的自觉遵守,而是通过精心构建条件与框架,使学生难以借助AI完成核心学习任务,从而确保核心学习成果不会被轻易外包给AI。实现抗AI干扰性不仅需要更新规则或技术,更需要对评估体系进行结构性重构。教育工作者可采用多种创新策略重构评估方式以实现这一目标(见表2)。

表2 重构评估以实现抗AI干扰性的策略

策略

描述

示例

课堂上保持人类核心任务

将评估拆分为多个部分——允许AI承担课外可执行的任务,但需将批判性思维、讨论和阐释环节保留在结构化且有监督的教学环境中

学生在家中使用AI进行头脑风暴并起草方案,但在课堂上需现场陈述论点并即时回应提问

将关注点从“输出”转向“过程”

评估导致最终结果的推理、规划和决策过程,而不仅仅是结果本身。鼓励元认知层面的参与。

学生在最终提交的作品中需记录并反思影响其工作的AI交互过程,或对解决方案提供合理性说明

嵌入检查点与可追溯发展

引入结构化里程碑,例如中期提交、现场讨论、反馈循环或规划工件,以展示学生的渐进式思维

在课堂上组织同伴讨论与反馈环节,并要求学生根据反馈意见修改作业

单元层面而非任务层面的效度验证

需认识到并非所有评估方式都能完全规避人工智能的影响。相反,应通过单元或课程中一系列相互关联的评估来验证学生的学习成效。其中每项评估都基于学生先前的作业成果,并以贴合其学习情境的方式递进构建。

学生在四节课中逐步完成最终作品——从概念构思开始,到最终的互动展示结束。

每个阶段都要求学生基于前期成果完成不同的任务。有效性体现在四节课之间的连贯性与递进性,而非单一任务的表现。

3.评估组合:如何组合不同类型的评估,以同时培养基础能力和面向未来的AI技能?

在课程层面,教师应确保其评估体系能同时支持人类核心能力(基础知识、批判性思维、学科专业知识以及独立技能)与AI相关技能(有效且合乎道德地使用AI工具的能力、支持反映未来职场需求的形成性与真实性评估)的培养。


基于已有研究,数字教育委员会提出“双优先级方法”,旨在帮助教师有意识地在各类评估中平衡这两个互补目标。三种评估类型可在这两个优先级框架下发挥不同作用(见表3)。

表3 支持类型总结

评估类型

优先级1:人类能力

优先级2:人机协作

AI禁用型评估

主要关注点

不适用

AI辅助型评估

关键关注点

培养基础AI技能

AI融合型评估

需精心设计以支持人类能力培养

关键关注点

教师不应孤立地设计评估方式,而应有意识地规划和多样化评估手段,以便在整个课程中兼顾这两个优先级。

三、AI时代评估设计指南

该报告针对三类评估均提出了具体的实践建议,并重点介绍了AI融合型评估的实践路径。

1.AI禁用型评估

报告指出,在设计旨在培养或测试学生独立思考和基础技能的评估时(AI禁用型评估),关键在于从结构上消除使用AI的可能性,而非仅发布“禁用AI”的规定并寄希望于学生自觉遵守。解决方案在于构建具有内在抗AI干扰性的评估体系。其中最有效方法是将异步评估转为同步评估,从根本上阻断学生在完成任务时接触AI的途径。监考测试、口试、课堂写作研讨会、实时演讲或课堂讨论等形式在结构上天然具备抵御AI干扰的特性。这些同步评估模式并非通过监控手段,而是通过消除使用机会来降低AI滥用的可能性。

然而,要求所有作业都采用这种形式并不现实,尤其是那些支持持续性形成性学习的评估,为此,教师还可以通过设计能利用AI当前缺陷的任务,使得AI难以或无法代学生完成任务。具体策略包括:

情境化应用任务——要求学生将知识或技能应用于本地情境、时事热点或近期课堂讨论,这些背景信息通常超出AI的获取与解读能力范围。

过程性文档记录——要求学生提交思维过程的实证材料,如带批注的草稿、规划笔记或语音备忘录,以展示其观点随时间演进的轨迹。

2.AI辅助型评估

报告指出,在允许学生将AI应用于评估时,教育者必须审慎考量其适用场景与限制边界,以确保AI技术能有效支持——而非削弱——既定教学目标。

AI可参与评估流程的多个环节。报告给出了以下使用导图(见表4),系统梳理了学生在作业中可能接触AI的关键节点。

教师可参照此导图,将AI应用与具体学习目标精准对接,明确划定允许使用、限制使用或需提供明确指导的领域。对于需要限制AI使用的评估环节,教师应着力重构这些评估要素以增强其“抗AI干扰性”,而非单纯依赖学生的自律遵守。

表4 AI使用导图

阶段

关键AI接触点

规划阶段

头脑风暴/框架建议/时间规划

研究阶段

关键词推荐/文献检索/文献综述/术语解释/提出论点或观点/方法设计

创作阶段

大纲生成/初稿撰写/生成部门内容/图表制作/内容整合

修改阶段

语句润色/语法检查/反论证模拟/修正参考列表/缩短或延长/错误修正

反馈与反思阶段

生成评价/促进反思/对照评分标准

3.AI融合型评估

报告指出,AI通过引入评估学习进程的新方法、增强与现实场景的关联性以及赋能AI相关能力的发展,为革新测评实践展现出巨大潜力。

基于101个全球案例研究,报告将AI融合型评估进一步总结为两种主要方法:一是利用AI技术提升传统评估方式,即利用AI辅助核心学科学习;二是将AI作为研究对象,重点培养学生的AI素养。围绕这两种方法,报告归纳出14种新兴的AI融合型评估设计方法,并将其与特定的学习目标和AI能力(例如提示词设计、AI输出评估和AI伦理)进行了对应分析(见下表5和6),并给出了每一种方法的具体实践案例。

表5 用于增强传统评估的新兴AI融合设计方法

方法论

描述

最适合达成的学习成果

最适合培养的AI能力

01 AI引导的自我评估与反思

学生与AI工具进行结构化对话,以测试、解释或评估自己对某个概念或论点的理解。

•自我反思

•输入设计与信息质量

•概念理解

•AI反思与元认知

02 AI先行,人工修订

学生首先使用生成式AI工具生成初稿或解决方案,然后对其进行评估、修订和扩展。

•文本/文学分析

•AI输出评估

•过程改进与评估

•AI偏见与限制意识

03 人工先行,AI评审

学生先独立完成任务,然后使用生成式AI工具来评审和改进自己的作品。

•过程改进与评估

•AI反思与元认知

•概念理解

•AI输出评估

04 AI生成分析材料

AI生成样本材料(如案例、解决方案),学生随后运用学科方法对其进行分析、解读或解决。

•定量/数据分析

•AI输出评估

•概念理解

•AI偏见与限制意识

05 AI作为模拟协作者或角色扮演者

学生与模拟某个角色、专家或真实人物的AI进行互动。

•沟通

•AI输出评估

•自我反思

•AI整合与应用

06 用于沉浸式学习的AI

学生使用生成式AI工具创造丰富的体验,以加深对学科概念的理解。

•概念理解

•AI整合与应用

•创造力与创新

•输入设计与信息质量

07 人工与AI工作成果比较

学生对同一项任务中人工完成和AI生成的结果进行分析和比较。

•过程改进与评估

•AI输出评估

•自我反思

•AI偏见与限制意识

08 AI作为助手

学生在任务的一个或多个阶段将AI工具作为协作者使用。

•沟通

•AI整合与应用

•研究与调查

•输入设计与信息质量

表6. 以AI为主要研究对象的新兴AI融合设计方法

方法论

描述

最适合达成的学习成果

最适合培养的AI能力

01 AI输出批判与评估

学生批判性地评估AI生成内容的质量、准确性或偏见。

•自我反思

•概念理解

•AI输出评估

•AI反思与元认知

02 提示词工程与过程分析

学生尝试设计AI提示词,并反思输入设计如何影响输出结果。

•概念理解

•协作与团队合作

•AI输出评估

•输入设计与信息质量

03 AI伦理、政策与社会影响

学生通过辩论、反思或政策设计,探讨AI的伦理、法律和社会影响。

•自我反思

•伦理与责任

•AI反思与元认知

•AI伦理与负责任使用

04 建设性误用

学生有意地“误用”AI至其极限,以揭示其缺陷或偏见。

•概念理解

•伦理与责任

•AI输出评估

•AI伦理与负责任使用

05 AI作为情境化案例研究

AI被用作一个透镜,来探索特定学科领域内的概念。

•自我反思

•概念理解

•AI伦理与负责任使用

•AI反思与元认知

06 AI作为人造产物

学生设计或定制自己的AI工具。

•过程改进与评估

•实际应用

•AI整合与应用

•AI伦理与负责任使用

资料来源:

Digital Education Council. The Next Era of Assessment: A Global Review of AI in Assessment Design. https://www.digitaleducationcouncil.com/post/the-next-era-of-assessment-a-global-review-of-ai-in-assessment-design

[本文为教育部国别和区域研究基地中国教育科学研究院国际教育研究中心成果]


本文由中国教育科学研究院“教育国际前沿”课题组整理,课题组负责人张永军,编辑刘强。点击左下角阅读原文可下载该文献。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
近8战7负!故意输球想离队,结果球队不交易了,闹掰的主帅也示好

近8战7负!故意输球想离队,结果球队不交易了,闹掰的主帅也示好

你的篮球频道
2025-11-15 09:52:47
赵丽颖户外散步被偶遇,网友吐槽身材五五分,和我们普通人差不多

赵丽颖户外散步被偶遇,网友吐槽身材五五分,和我们普通人差不多

草莓解说体育
2025-11-16 01:07:59
葡体主席:穆里尼奥的问题在于他不会和人沟通

葡体主席:穆里尼奥的问题在于他不会和人沟通

懂球帝
2025-11-15 22:01:50
日本议员叫嚣:签投降书的是中华民国,新中国没资格发表意见?

日本议员叫嚣:签投降书的是中华民国,新中国没资格发表意见?

兵国大事
2025-11-16 00:05:17
当年南海打捞出日军沉船,发现一铁箱被焊死,切开后专家震惊哽咽

当年南海打捞出日军沉船,发现一铁箱被焊死,切开后专家震惊哽咽

领悟看世界
2025-11-12 01:06:46
全运会金牌榜:山东以35金领先,广东和香港各有33金

全运会金牌榜:山东以35金领先,广东和香港各有33金

李帕在北漂
2025-11-16 01:00:32
曝王思聪已与懒懒分手成功,懒懒变卖手中奢侈品,价格贵的离谱

曝王思聪已与懒懒分手成功,懒懒变卖手中奢侈品,价格贵的离谱

千言娱乐记
2025-11-15 19:42:22
重庆女子用5年“拿捏”闺蜜哥哥,领证后笑到破防:闺蜜神色亮了

重庆女子用5年“拿捏”闺蜜哥哥,领证后笑到破防:闺蜜神色亮了

小李子体育
2025-11-16 02:50:02
德国为沈伯洋打开大门后,中方宣布德财长访华,中德该好好谈谈了

德国为沈伯洋打开大门后,中方宣布德财长访华,中德该好好谈谈了

影孖看世界
2025-11-15 18:16:50
坏消息,火箭队前锋塔里·伊森因腹斜肌拉伤将缺席4-6周

坏消息,火箭队前锋塔里·伊森因腹斜肌拉伤将缺席4-6周

好火子
2025-11-16 04:49:17
全运会最新奖牌榜:广东反超山东重回第一,江浙沪三强稳居前五

全运会最新奖牌榜:广东反超山东重回第一,江浙沪三强稳居前五

烧体坛
2025-11-16 00:01:03
16日全运乒乓球赛程出炉!央视直播2场决赛:樊振东王曼昱迎考验

16日全运乒乓球赛程出炉!央视直播2场决赛:樊振东王曼昱迎考验

侃球熊弟
2025-11-16 06:26:02
3300亿瓦特!超上海纽约东京迪拜电量总和!美国核聚变又有突破?

3300亿瓦特!超上海纽约东京迪拜电量总和!美国核聚变又有突破?

徐德文科学频道
2025-11-13 21:41:00
一旦爆发核战争,只有10分钟自救!14亿中国人,必须学会自救方法

一旦爆发核战争,只有10分钟自救!14亿中国人,必须学会自救方法

史纪文谭
2025-10-26 19:41:26
杨舒予22分广东女篮夺得冠军,李梦2分四川女篮徒有虚名

杨舒予22分广东女篮夺得冠军,李梦2分四川女篮徒有虚名

李广专业体育评论
2025-11-15 21:25:33
泽连斯基终于下达撤退命令,但很遗憾,几千乌军已经插翅难飞

泽连斯基终于下达撤退命令,但很遗憾,几千乌军已经插翅难飞

牛马搞笑
2025-11-16 05:43:19
女性白天和情人发生关系,晚上和老公同房有怎样的感受呢?

女性白天和情人发生关系,晚上和老公同房有怎样的感受呢?

思絮
2025-10-24 10:42:12
吐槽前男友反遭嘲讽!10万网友扒出订婚真相:原来她破防是因这个

吐槽前男友反遭嘲讽!10万网友扒出订婚真相:原来她破防是因这个

夜深爱杂谈
2025-11-15 22:12:55
10年时间变化如此的大,装备精良的日本海军对中国海军有多少优势

10年时间变化如此的大,装备精良的日本海军对中国海军有多少优势

近史博览
2025-11-01 21:02:05
亚朵大战全季,传统五星级酒店输麻了

亚朵大战全季,传统五星级酒店输麻了

IC实验室
2025-11-13 15:50:52
2025-11-16 09:24:49
国际与比较教育研究所 incentive-icons
国际与比较教育研究所
中国教育科学研究院
368文章数 407关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

日本外相:高市早苗的发言未违反国际法 没有必要收回

头条要闻

日本外相:高市早苗的发言未违反国际法 没有必要收回

体育要闻

樊振东和他的尖子班 勇闯地表最强乒乓球赛

娱乐要闻

钟嘉欣婚变风波升级!被骗婚?

财经要闻

小米之“惑”

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

房产
游戏
旅游
亲子
公开课

房产要闻

共话产业变革下的投资新思维与新机遇|蓝湾财富论坛精华

《星绘友晴天》试玩报告:呼朋引伴、上天入地"/> 主站 商城 论坛 自运营 登录 注册 《星绘友晴天》试玩报告:呼朋引伴、上天入地 廉颇 2025-11...

旅游要闻

新疆阜康:天山天池景区迎客来

亲子要闻

想吃几块都有

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版