关注“在线学习”
获取更多资讯!
刊载信息
郭炯,& 邹佳人.(2025).场景化评价:技术赋能新时代教育评价改革的新趋向. 中国远程教育(1),71-85.
场景化评价:技术赋能新时代教育评价改革的新趋向
郭炯, 邹佳人
【摘要】技术赋能教育评价不仅是纵深推进教育评价改革的关键途径和重要突破口,而且是加快推动教育高质量发展的必然选择。技术赋能教育评价可分为四个发展阶段,每一阶段均展现出各自显著的特征,也体现了技术赋能教育评价在实施过程中所面临的现实困境,因此,场景化评价应是当前智能化评价阶段的新趋向。基于对场景化评价内涵和特征的阐述,研究者认为可以将“证据中心设计”(Evidence Centered Design,ECD)理论引入场景化评价中,借鉴学生模型、证据模型、任务模型三个核心要素构建场景化评价设计框架。本研究最后以师范生智能教育素养测评为例,提出了由学习者模型、真实性任务模型、过程流数据模型、评价分析模型四个相互衔接的阶段构成的场景化评价设计路径,旨在为智能化评价的设计与实施提供支撑和参考。
【关键词】技术赋能; 智能化评价; 场景化评价; 证据中心设计; 设计路径
教育评价改革已逐步走向数字化、智能化发展阶段,技术赋能教育评价已成为纵深推进教育评价改革的关键途径和重要突破口。发挥智能技术优化教育评价结构,创新教育评价手段的支撑作用,可以让教育评价改革牵引育人方式转变,使教育评价回归促进学生全面发展本位。然而,目前技术赋能教育评价仍面临学生复杂特征难以表征、评价工具的发展瓶颈难以突破、评价结果的人机互信危机难以规避等评价能力不足的现实困境。场景化评价作为一种能够评估学生在真实性场景中的行为表现的评价方法,不仅能使评价更具场景真实性、智能动态性、融合连接性和内隐联结性,还能更全面、更真实地反映学生的能力与素养,从而提供更准确、更具指导意义的评价结果,促进学生全面发展。本研究将回顾技术赋能教育评价的发展阶段,并对场景化评价的内涵、特征及其设计路径进行深入探索,以期为当下技术赋能教育评价改革提供新的思路。
一、
技术赋能教育评价的发展阶段
技术赋能教育评价经历了从口头表达、实际操作到传统纸笔作答评价模式再到计算机化评价模式的两次大变革。第一次变革得益于造纸技术和印刷技术的发明与发展,第二次变革以计算机和网络等技术的迅猛发展与迅速普及为契机,变革速度和影响规模远超以往(檀慧玲 & 王玥, 2023)。技术赋能教育评价发展可以划分为四个阶段,即第一阶段计算机化测验、第二阶段计算机自适应测试、第三阶段基于数据的持续性动态测试和第四阶段智能化评价(Bunderson et al., 1988)。
(一)第一阶段计算机化测验
计算机化测验的出现和普及得益于试题自动抽取、答题时间监控、自动化评分、过程输入输出等计算机控制管理技术以及大容量数据存储能力、对多项选择题与简答题的自动化处理、网络通信等技术的快速发展。计算机化测验通常以经典测试理论为理论基础,通过包含一系列测量量表、测试和练习的题库系统来实现,广泛应用于学业测评(如会考、课程考试等)(张敏强, 1999),或用于诊断评估,如挪威的数字素养诊断测试以及匈牙利一至六年级的阅读、数学和科学等领域的全国性诊断评估系统(Redecker & Johannessen, 2013),能够对学生学习效果、学生在某一学科领域的基础知识和基本技能等进行评估。
(二)第二阶段计算机自适应测试
随着计算机运行速度和计算能力的显著提升,以及心理测量理论和自适应算法技术的不断发展,基于项目反应理论的计算机自适应测试应运而生。计算机自适应测试借助更复杂的评价量表,根据学生的实时测试表现,动态调整后续题目的难度、内容或时间安排,使用标准化考试系统、语言技能测评系统、学科能力与素养测评系统等大型题库系统,应用于能力测试(如语言测试、GRE General Test和师范生教育技术能力测评等)(张宝钧, 2003; 韩晓玲, 2022, pp.231-232)、技能鉴定(如美国军队职业倾向测验等)、资格考试(如美国护士执照测验、注册会计师测试等)(张华华 & 程莹, 2005)、学科素养(如数学能力和素养、地理核心素养、美术素养等)等多样化评价场景(林子值 & 胡典顺, 2021; 姚泽阳, 2022, p.121; 李健 等, 2023),能够较精确地评估学生真实的学习效果、基础知识和基本技能等。
(三)第三阶段基于数据的持续性动态测试
21世纪初,教育领域经历了一场由数据挖掘与分析、学习分析、行为跟踪等技术驱动的变革(Redecker et al., 2012),同时评价范式也转变为强调数据驱动的个性化指导和过程性评价,技术进步与评价范式转变共同促进教育评价进入第三阶段。基于数据的持续性动态测试依据有效的量表构造规范、个性化的学习者档案,通过对学生在数字化学习环境中的学习过程进行持续但不引人注目的监测,动态评估其学习轨迹和能力变化,从而能够有效反映学生的知识结构和学习特点,因此被广泛应用于学生综合素质评价、学习预警提示、课程和教学策略优化等多样化评价场景(罗海风 等, 2024),不仅能够精准评价学生群体或个体的基础知识与基本技能,还能揭示学生知识结构以及学习时间、学习习惯、学习进度等学习行为特征(赵慧臣, 2017)。
(四)第四阶段智能化评价
近年来,智能技术的快速进步为教育评价实现数字化、智能化发展提供了坚实的技术支持。第四阶段智能化评价以专家知识模型和深度学习理论为指导(Ouyang et al., 2023),利用机器学习、深度学习和知识推理等技术,构建知识库和推理程序,对学生静态的学习档案和动态的解决复杂任务的表现进行智能评分和深度解释,从而为学生提供专家化、个性化的评价和反馈方案。智能化评价正在引领教育评价进入一个崭新的阶段,依托教育机器人、智能辅导系统和可穿戴智能设备等智能教学工具与平台(吴砥 等, 2023),处理和分析包括文本、音频、视频以及来自智能设备的数据在内的多模态数据,为深入分析学生行为特征提供了强有力的支撑。智能化评价使智能辅导和决策反馈成为可能,通过自动化学习评估、个性化学习路径规划和个性化学习资源推荐等,评估学生的知识理解深度、个性品质(如兴趣、动机等),以及心理健康(如焦虑、抑郁等)等(骆方 等, 2021)。
综合上述分析,可以梳理并总结出技术赋能教育评价的四个发展阶段(如表1所示),每个发展阶段都是在前一发展阶段的基础上,通过技术创新、理论深化和方法优化,不断进行迭代和升级。第一阶段计算机化测验和第二阶段计算机自适应测试的核心是基于计算机对学生现有基础知识和基本技能的显性测试,是技术赋能教育评价从“替代”传统纸笔测验到“增强”测试程序效率和测试成绩信效度的发展阶段,强调评价的甄别与诊断功能;第三阶段基于数据的持续性动态测试和第四阶段智能化评价的核心在于运用数字化评价工具,以前所未有的方式重新构思和设计评价任务,对学生在学习过程中所展现的知识结构、行为特征、知识理解以及非认知能力等方面内容进行全面监测与评估,强调评价的诊断与预测功能。
表1 技术赋能教育评价的四个发展阶段
二、
技术赋能教育评价的现实困境
近年来,国际测评和教育评价改革实践强调技术赋能推动学生核心素养发展与评价,以引导教育教学改革。但由于核心素养具有综合性、复杂性和内隐性的特征,目前还难以对其进行准确和客观的评价(龙海涛, 2021)。而且,现有技术手段在表征学生复杂特征、突破评价工具发展瓶颈、规避人机互信危机等方面仍面临评价能力不足的困境,未能有效地对学生关键能力与素养进行评价,也无法满足创新人才培养和选拔需求,制约着教育评价改革的纵深推进。
(一)学生复杂特征难以表征
核心素养评价要求全面深入地表征学生复杂特征,但现有评价模式侧重单次、单一知识点的评价,评价结果只能提供对学生特征的简单化表征,无法全面反映学生能力与素养。其中存在的主要问题有二。一是缺少人机交互的表现性任务。尽管我们普及了在线测试,但多是将传统纸笔测试以电子化形式“搬运”到在线平台,偏向于知识传递与获得的标准化任务,缺乏动态环境下对能力与素养的评估,限制了学生展现自我的机会。二是评价标准难以调整。评价标准仍以知识记忆和理解为主(曹培杰 & 王阿习, 2023),缺少对问题解决、批判性思维、创造力等素养指标的评价,适用性和可操作性不强,导致评价难以捕捉学生复杂特征,亦难以真实反映学生能力与素养发展情况。
(二)评价工具的发展瓶颈难以突破
为实现全面评价学生的核心素养,评价工具需要超越对知识记忆和理解的评价范畴,转向通过模拟真实性场景下的评价任务,以获取学生能力与素养评价的多维度信息。然而,这一转变面临技术局限、数据利用问题和场景适应性不足三个发展瓶颈:一是技术支持的不充分使得实时反馈和持续评估难以实施,在很大程度上限制了教学、学习与评价的一体化迁移至多样化学习环境中,进而影响了教学精准化、学习个性化和评价智能化的实现;二是多模型评价数据利用问题,包括数据采集的局限性,难以精准捕捉表现性和非结构化学习任务中的复杂、动态和多维数据,导致许多评价研究仅限于特定情境,同时数据运用方法尚未成熟,在构建评价模型时需要克服多模态数据之间的同步性、互补性、冗余性以及特征提取和整合等一系列问题(骆方 等, 2021);三是评价工具的场景适应性不足,难以灵活应对复杂多变的教育环境和场景,特别是在资源有限和数字化基础设施不健全的情况下,无法在不同场景间实现有效应用,进而造成评价与实践的分离。
(三)评价结果的人机互信危机难以规避
评价模型的可解释性是指其产生的评价结果能够被人们理解和接受的程度。随着深度学习和机器学习技术的发展,可解释性评价模型主要分为三类:独立于模型的方法(如LIME、SHAP等),依赖于模型的方法(如线性回归、决策树等),以及因果解释方法(如贝叶斯图模型等)(赵延玉 等, 2023)。尽管人工智能可解释性评价模型的准确性显著提升,但仍存在精度不稳定、教育场景适应能力弱、单一模型分析不足等问题(Ma, 2024),导致人机信任危机,影响教育评价结果的公平性和科学性,容易误导教育决策。究其根本:一是源于算法偏见,评价结果可能嵌入技术构建者的价值观,导致价值观窄化;二是由于认知决策偏差,现有技术未能完全模拟人类思维和缺乏情感理解,加剧了智能机器决策过程中的不确定性;三是因为缺乏对可解释性评价模型效度的验证,预测准确性验证相对较多,而对可解释性的验证相对缺乏。
三、
技术赋能场景化评价的内涵与特征
当前国际主流的教育评价标准(如PISA 2025等)正逐步重视将真实性测评任务镶嵌于含有丰富数字化学习资源的真实性场景中,评价学生在完成真实性任务时的学习过程(首新 等, 2024)。与此同时,在元宇宙、生成式人工智能等智能技术推动下,以技术和数据为基础,联动多方面场景,一个万物互联、智能感知、虚实融合的真实性评价场景正在逐步形成。显然,新一代智能化评价将展现出新的可能和样态——场景化评价,它不仅展现了教育评价的未来数字空间样态,而且强调了场景化的“任务”“联系”与“应用”,目的是全面捕捉和评价学生在真实性场景中的行为表现。
(一)场景化评价的内涵
场景化评价通过整合虚拟现实、增强现实、元宇宙、生成式人工智能等多种智能技术,将与学生评价紧密相关的人物、时间、空间、事件和内容等具象或抽象事物转化为虚实融合、深度沉浸、交互性强的真实性场景,为学生提供逼真的场景融合互动,围绕所要评价的学生能力与素养维度,将评价问题转化为一系列真实性任务,以“埋点”跟踪的方式对学生解决任务过程中的行为表现过程流数据进行实时分析和及时反馈,从而捕捉、分析和推断学生问题解决、批判性思维、创造力等能力与素养水平,促进学生全面发展(顾小清, 2024; Mutweleli et al., 2024)。情境学习理论、赫尔曼•维特金(Witkin, H.)的场依存性理论、证据中心设计理论等多样化理论是设计场景化评价的潜在理论和方法,能够为真实性场景建构、评价活动体系设计、依据数据证据推理等提供理论基础和有效指导(袁建林 & 刘红云, 2017; Chetia, 2019)。场景化评价将使评价如同“显微镜”般深度洞察学生现有能力与素养,又如同“望远镜”般长远预见学生的未来潜力和发展趋势(杨现民 等, 2017),促进学生个体发展,强调评价的预测与发展功能。
(二)场景化评价的特征
1. 场景真实性
格兰特•威金斯(Wiggins, G.)等强调,真实性任务的设计应包含现实情境,即该任务镶嵌的场景要尽可能地贴近现实世界中遇到的机会和困难(格兰特•威金斯 & 杰伊•麦克泰格, 2017, p.87)。可见,学生需要完成的真实性任务,包括任务的性质和要求等,必须基于真实性场景。真实性场景作为真实性任务的实践场域,包括时空背景和数字化资源等,需要贴近现实,评价目标被精心融入场景中,从而引导学生解决现实和未来生活问题,促进能力与素养的逐层深化。同时,通过创设涉及现实世界中经济、社会和环境等方面的人机交互真实性任务,不仅能够测试学生的知识记忆和理解,更能助推学生将知识和技能迁移到现实生活场景中,实现对学生能力与素养的直接评价,并发挥场景化评价在“主动育人”方面的积极作用。
2. 智能动态性
智能动态性体现为通过高度智能化和动态适应能力,使场景化评价能够根据学生学习进度和实时反馈,灵活调整真实性场景和个性化评价方案。具体表现在:一方面,真实性场景可动态调整(袁凡 等, 2022),通过利用追踪技术、动态模拟技术和事件触发器,实时接收、传输和整合来自现实世界的变化与数据,智能化调整场景设置,能够增强场景的真实感知、动态互动和智能适应,使评价工具与教育实践、教育场景、教育环境相衔接,从而为学生提供最适宜的真实性场景;另一方面,个性化评价方案的智能适配,借助智能监测和多模态学习情感计算等技术,持续跟踪分析学生的认知过程、自我调节过程、情感状态变化等全过程学习行为表现,进而向学生提供智能化、个性化的学习资源和学习策略等服务与支持,以提升评价的精确度。
3. 融合连接性
场景化评价环境依托“AI+真实性场景”的教学评一体化数字空间,不仅消除了传统教育场景的壁垒,还实现了学校、社区、场馆、工作等多场景联动、数据互通共享以及技术、教学、评价的深度融合。一是人机融合互动。利用可穿戴和嵌入式传感器等智能设备,提供丰富的学生体验视角,使学生能够无意识地、自然地融入虚实融合的真实性场景中,并在多个场景间自由切换,从而全面捕捉和记录学生学习行为表现。二是角色与场景的融合。真实性场景提供情感沉浸体验,不仅能够充分调动学生的多感官参与,还能增强人与人之间以及人与场景之间的价值观传递,有效促进学生在真实性场景中实现情感与认知的深度互动。三是评价过程与评价结果的紧密结合。通过应用贝叶斯知识追踪模型(Bayesian Knowledge Tracing,BKT)、知识情境感知的深度知识追踪模型(Knowledge Context-Aware Deep Knowledge Tracing,KCA-DKT)等自适应学习技术,能够持续监测和诊断学生与真实性任务的互动情况,为教师和学生提供实时且有意义的反馈信息,有效弥合教学、学习与评价之间的鸿沟。
4. 内隐联结性
场景化评价的内隐联结性体现在其以一种不易被学生察觉的方式,持续且稳定地对学生在真实性场景中展现的、难以直接观测到的个人能力与素养进行评估,并能够预测学生的未来潜力和发展趋势,为学生全面成长提供坚实的支撑。场景化评价通过与教学活动的无缝对接,使得评价过程自然地融入真实性场景之中,学生几乎不会察觉到评价的存在,确保了教学与评价的同步性和连贯性。在真实性任务的完成过程中,学生能够获得持续的学习支持和即时反馈,这将帮助他们超越现有能力,向更高层次发展。同时,借助脑机交互和信号传递等技术,场景化评价能精确捕捉并映射学生实时的思维活动、意识细胞功能变化、神经元动态突变以及认知过程进展(贾韬 等, 2022),从而揭示他们在创新思维、问题解决、沟通协作和价值观形成等方面的发展情况。
四、
场景化评价的设计思路
(一)以ECD理论为支撑的场景化评价设计框架
1. ECD理论框架
证据中心设计(Evidence Centered Design,ECD)理论是一种依据学习证据进行推理的评价设计方法,基于学习者在完成评估任务时所展现的学习证据来推断其知识、能力与素养水平(冯翠典, 2012)。在ECD理论概念评价框架的基础上(Mislevy et al., 2003),有学者进一步强调了学生模型、证据模型和任务模型这三个核心要素(Shute, 2011),它们构成了一个相互独立又相互作用的闭环结构。学生模型也被称为能力模型,回答“评价目标”的问题,即定义希望评价学习者哪些知识、技能和素养等;证据模型则回答“如何评价”的问题,即确定评分规则和构建评价分析模型,实现对数据证据的提取和分析;任务模型回答“用什么评价”的问题,即如何通过真实性任务诱导学习者产生行为表现,以支持证据模型所需要获得的各种数据证据。概言之,ECD理论的核心内涵有三:一是通过构建真实性问题引发学习者产生行为表现;二是依据学习者评价目标收集行为表现过程中产生的可靠数据证据;三是利用评价分析模型对数据证据进行结果推断。
目前,ECD理论在PISA测试、GRE测试、NAEP等大型教育评价项目,以及在数字素养、核心素养等表现性评价中,展现了其强大的功能和广阔的应用前景。场景化评价通过模拟真实性场景,对学习者的能力与素养进行评估,与ECD理论的评价过程具有高度一致性:二者都强调明确评价目标、设计真实性任务、收集数据证据以及进行评价结果推断分析。因此,场景化评价的设计可以借鉴ECD理论来指导其设计与实施。
2. 基于ECD理论的场景化评价设计框架
将ECD理论框架中的学生模型、证据模型和任务模型三个核心要素,作为构建场景化评价设计框架的基础,能够为评价过程中的各个环节提供理论支撑和实践指导,从而形成如图1所示的一个完整的场景化评价设计框架。首先,评价目标是整个评价活动的起点和依据,根据评价目标对学生在完成真实性任务过程中所需达成的能力与素养进行具体化和标准化处理,构建学生能力评价框架;其次,在评价框架的指导下确定每个评价维度对应的数据证据及其评分标准;再次,创设评价真实性场景,设计引发数据证据产生的真实性任务,并提供任务学习支架;从次,收集学生完成真实性任务过程中产生的过程流数据,以及从过程流数据中提取数据证据并构建评价分析模型;最后,根据评价结果进行反馈和调整。可以看出,与常规教育评价相比,基于ECD理论的场景化评价设计实现了教育评价过程从“片面割裂”到“综合统整”的转变。这种转变要求在设计教什么和如何教之前,首要考虑如何开展评价,确保在课程或一个单元的设计初始阶段,能够依据数据证据将评价目标具体化和标准化,而不是接近尾声时制定评价方案。
图1 场景化评价设计框架
(二)场景化评价的设计路径
通过对场景化评价内涵、特征以及设计框架的阐释和分析,将场景化评价的设计路径划分为构建学习者模型、真实性任务模型、过程流数据模型和评价分析模型,四个环节既相互独立又相互作用,共同构成闭环的评价服务支撑体系,从而确保教学评一体化的连贯性与完整性,有助于深入挖掘和分析学生的行为表现。以“师范生智能教育素养测评”为例,从技术应用与实践层面出发,对上述四个环节的设计路径进行呈现,形成了如图2所示的场景化评价的设计路径。
图2 场景化评价的设计路径
1. 学习者模型:明确学生评价指标体系,构建学生评价观测指标框架
学习者模型旨在确立评价目标和描述学生能力与素养,通过明确学生评价指标体系和构建学生评价观测指标框架两个环节,确保教育工作者能够捕捉和观察到更为精细、微观的学生学习行为表现。
为了精准、客观和科学地评价学生的能力与素养,首先需要明确学生评价指标,深入分析所要评价的学生能力与素养的内涵与特征,并有机整合权威评价指标体系/框架,进行指标的系统提取和优化,最终形成学生评价指标体系的一级和二级维度(朱莎 等, 2023)。在此基础上,为了构建一个更精准、可操作的学生评价观测指标框架,还需要深入分析评价指标体系的一级和二级维度,明确各个评价维度与学生行为之间的具体联系和表现特征,并据此分别确立每个评价维度的观测指标、具体行为表现及其相对应的数据采集类型。在“师范生智能教育素养测评”的场景化评价中,以已有的“师范生智能教育素养框架”为基础(郝建江, 2022, pp.204-207),将其3个一级维度和9个二级维度作为师范生智能教育素养评价指标体系,并分别确立35个观测指标、具体行为表现及所对应的数据采集类型,形成师范生智能教育素养评价观测指标框架。
2. 真实性任务模型:创建真实性场景,设计真实性任务
真实性任务模型需要创建真实性场景,并在场景中设计真实性任务,引发学生展现出与评价观测指标紧密相关的行为表现,为收集学生行为过程流数据提供基础,以便深入理解学生如何应用知识和技能解决实际问题。
第一,创建真实性场景,通过构建数字技术丰富的评价环境,为学生提供与现实世界紧密相连、直面真实性问题的线上线下、课堂内外虚实融合的实践场域(祝智庭 等, 2024)。通过利用元宇宙、AI大模型、动态模拟等技术,整合人物、时间、空间、事件等场景数据维度,创建硬件设备场景、软件操作场景和任务解决场景,使评价活动和内容与现实世界、学科领域、工作场景保持高度一致,促进学生在与场景实时融合互动中有效应对真实性问题。此外,真实性场景的设计还需嵌入问题解决材料、认知发展资源、探究活动工具等支架,并结合场景识别算法和频繁序列挖掘算法,对学生在场景中的特征状态进行感知分析,从而提供实时的、持续的引导和支持。第二,以真实性场景为基础,紧扣观测指标,力求贴近现实生活且具备认知挑战性,设计基于递进式问题链的学习理解型、应用实践型、迁移创新型三类真实性任务(范佳荣 等, 2024),通过逻辑关联、层次递进的任务活动,引导学生在解决现实问题的过程中循序渐进地展现出全面的行为表现。同时,结合自适应学习和生成式人工智能等技术,根据学生表现动态提供模块化任务,确保学生持续保持在最优学习路径上,提升学生能力与素养发展水平的可见性。
教育数字化不断深入发展以及数字技术的广泛应用对师范生智能教育素养提出了更高的要求,现有诊断性测试、自陈式量表等评价方式已不足以全面测评师范生利用数字技术解决真实教育教学问题的智能教育素养水平。鉴于此,通过学生在真实性测评场景中完成真实性测评任务的行为表现,可以准确表征其智能教育素养水平。本研究选择“师范生智能教育素养框架”中的“创新教学素养”一级维度下的“教学实践”二级维度,创设了场景化评价中的测评场景和测评任务(如表2所示)。
表2 师范生智能教育素养测评场景和任务设计
3. 过程流数据模型:规范过程流数据格式,形成教育评价数据库
在数据类型方面,基于真实性场景的行为表现主要形成过程流数据类型。过程流数据是指学生在与场景、任务交互的过程中,经由智能设备产生的连续实时数据,具有来源多样性、类型复杂性、时间连续性等特征,能够全面揭示学生的行为表现特征(郑勤华 等, 2023)。Experience API(xAPI)作为一种采集与存储过程流数据的技术规范工具,广泛应用于多场景数据收集和评价模型构建中,能够将跨平台、跨终端的异构数据整合为统一格式(王冬青 等, 2018)。为了实现过程流数据的共享特性提取、统一接口整合、多维序列耦合,通过采用xAPI将过程流数据模型的设计路径划分为基于Statement属性规范过程流数据格式、基于学习记录存储(Learning Record Store,LRS)系统形成教育评价数据库两个阶段。
一是基于Statement属性规范过程流数据格式阶段,依据Statement声明的执行者、动词、对象等要素,结合场景的五要素(主体、时间、空间、设备、事件)(武法提 等, 2018),形成“学生+时间戳+位置情境+任务情境+设备+数据采集+事件情境”七要素的数据标准化格式。在此基础上,还需进一步实例化为“哪位学生、在什么时间段、在何种真实性场景中、基于什么真实性任务、使用了哪些硬件或软件设备、如何采集数据、做了什么事情并取得了怎样的行为结果”的具体行为表现描述,便于分析和存储于LRS系统中。以“师范生智能教育素养测评”中学习理解型测评任务为例,其中生成的一条规范过程流数据格式示例为:“学生ID:2024S01;时间段:202X-XX-XX 08:00-09:00;真实性场景:人机对话场景;真实性任务:回答AI大模型提出的教学理论知识问题;使用的数字化设备:计算机、智能语音交互软件、在线测评系统(含AI大模型);做的事情:学生根据AI大模型提出的关于‘分布式认知理论’的3道客观选择题和‘如何运用多元智能理论指导教学实践’的2道主观论述题进行回答,阐明自己的观点和认识;数据采集:通过对话系统日志和内容记录工具,采集学生思考时间、作答时间和对话关键词等数据;行为结果:学生正确回答3道客观选择题,2道主观论述题完成准确度90%、作答相似度3%,总得分85分,理解和应用教学理论知识的能力等级为‘良好’。”
二是基于学习记录存储系统形成教育评价数据库阶段,可以使用HDFS或NoSQL等分布式存储系统确保数据的高容错性和可扩展性,形成结构化教育评价数据库。同时,建立数据索引、执行数据安全措施和备份策略以维护数据库安全和完整性。此外,通过LRS系统的RESTful API接口,教育工作者可以快速查询、共享和分析数据。由此确保教育评价数据的安全存储、规范管理和便捷共享。
4. 评价分析模型:提取数据证据,建立评价分析模型
学生行为表现数据是揭示他们在完成真实性任务时知识掌握、能力展现与素养体现的重要依据。为了精确评估这些能力,需要在过程流数据与具体推论或假设之间建立联系,从而使数据能够作为有效证据使用。为此,通过提取数据证据和建立评价分析模型两个方面,将过程流数据与观测指标紧密关联,以此来推断学生在知识、能力与素养等方面的真实情况。
一方面要提取数据证据。首先,建立证据规则,将过程流数据与评价目标相关联,并制定评分机制为数据直接赋予分值或通过算法程序进行计算;其次,通过数据预处理和行为模式识别,筛选出与观测指标高度相关的数据证据;最后,将这些数据证据与观测指标建立映射关系,为评价分析模型和评价结果提供可靠支持。另一方面要建立评价分析模型。可以通过数据证据特征提取(黄春梅 & 王松磊, 2020)、模型建立与训练(张红艳 & 连雅迪, 2024)和模型信效度检验(Waladi & Lamarti, 2024),并依据各观测指标,构建准确性和可解释性能力强的智能评价分析模型,实现各维度能力与素养的智能分析、评价反馈和预测发展。基于此,可以通过文本报告、可视化画像等多种方式,全方位输出学生个体或群体的特征型、发展型和比较型评价结果,并能够提供包括个性化反馈和差异性建议的评价反馈(柴唤友 等, 2024),从而实现对学生素养水平与发展潜能的精准刻画,并为制定培养方案和相关教育决策提供科学依据。
五、
结语
场景化评价是技术赋能教育评价的实践方法和创新路径,对于推动教育领域综合改革和高质量发展具有重要意义。本研究阐释了技术赋能教育评价的发展阶段与现实困境,论述了场景化评价的内涵与特征,并描述了设计框架与设计路径,能够支持场景化评价的设计与开发。但本研究目前提出的设计框架和设计路径,主要基于现有文献和技术应用与实践层面的初步探索,未来研究将致力于融合多学科、多领域以丰富和完善设计框架与设计路径,在实践应用中开展场景化评价实证研究,以期为场景化评价的发展与实践落地提供更多有借鉴意义的思路和方法。
参考文献
曹培杰, & 王阿习. (2023). 新一代数字技术何以赋能教育评价改革. 人民教育(20), 30-32.
柴唤友, 郑勤华, 胡天慧, & 王怀波. (2024). 基于信息技术的表现性评价:概念解析、构成要素及分类框架. 中国电化教育(2), 1-7.
范佳荣, 赵雪妍, & 钟绍春. (2024). 指向学科核心素养的数字化测评工具设计——以初中物理科学探究素养为例. 中国考试(11), 55-66.
冯翠典. (2012). “以证据为中心”的教育评价设计模式简介. 上海教育科研(8), 12-16.
格兰特•威金斯, & 杰伊•麦克泰格. (2017). 追求理解的教学设计(第2版)(闫寒冰, 宋雪莲, & 赖平 译). 华东师范大学出版社.
顾小清. (2024). 基于场景的测评:内涵特征、实践应用与未来展望. 上海教育(8), 30-33.
韩晓玲. (2022). 基于标准的计算机自适应测验的设计及其有效性检验. 山东师范大学.
郝建江. (2022). 师范生智能教育素养框架构建研究. 西北师范大学.
黄春梅, & 王松磊. (2020). 基于词袋模型和TF-IDF的短文本分类研究. 软件工程(3), 1-3.
贾韬, 王国成, & 郭春宁. (2022). “元宇宙热的冷思考”笔谈(上). 科学•经济•社会(1), 1-14.
李健, 宋乃庆, 王诗梦, & 孙小坚. (2023). 一项工具开发:如何才能测评学生美术素养?华东师范大学学报(教育科学版)(6), 118-132.
林子值, & 胡典顺. (2021). 多维项目反应理论在数学素养测验中的应用. 中国考试(5), 72-80.
龙海涛. (2021). 人工智能时代教育评价改革:契机、挑战与路径选择. 中国考试(11), 10-18, 34.
骆方, 田雪涛, 屠焯然, & 姜力铭. (2021). 教育评价新趋向:智能化测评研究综述. 现代远程教育研究(5), 42-52.
罗海风, 罗杨, & 刘坚. (2024). 人工智能时代的教育评价改革. 中国考试(3), 8-17, 97.
首新, 张梦蝶, 谭舒予, & 蔡其勇. (2024). 在数字世界中学习:能力需求与过程本质——PISA(2025)LDW测评评述. 电化教育研究(11), 115-121, 128.
檀慧玲, & 王玥. (2023). 教育评价数字化转型的内生动力与核心议题. 教育研究(12), 143-151.
王冬青, 韩后, 邱美玲, & 凌海燕. (2018). 基于情境感知的智慧课堂动态生成性数据采集方法与模型. 电化教育研究(5), 26-32.
吴砥, 郭庆, 吴龙凯, & 程浩. (2023). 智能技术赋能教育评价改革. 开放教育研究(4), 4-10.
武法提, 黄石华, & 殷宝媛. (2018). 场景化:学习服务设计的新思路. 电化教育研究(12), 63-69.
杨现民, 骆娇娇, 刘雅馨, & 陈世超. (2017). 数据驱动教学:大数据时代教学范式的新走向. 电化教育研究(12), 13-20, 26.
姚泽阳. (2022). 地理核心素养测评的理论与实践研究. 华东师范大学.
袁凡, 陈卫东, 徐铷忆, 葛文硕, 张宇帆, & 魏荟敏. (2022). 场景赋能:场景化设计及其教育应用展望——兼论元宇宙时代全场景学习的实现机制. 远程教育杂志(1), 15-25.
袁建林, & 刘红云. (2017). 核心素养测量:理论依据与实践指向. 教育研究(7), 21-28, 36.
张宝钧. (2003). 简论计算机自适应语言测试的工作机制. 语言教学与研究(3), 18-24.
张红艳, & 连雅迪. (2024). 数智教育评价范式转变动因、特征与实现路径研究. 黑龙江高教研究(1), 23-30.
张华华, & 程莹. (2005). 计算机化自适应测验(CAT)的发展和前景展望. 考试研究(1), 12-24.
张敏强. (1999). 20世纪教育测量学发展的回顾与现状评析. 教育研究(11), 32-37.
赵慧臣. (2017). 教育信息化促进学生评价改革. 教育研究(3), 120-121, 129.
赵延玉, 赵晓永, 王磊, & 王宁宁. (2023). 可解释人工智能研究综述. 计算机工程与应用(14), 1-14.
郑勤华, 陈丽, 柴唤友, 王磊, & 王怀波. (2023). 基于信息技术的表现性评价:内涵、作用点与发展路向. 中国电化教育(3), 55-61.
朱莎, 郭庆, & 吴砥. (2023). 计算心理测量视域下的学生数字素养测评. 现代远程教育研究(6), 19-29.
祝智庭, 赵晓伟, & 沈书生. (2024). 融智课堂:融入AI大模型的创新课堂形态. 电化教育研究(12), 5-12, 36.
Bunderson, C. V., Inouye, D. K., & Olsen, J. B. (1988). The four generations of computerized educational measurement. ETS Research Report Series, 1988(1), i-148.
Chetia, B. (2019, February 27). All about using scenario-based assessments in online learning. CommLab India. https://blog.commlabindia.com/elearning-design/scenario-based-assessments
Ma, X. (2024). Artificial intelligence-driven education evaluation and scoring: Comparative exploration of machine learning algorithms. Journal of Intelligent Systems, 33(1), 20230319.
Mislevy, R. J., Almond, R. G., & Lukas, J. F. (2003). A brief introduction to evidence‐centered design. ETS Research Report Series(1), i-29.
Mutweleli, S., Mwathe, G., & Mundi, S. (2024). Scenario-based assessments: Experience from East Africa. In E. Care, M. Giacomazzi, & J. K. Mugo (Eds.), The contextualisation of 21st century skills: Assessment in East Africa (pp. 135-149). Springer International Publishing.
Ouyang, F., Dinh, T. A., & Xu, W. (2023). A systematic review of AI-driven educational assessment in STEM education. Journal for STEM Education Research, 6(3), 408-426.
Redecker, C., & Johannessen, Ø. (2013). Changing assessment—Towards a new assessment paradigm using ICT. European Journal of Education, 48(1), 79-96.
Redecker, C., Punie, Y., & Ferrari, A. (2012). eAssessment for 21st century learning and skills. In A. Ravenscroft, S. Lindstaedt, C. D. Kloos, & D. Hernández-Leo (Eds.), 21st century learning for 21st century skills: 7th European conference of technology enhanced learning. Proceedings 7 (pp. 292-305). Springer Berlin Heidelberg.
Shute, V. J. (2011). Stealth assessment in computer-based games to support learning. Computer Games and Instruction, 55(2), 503-524.
Waladi, C., & Lamarti, M. S. (2024). Adaptive AI-driven assessment for competency-based learning scenarios. In M. Khaldi (Ed.), Innovative instructional design methods and tools for improved teaching (pp. 215-226). IGI Global.
Scenario-based Assessment: The New Trend of Technology-empowered Educational Assessment Reform in New Era
Guo Jiong, Zou Jiaren
Abstract:Technology-empowered educational assessment is not only a key pathway and an important breakthrough for deepening educational assessment reforms, but also an inevitable choice for accelerating the high-quality development of education. Technology-empowered educational assessment can be divided into four developmental stages. Each stage shows its own significant characteristics and also reveals the practical dilemmas faced by technology-empowered educational assessment in the implementation process. Therefore, scenario-based assessment should be a new trend in the current stage of intelligent assessment. Based on the explanation of the connotation and features of scenario-based assessment, researchers believe that the “Evidence Centered Design” (ECD) theory can be introduced into scenario-based assessment, and a scenario-based assessment design framework can be constructed based on the three core elements of learner model, evidence model, and task model. Finally, taking the assessment of normal university students’ intelligent educational literacy as an example, the article proposes a scenario-based assessment design path consisting of four interconnected stages: learner model, authentic task model, process data model, and assessment analysis model, aiming to provide support and reference for the design and implementation of intelligent assessment.
Keywords:technology empowerment; intelligent assessment; scenario-based assessment; evidence centered design; design path
作者简介
郭炯,西北师范大学教育技术学院教授(通讯作者:guoj72@163.com 兰州 730070)。
邹佳人,西北师范大学教育技术学院博士研究生(兰州 730070)。
基金项目
2025年度甘肃省高校产业支撑计划项目“乡村学生学业质量发展智能评估项目”(项目编号:2025CYZC-015)
责任编辑:郝丹
期刊简介
《中国远程教育》创刊于1981年,是教育部主管、国家开放大学主办的综合性教育理论学术期刊,是中文社会科学引文索引(CSSCI) 来源期刊、全国中文核心期刊、中国人文社会科学期刊AMI综合评价(A刊) 核心期刊、中国科学评价研究中心(RCCSE) 核心期刊、中国期刊方阵双效期刊、人大复印报刊资料重要转载来源期刊,面向国内外公开发行。
本刊关注重大教育理论与政策,推动科技赋能教育,反映国际学术前沿,聚焦本土教育改革,注重学术研究规范,提倡教育原创研究。
地址
北京市海淀区复兴路75号
邮编
电话
010-68182514
电邮
zzs@ouchn.edu.cn
网址
cjde.ouchn.edu.cn
来源丨中国远程教育微刊
声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与我们联系,我们将及时更正、删除,谢谢。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.