![]()
谷歌发布新研究,展示了一种利用生成式AI评估"未来就绪"技能的全新方法。与纽约大学联合开展的研究结果表明,AI评分结果与人类专家的评分水平相当。这一研究实验项目Vantage现已在Google Labs上线,向公众开放体验。
随着AI以前所未有的速度持续演进,"未来就绪"技能再度受到广泛关注——这类经久耐用的人类核心能力,无论技术如何迭代或自动化程度如何提升,都将保持其价值。经合组织《学习罗盘2030》和世界经济论坛《未来就业报告》等国际框架均明确指出了一批优先技能,两者共同强调批判性思维、协作能力与创意思维等核心能力。这些技能早在AI兴起之前便被视为不可或缺,如今更是愈发重要。
谷歌今日正式发布Vantage——一项利用生成式AI在模拟环境中创建对话场景,以评估未来就绪技能的研究实验项目。Vantage由谷歌与纽约大学的教育学专家及研究人员联合开发,旨在为高中生和大学生提供一个可供练习和经过验证评估的沙盒环境,其构建方法与数学、科学等核心学科传统上所采用的系统性方法一脉相承。Vantage英文版现已在Google Labs开放注册。
为何评估未来就绪技能如此重要
有效学习过程的核心在于反馈与评估,两者对个人成长和有效教学均至关重要。在全球教育体系中,"考什么就教什么"的现象普遍存在。
然而,未来就绪技能出了名地难以衡量。传统测试方式过于僵化,难以捕捉人们的思维过程与互动方式,也与这些技能在真实世界中的应用场景相去甚远。在真实的人际互动中测试这些技能固然是理想方式,但资源消耗极大,且难以在众多学生中实现标准化和一致性评分。例如,如果一组学生从未产生分歧,又如何公正地评估他们的冲突解决能力?如果他们采纳了第一个出现的想法,又如何评估在此基础上创造性发展的能力?
谷歌研究团队致力于探索如何借助可扩展、经验证的方法评估学生的未来就绪技能,从而帮助教育者将课程与这些技能对齐,并支持学生持续成长。
Vantage的运作机制
Vantage的实验设置将学习者置于与AI虚拟角色进行协作任务的动态多方对话场景中。这一设置既能管控评估环境,又能模拟比现有标准化测试更真实、更贴近现实场景的互动,为学习者提供一个应对复杂人际与情境挑战的沙盒空间。
当用户在开放式场景中——例如准备辩论或提出创意方案——与AI虚拟角色互动时,一个"执行大语言模型"会依据预设的评估评分标准,引导AI虚拟角色推动有效评估的进行。执行大语言模型会持续分析对话状态,动态引入特定挑战——如对某一想法提出质疑,或制造矛盾冲突——为学习者创造针对性地展示自身技能的机会。由此,它充当了新一代自适应评估引擎的角色,通过引导对话走向,确保在对话结束时收集到评估用户所需的完整信息。
任务完成后,AI评估器会依据执行大语言模型所使用的同一套严格评分标准,对对话记录进行分析,识别并衡量技能应用的具体证据。学习者随后将收到详细的技能图谱,其中包含可视化评分及针对其在对话中所展示技能的定性反馈,让原本"看不见"的人类技能发展进程变得可视化、可落地。
研究发现:AI评估达到专家水准
为确保学术与教育严谨性,谷歌与纽约大学建立了研究合作关系。双方共同梳理了常见评估标准,并将其与相关任务对齐,合作重点在于建立并验证评估方法。
双方开展了一项联合研究,招募了188名来自美国、年龄在18至25岁之间的测试者,完成涵盖协作技能——即冲突解决与项目管理——的Vantage任务,并重点考察两个核心研究问题。
Vantage的一项关键创新在于引入执行大语言模型,实现自适应评估。研究评估了大语言模型在引导对话时针对特定技能(如冲突解决或项目管理)的有效性,通过与使用独立运作、未受引导的AI虚拟角色完成相同任务的学习者进行比较,衡量用户所展示的与该技能相关信息的丰富程度。研究结果表明,执行大语言模型确实能够有效引导对话产生高密度信息,在保持自然对话流畅性的同时,显著提升了被评估技能相关信息的数量。这一能力在多项模拟任务中表现一致。
为测试AI评估器的准确性,研究团队将其评分与纽约大学评分者依据同一教学评分标准所给出的评分进行了比较。结果显示,AI评估器与人类专家之间的评分一致性,与两位专家评分者之间的一致性相当。这表明AI评估器的对话评分已达到人类专家评分者的水准,证明Vantage是一套有效的技能评估自动化系统。
谷歌还与专注于耐久性技能评估AI工具开发的初创公司OpenMic开展了联合研究,聚焦创造力与英语语言艺术领域,在更广泛的情境中验证AI评估器的表现。研究分析了180名学生在创意多媒体任务上的表现——包括人物专访和与英语文学相关的媒体文章——并将AI评估器的评分与OpenMic内部专家的评分进行了比对。结果同样显示出AI评估器与人类专家之间的高度相关性,皮尔逊相关系数达到0.88,证明AI评估器即便面对复杂的现实创意任务,也能提供有效的评分。
对教育的深远影响
在学校场景中,这类模拟环境有望开辟出一个可量化的"技能层",叠加于现有学校课程之上,并融入学科任务之中。这将帮助教育者探索全新的作业形式,例如与AI虚拟角色就社会科学话题展开辩论,或扮演团队负责人角色规划实验室实验。学生不仅可以获得关于学科知识(如实验的科学原理)的反馈,还能获得技能层面(如协作质量与批判性思维水平)的反馈。这一方式是对现有小组合作项目的补充,有望同步推动学术知识与耐久性技能的共同发展。
展望未来
本研究探索了如何将至关重要的未来就绪耐久性技能,从难以衡量转变为可大规模量化。由此,一个更具包容性、更精准的未来就绪能力评估体系将成为可能。这一实验是朝着更贴合未来需求的评估方式迈出的重要一步。
谷歌团队也希望新搭建的基础设施能够支持生态系统内更广泛的研究与有效性研究,使研究人员不仅能够评估新工具对知识留存的影响,还能评估其对技能发展的直接影响。此类研究的潜力不可小觑,将有助于深入理解不同教学干预手段如何随时间推移塑造人类能力。
展望未来,谷歌将拓展研究范围,重点攻克迁移性这一关键问题——即在模拟沙盒中所展示的技能,如何转化为真实人际互动中的实际能力。此外,鉴于人类技能具有文化情境性,谷歌将着重探索不同文化背景下的表现差异,以确保技术的包容性与公平性。在评估之外,下一阶段的目标是向技能成长迈进,进一步深化对技能发展的理解,并通过在模拟环境中的实践来衡量技能提升的成效。
Q&A
Q1:Vantage是什么?它能评估哪些技能?
A:Vantage是谷歌与纽约大学联合开发的一项研究实验项目,利用生成式AI在模拟环境中创建对话场景,评估学生的"未来就绪"技能。目前主要评估的技能包括冲突解决、项目管理、批判性思维、协作能力和创意思维等核心能力。Vantage英文版现已在Google Labs开放注册。
Q2:Vantage的AI评估结果准确吗?和人类专家相比如何?
A:根据与纽约大学的联合研究,Vantage的AI评估器与人类专家之间的评分一致性,与两位专家评分者之间的一致性相当。另在与OpenMic合作的创造力评估研究中,AI评估器与人类专家评分的皮尔逊相关系数高达0.88,说明AI评估精度已达到专家水准。
Q3:Vantage在学校教学中怎么用?对学生有什么帮助?
A:在学校场景中,Vantage可作为一个"技能层"叠加于现有课程之上,教师可设计学生与AI虚拟角色辩论社会科学话题或规划实验室实验等任务。学生不仅能获得学科知识反馈,还能获得协作、批判性思维等技能的可视化评分与定性反馈,帮助技能发展"看得见、用得上"。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.