网易首页 > 网易号 > 正文 申请入驻

人均不到3元!被AI作弊逼急的教授玩“邪修”:“花105元,给全班36人办了场AI口试”

0
分享至


编译 | 郑丽媛

出品 | CSDN(ID:CSDNnews)

最近,纽约大学斯特恩商学院数据科学教授 Panos Ipeirotis 遇到了一种“诡异的幸福”。

在他与 Konstantinos Rizakos 联合授课的全新课程《AI/ML 产品管理》上,学生们的课前作业质量突然整体飙升,好得有点反常:不是“优秀学生”的那种好,而是“像咨询公司报告、被反复精修三轮”的那种好。

于是,Panos 和 Konstantinos 干了一件十分原始的事情:课堂随机点名,让学生现场解释自己写的作业内容。结果非常“魔幻”:很多作业看起来条理清晰、结构完美的学生,在被追问两三个细节后就露馅了——连自己为什么这么做都讲不清楚,还有些学生干脆全程“当机”。

“这种现象不可能只是紧张或运气不好”,Panos 直言:“如果一个人连自己交的作业都讲不明白,那么这份书面作业,就根本没测出我们想要评估的真实能力。”

发现这个问题后,Panos 突然想到了几个月前,芝加哥大学布斯大学商学院 Brian Jabarian 领导的一项研究结果:AI 在做招聘面试时,反而比人类更好,原因很简单:人会累、有偏见、执行标准不一致,而 AI 不会。

而这个结论,让 Panos 他们产生了一个放在两年前听起来像笑话的想法:

既然这样,要不直接让语音 AI 代理来当期末口试的考官?


有人会问为什么现在口试

这个问题的核心,其实既简单又残酷:现在,学生可以随时调用 LLM来应对传统意义上的大部分考题,过去那种“通过课后作业就能衡量学生理解程度”的旧模式,已经彻底失效了。

那改成课堂闭卷笔试不就行了?确实,Panos 他们在期中考试时就这么干了,但还有一个更棘手的问题:小组项目。

以前,Panos 担心的是“搭便车”,即学生把任务甩给队友;而现在,更可怕的事情出现了:Gemini 3.0 发布,NotebookLM 能直接生成毫无破绽的演示文稿。

一瞬间,哪怕一个学生对项目毫无参与,他也能在台上讲得天花乱坠——而老师根本无从分辨。

基于此,口试成了自然而然的应对方案:

● 它要求学生进行实时推理、对全新问题灵活应用知识、并为自己的每一个决策辩护;

● 没有 LLM 在旁“提示”,更没有“我查一下”的时间让 ChatGPT 生成答案;

● 整个过程,只有你、你的知识储备,以及考官。

但唯一的问题是:口试的规模化落地,简直是一场后勤噩梦。

以 Panos 的这门课为例,有 36 名学生、2位授课老师,勉强还能应付。但不少学生要求协调考试时间:“我 15 号要赶飞机”、“那天我还有三门期末考”、“我要回家参加家庭活动”……Panos 感慨,这些理由全都合情合理:“但试想一下,如果班级规模扩大十倍,协调考试时间就会变成一场旷日持久的拉锯战。”

这就是为什么口试一直难以规模化的原因——除非换个思路,用 AI“走个捷径”。


语音 AI 代理,搞定口试规模化

Panos 他们选择用 ElevenLabs 的对话式 AI 平台,打造了一个“语音口试智能体”。

据介绍,这个平台把 ASR、TTS、打断处理、轮次控制等脏活全都封装好了。针对低风险场景(比如日常作业)的基础版 AI 考官,甚至几分钟就能搭建好了——只需要写一段提示词,明确 AI 需要向学生提问的方向,整个系统就可以上线运行。

在 Panos 的方案中,有两个功能起到了关键作用:

● 动态变量:将学生姓名、项目细节等个性化信息作为参数传入对话流程,实现真正的 “个性化口试”。

● 工作流设计:用多个子 Agent 构建结构化流程,而不是通用一个“话痨大模型”去乱聊。


这场 AI 口试长什么样?

具体而言,Panos 他们设计的口试分为两部分:

(1)环节一:“聊聊你的项目”

AI 代理将围绕学生的结课项目展开提问,包括项目目标、数据来源、模型选型依据、评估指标设计、以及项目中遇到的失败与不足。这正是“用 LLM 代写作业”的学生的死穴——你可以让 ChatGPT 帮你写,但你很难即兴编出一套自洽的决策逻辑。

(2)环节二:“现场分析一个案例”

AI 代理将从课程讲过的案例中随机抽取一个,围绕案例涉及的知识点进行提问——本质上是检验学生是真的吸收了知识,还是仅仅来课堂“打个卡”。

为了支撑这套结构化流程,他们把口试工作流拆分成了三个各司其职的子 Agent:

● 身份验证 Agent:要求学生提供学号,只有输入有效学号才能进入考试环节。

● 项目讨论 Agent:通过参数注入学生的项目背景,提示词中包含每个项目的详细信息,确保 AI 能提出有针对性的问题。

● 案例讨论 Agent:负责随机抽取案例并进行结构化提问。

这种“多个小 Agent 协作”的模式,绝非为了追求技术上的“好看”,它不仅能有效防止对话偏离预设轨道,还能让系统调试变得清晰可控。


成本与效果如何?用数字说话

把这套 AI 口试系统实践之后,Panos 他们初步统计了一下:

● 36 名学生,9 天内完成全部口试

● 平均耗时 25 分钟(最短 9 分钟,最长 64 分钟)

● 每场对话平均交互 65 轮

● 成本:0.42 美元/人,总计 15 美元

● 三个 AI 模型评分一致度:89% 在 1 分以内

● 最短考试时间 9 分钟的学生,反而拿了最高分 19 分(满分 20 分)

对此,Panos 还仔细算了一笔账:36 名学生的口试总成本为 15 美元(约人民币 105 元),具体开销如下:Claude(主评分模型)8 美元、Gemini 2 美元、OpenAI 0.3 美元、ElevenLabs 语音时长费用约 5 美元——平摊下来,每个学生仅需 0.42 美元(约人民币 2.9 元)。

要是换成纯人工的话:36 名学生 × 每人 25 分钟 × 2 名考官 = 30 小时的人工工时。哪怕按助教时薪 25 美元计算,总成本也高达 750 美元,如果按教授时薪计算,成本更是高到 Panos “根本就不会考虑组织口试”的地步。

可如今仅花费15 美元,Panos 就实现了:实时口试评估、Claude + Gemini + ChatGPT 三模型评审委员会、包含原文引用的结构化反馈、完整的考试审计追踪。更重要的是,通过这次尝试,他们还发现了自己教学过程中存在的漏洞。


踩过的坑,比你想象的多

不过,对于这套 AI 口试系统的打磨,Panos 他们也并非一步到位,在实践中踩了不少坑。

(1)声音太“吓人”

Panos 他们原本选择了 Foster Provost 的声音,结果大多学生反馈:像在被骂。

解决方案:以后 A/B Test 多种声音,优化“理解体验”,而不是一味强调“权威感”。

(2)一次性问四个问题

Agent 会说:请解释你的指标选择,并告诉我你试过哪些基线,为什么没用 X,以及你下一步打算做什么——显然,这一下子问了 4 个问题。口试本身就要求学生实时思考,认知负荷已经很高,叠加多个问题只会让学生不堪重负。

解决:在 Prompt 中加入硬性规则,一次只提一个问题,如果需要进行多维度追问,必须拆分成多个对话轮次。

(3)重复问题时偷偷改写

过程中,学生会问:“能重复一下问题吗?”有时 Agent 会换种问法,结果把原本的题目都变了。

解决:在 Prompt 中明确指令,当学生要求重复问题时,必须逐字复述,严禁改写,一个字都不能变。

(4)不给学生思考时间

学生刚一停顿思考,AI 就立刻插话追问,甚至会把沉默当成“学生没听懂”,直接跳过当前问题。解决:在 Prompt 中要求 AI 留出思考时间,避免过度追问。把 AI 触发“你还在吗?”的超时等待时间,从 5 秒延长到了 10 秒。

(5)LLM 根本不懂什么叫随机

Panos 原本要求 AI “随机抽取” 一个案例进行提问,结果 12 月 12-18 日期间,只要案例列表里有“Zillow”(美国房产平台),AI 选中它的概率就高达 8%。

解决:把随机性从 Prompt 层面转移到代码层面,即生成一个显式的随机数,再将随机数与案例进行确定性映射。随机性由代码来保证,而非依赖 LLM 的选择。


评分委员会:三模型互相“掰头”真的有效

借鉴 Andrej Karpathy 的思路,Panos 他们采用了“LLM 评分委员会”的模式:

让 Claude、Gemini、ChatGPT 三个模型,分别独立评估每场口试的对话记录;之后,让每个模型看到另外两个模型的评分和理由,并据此修正自己的评分;最后,由 Claude 担任 “主考官”,综合所有模型的意见,生成最终评分和详细依据。

第一轮的结果简直惨不忍睹:三个模型的评分完全一致的情况为 0%,仅有 23% 的评分误差在 2 分以内;在 20 分满分的体系下,评分的最大平均误差接近 4 分。

甚至,不同模型的“打分风格”也不一样:Gemini 堪称“心软的老好人”,平均分高达 17分;而 Claude 的平均分只有 13.4 分——3.6 分的差距,刚好是 B+ 和 B- 的区别。而 Claude 和 OpenAI 的打分尺度在第一轮就已经比较接近:70% 的评分误差不超过 1 分。


而当模型们进入 “审议环节”(看到彼此的评分和理由)后,评分一致性发生了质的飞跃:Gemini 在参考了 Claude 和 OpenAI 更严格的评分依据后,平均分直接下调了 2 分——因为它无法再为那些“实验讨论存在明显 bug”的答卷,给出 17 分的高分。


更有意思的是,模型之间的评分分歧并不是随机出现的。

在“问题框架设计”和“评估指标选择”这两个维度上,三大模型在 1 分以内的一致率是 100%;但在“实验设计”上,一致率只有 57%。


为什么会这样?原因其实很直观: 当学生给出的回答清晰、具体、有结构时,不论是人还是 AI,评分都高度一致;当学生的回答开始变得空泛、含糊、全是套话时,评分者就会在“到底该给多少部分分”上产生巨大分歧。所以,“实验设计”这一项的一致率低,反映的不是模型不靠谱,而是学生的回答本身就存在模糊性。

除此之外,Panos 坦言这套系统给出的评分,比他平时给学生的要严格一些。关于这一点,他认为是好事:“毕竟学生走出校园后,这个世界可不会习惯性给他们打高分。”


AI反馈质量远超人类水平

Panos 还提到,AI 系统会自动生成“优点 / 不足 / 改进行动”三段式反馈,并直接引用学生原话作为证据。

以最高分学生的反馈为例:

“你对指标权衡与 Goodhart 定律风险的理解非常出色—— 你用‘热水浴缸’的例子,完美阐释了优化单一指标如何导致其他指标失效。”

再以一位 B- 学生的反馈为例:

“请练习完整阐述 A/B 测试方案:明确提出假设、定义随机化单元、指定监控指标阈值、并建立方案上线或回滚的决策标准。”

这些反馈都具体、可落地,还附带实证支撑。Panos 感慨:“说实话,换成人类评分者,根本不可能为每个学生都做到这一步。”

而当 Panos 他们开始按考点拆分学生成绩时,一个短板暴露得淋漓尽致——实验设计。这个考点的平均分仅为 1.94 分(满分 4 分),对比“问题框架设计”考点的 3.39 分,差距一目了然。

具体的分数分布更是触目惊心:

● 3 名学生(8%)得 0 分——完全无法就该考点展开论述

● 7 名学生(19%)得 1 分——仅具备表层理解

● 15 名学生(42%)得 2 分——具备基础理解

● 0 名学生得 4 分——无人达到精通水平

这些数据让 Panos 他们意识到了自己的问题:课程中讲解 A/B 测试方法论的部分太过仓促。而这场由 AI 主导的口试,把这个教学漏洞赤裸裸地摆在了他们面前,想忽视都不行。

另一个令他们颇感意外的发现是:口试时长与最终得分完全不相关(相关系数 r = -0.03)。耗时最短的一场口试(9 分钟),反而拿到了最高分 19 分;而耗时最长的一场(64 分钟),得分只有 12 分。

也就是说,时间长并不代表懂得多,而真正的理解,反而是高效的。


那么学生怎么说

在公布成绩前,Panos 他们对学生做了问卷调查,收集他们对AI口试的感受,结果很有意思:

● 仅 13% 的学生更喜欢 AI 口试模式,57% 的学生还是倾向于传统笔试

● 83% 的学生认为 AI 口试比笔试更有压力

但与此同时:70% 的学生认同,AI 口试能更准确地检验他们的真实理解水平——这也是所有调查选项中认可度最高的一项。简单来说,大多数学生都认可这种评估方式,但对体验过程并不满意。


所以,结论很显然:核心思路是可行的,只是执行细节还需迭代优化。

在分享的最后,Panos 提到,课后作业的时代已经落幕,而退回传统的线下纸笔考试,更像是一种技术上的倒退。当今教师需要的,是一种能奖励真正的理解能力、决策能力和实时推理能力的评估方式:

“口试曾经是主流的评估手段,只是受限于规模问题才被淘汰;如今,AI 正在让口试重新变得规模化、可落地。”

Panos 补充道,还可以把整套 AI 口试系统直接开放给学生,让他们反复练习、充分备考。因为与传统考试“考题泄露即灾难”不同,AI 口试的考题是实时生成的——学生练得越多,掌握得就越扎实。

“而这,才是学习本该有的样子”,他表示,“以毒攻毒,方为上策。”

原文链接:https://www.behind-the-enemy-lines.com/2025/12/fighting-fire-with-fire-scalable-oral.html



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
朴槿惠出狱生活:住1676平别墅,与小10岁律师为伴,如今生活安逸

朴槿惠出狱生活:住1676平别墅,与小10岁律师为伴,如今生活安逸

芊芊子吟
2026-01-10 15:55:05
雷军再回应"1300公里只充一次电" 水军想给我贴"虚假营销"的标签

雷军再回应"1300公里只充一次电" 水军想给我贴"虚假营销"的标签

每日经济新闻
2026-01-09 10:29:49
CBA第12轮最佳阵容:王哲林11中10率上海升第一 辽篮双核入选

CBA第12轮最佳阵容:王哲林11中10率上海升第一 辽篮双核入选

醉卧浮生
2026-01-10 14:53:13
300 万支 95 式步枪迎来退役潮,它们的归宿在哪?既不适合外销,就连朝鲜、巴铁也对此没有需要

300 万支 95 式步枪迎来退役潮,它们的归宿在哪?既不适合外销,就连朝鲜、巴铁也对此没有需要

史海孤雁
2025-12-24 14:20:17
两次拒绝黎明,无视钟汉良示爱,被折磨20年后55岁的她憔悴成大妈

两次拒绝黎明,无视钟汉良示爱,被折磨20年后55岁的她憔悴成大妈

青史楼兰
2025-12-29 10:12:14
火箭再输开拓者,赛后4人被炮轰,球队不交易休想夺冠

火箭再输开拓者,赛后4人被炮轰,球队不交易休想夺冠

邹维体育
2026-01-10 13:56:04
里奇·保罗:我希望詹姆斯今年不会退役!他在湖人就是带年轻人!

里奇·保罗:我希望詹姆斯今年不会退役!他在湖人就是带年轻人!

氧气是个地铁
2026-01-10 15:54:04
别被容量迷惑!iPhone 256GB和国产512GB的差距,比想象中大

别被容量迷惑!iPhone 256GB和国产512GB的差距,比想象中大

小柱解说游戏
2026-01-10 05:30:03
她是国家一级演员,享正军级待遇,离异后至今单身,67岁依然美丽

她是国家一级演员,享正军级待遇,离异后至今单身,67岁依然美丽

老谢谈史
2025-12-16 14:59:41
1972年尼克松问该怎么称呼蒋介石?毛主席淡定回了7个字,全场瞬间笑翻

1972年尼克松问该怎么称呼蒋介石?毛主席淡定回了7个字,全场瞬间笑翻

源溯历史
2026-01-01 23:46:13
官宣辟谣!鹿晗这波操作,关晓彤颜面何存?

官宣辟谣!鹿晗这波操作,关晓彤颜面何存?

搞笑娱乐笑话
2026-01-08 22:12:49
太惨了!2025年12月纯电车销量榜:ModelY夺冠,星愿第3,钛3第39

太惨了!2025年12月纯电车销量榜:ModelY夺冠,星愿第3,钛3第39

艾米手工作品
2026-01-10 01:11:54
一名女性遭遇已婚985高校博士后“恋爱骗局”后:举报、起诉、制作PDF……

一名女性遭遇已婚985高校博士后“恋爱骗局”后:举报、起诉、制作PDF……

极目新闻
2026-01-09 19:14:25
中国重磅出击!特朗普的噩梦降临!

中国重磅出击!特朗普的噩梦降临!

李荣茂
2026-01-09 19:15:36
最后一位中顾委常委,副国级,101岁去世,终生憾事未报祖母恩

最后一位中顾委常委,副国级,101岁去世,终生憾事未报祖母恩

鹤羽说个事
2025-12-30 11:29:09
鲍威尔交易迎来反转?近4战场均18+5,三分15中11,小卡迎来绝配

鲍威尔交易迎来反转?近4战场均18+5,三分15中11,小卡迎来绝配

你的篮球频道
2026-01-10 12:04:26
王毅表态统一后,美国摊牌了!“台独”2位金主遭制裁,1个已被废

王毅表态统一后,美国摊牌了!“台独”2位金主遭制裁,1个已被废

月凌渡
2026-01-10 14:19:18
教过那么多孩子,我发现小学数学就很差的,大概率会一直差下去!

教过那么多孩子,我发现小学数学就很差的,大概率会一直差下去!

好爸育儿
2025-12-30 17:30:47
抗战时,一地下党被困粮店,店内小伙计悄声叮嘱道:出去时背袋米

抗战时,一地下党被困粮店,店内小伙计悄声叮嘱道:出去时背袋米

青史如烟
2026-01-09 22:44:42
美俄对峙,俄罗斯怂了,俄油轮被美军扣押

美俄对峙,俄罗斯怂了,俄油轮被美军扣押

山河路口
2026-01-08 12:19:03
2026-01-10 16:35:00
CSDN incentive-icons
CSDN
成就一亿技术人
26249文章数 242213关注度
往期回顾 全部

科技要闻

传DeepSeek准备第二次震惊全世界

头条要闻

特朗普为何如此想要格陵兰岛 美联社用同个词解释3次

头条要闻

特朗普为何如此想要格陵兰岛 美联社用同个词解释3次

体育要闻

怒摔水瓶!杜兰特30+12 难阻火箭遭双杀

娱乐要闻

赵樱子称和蒋毅试婚三天:像试面膜

财经要闻

投资必看!瑞银李萌给出3大核心配置建议

汽车要闻

宝马25年全球销量246.3万台 中国仍是第一大市场

态度原创

数码
艺术
教育
房产
公开课

数码要闻

AI助眠灯、木板智能开关……CES2026上的智能家居太野了

艺术要闻

你能认出毛主席手书的全部吗?揭秘其中隐藏的秘密!

教育要闻

不可思议,中国数学,中国历史,文化断层,文化入侵

房产要闻

66万方!4755套!三亚巨量房源正疯狂砸出!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版