人均不到3元！被AI作弊逼急的教授玩“邪修”：“花105元，给全班36人办了场AI口试”|考试|笔试|考题

分享至

编译 | 郑丽媛

出品 | CSDN（ID：CSDNnews）

最近，纽约大学斯特恩商学院数据科学教授 Panos Ipeirotis 遇到了一种“诡异的幸福”。

在他与 Konstantinos Rizakos 联合授课的全新课程《AI/ML 产品管理》上，学生们的课前作业质量突然整体飙升，好得有点反常：不是“优秀学生”的那种好，而是“像咨询公司报告、被反复精修三轮”的那种好。

于是，Panos 和 Konstantinos 干了一件十分原始的事情：课堂随机点名，让学生现场解释自己写的作业内容。结果非常“魔幻”：很多作业看起来条理清晰、结构完美的学生，在被追问两三个细节后就露馅了——连自己为什么这么做都讲不清楚，还有些学生干脆全程“当机”。

“这种现象不可能只是紧张或运气不好”，Panos 直言：“如果一个人连自己交的作业都讲不明白，那么这份书面作业，就根本没测出我们想要评估的真实能力。”

发现这个问题后，Panos 突然想到了几个月前，芝加哥大学布斯大学商学院 Brian Jabarian 领导的一项研究结果：AI 在做招聘面试时，反而比人类更好，原因很简单：人会累、有偏见、执行标准不一致，而 AI 不会。

而这个结论，让 Panos 他们产生了一个放在两年前听起来像笑话的想法：

既然这样，要不直接让语音 AI 代理来当期末口试的考官？

有人会问：为什么要现在口试？

这个问题的核心，其实既简单又残酷：现在，学生可以随时调用 LLM来应对传统意义上的大部分考题，过去那种“通过课后作业就能衡量学生理解程度”的旧模式，已经彻底失效了。

那改成课堂闭卷笔试不就行了？确实，Panos 他们在期中考试时就这么干了，但还有一个更棘手的问题：小组项目。

以前，Panos 担心的是“搭便车”，即学生把任务甩给队友；而现在，更可怕的事情出现了：Gemini 3.0 发布，NotebookLM 能直接生成毫无破绽的演示文稿。

一瞬间，哪怕一个学生对项目毫无参与，他也能在台上讲得天花乱坠——而老师根本无从分辨。

基于此，口试成了自然而然的应对方案：

● 它要求学生进行实时推理、对全新问题灵活应用知识、并为自己的每一个决策辩护；

● 没有 LLM 在旁“提示”，更没有“我查一下”的时间让 ChatGPT 生成答案；

● 整个过程，只有你、你的知识储备，以及考官。

但唯一的问题是：口试的规模化落地，简直是一场后勤噩梦。

以 Panos 的这门课为例，有 36 名学生、2位授课老师，勉强还能应付。但不少学生要求协调考试时间：“我 15 号要赶飞机”、“那天我还有三门期末考”、“我要回家参加家庭活动”……Panos 感慨，这些理由全都合情合理：“但试想一下，如果班级规模扩大十倍，协调考试时间就会变成一场旷日持久的拉锯战。”

这就是为什么口试一直难以规模化的原因——除非换个思路，用 AI“走个捷径”。

用语音 AI 代理，搞定口试规模化

Panos 他们选择用 ElevenLabs 的对话式 AI 平台，打造了一个“语音口试智能体”。

据介绍，这个平台把 ASR、TTS、打断处理、轮次控制等脏活全都封装好了。针对低风险场景（比如日常作业）的基础版 AI 考官，甚至几分钟就能搭建好了——只需要写一段提示词，明确 AI 需要向学生提问的方向，整个系统就可以上线运行。

在 Panos 的方案中，有两个功能起到了关键作用：

● 动态变量：将学生姓名、项目细节等个性化信息作为参数传入对话流程，实现真正的 “个性化口试”。

● 工作流设计：用多个子 Agent 构建结构化流程，而不是通用一个“话痨大模型”去乱聊。

这场 AI 口试长什么样？

具体而言，Panos 他们设计的口试分为两部分：

（1）环节一：“聊聊你的项目”

AI 代理将围绕学生的结课项目展开提问，包括项目目标、数据来源、模型选型依据、评估指标设计、以及项目中遇到的失败与不足。这正是“用 LLM 代写作业”的学生的死穴——你可以让 ChatGPT 帮你写，但你很难即兴编出一套自洽的决策逻辑。

（2）环节二：“现场分析一个案例”

AI 代理将从课程讲过的案例中随机抽取一个，围绕案例涉及的知识点进行提问——本质上是检验学生是真的吸收了知识，还是仅仅来课堂“打个卡”。

为了支撑这套结构化流程，他们把口试工作流拆分成了三个各司其职的子 Agent：

● 身份验证 Agent：要求学生提供学号，只有输入有效学号才能进入考试环节。

● 项目讨论 Agent：通过参数注入学生的项目背景，提示词中包含每个项目的详细信息，确保 AI 能提出有针对性的问题。

● 案例讨论 Agent：负责随机抽取案例并进行结构化提问。

这种“多个小 Agent 协作”的模式，绝非为了追求技术上的“好看”，它不仅能有效防止对话偏离预设轨道，还能让系统调试变得清晰可控。

成本与效果如何？用数字说话

把这套 AI 口试系统实践之后，Panos 他们初步统计了一下：

● 36 名学生，9 天内完成全部口试

● 平均耗时 25 分钟（最短 9 分钟，最长 64 分钟）

● 每场对话平均交互 65 轮

● 成本：0.42 美元/人，总计 15 美元

● 三个 AI 模型评分一致度：89% 在 1 分以内

● 最短考试时间 9 分钟的学生，反而拿了最高分 19 分（满分 20 分）

对此，Panos 还仔细算了一笔账：36 名学生的口试总成本为 15 美元（约人民币 105 元），具体开销如下：Claude（主评分模型）8 美元、Gemini 2 美元、OpenAI 0.3 美元、ElevenLabs 语音时长费用约 5 美元——平摊下来，每个学生仅需 0.42 美元（约人民币 2.9 元）。

要是换成纯人工的话：36 名学生 × 每人 25 分钟 × 2 名考官 = 30 小时的人工工时。哪怕按助教时薪 25 美元计算，总成本也高达 750 美元，如果按教授时薪计算，成本更是高到 Panos “根本就不会考虑组织口试”的地步。

可如今仅花费15 美元，Panos 就实现了：实时口试评估、Claude + Gemini + ChatGPT 三模型评审委员会、包含原文引用的结构化反馈、完整的考试审计追踪。更重要的是，通过这次尝试，他们还发现了自己教学过程中存在的漏洞。

踩过的坑，比你想象的多

不过，对于这套 AI 口试系统的打磨，Panos 他们也并非一步到位，在实践中踩了不少坑。

（1）声音太“吓人”

Panos 他们原本选择了 Foster Provost 的声音，结果大多学生反馈：像在被骂。

解决方案：以后 A/B Test 多种声音，优化“理解体验”，而不是一味强调“权威感”。

（2）一次性问四个问题

Agent 会说：请解释你的指标选择，并告诉我你试过哪些基线，为什么没用 X，以及你下一步打算做什么——显然，这一下子问了 4 个问题。口试本身就要求学生实时思考，认知负荷已经很高，叠加多个问题只会让学生不堪重负。

解决：在 Prompt 中加入硬性规则，一次只提一个问题，如果需要进行多维度追问，必须拆分成多个对话轮次。

（3）重复问题时偷偷改写

过程中，学生会问：“能重复一下问题吗？”有时 Agent 会换种问法，结果把原本的题目都变了。

解决：在 Prompt 中明确指令，当学生要求重复问题时，必须逐字复述，严禁改写，一个字都不能变。

（4）不给学生思考时间

学生刚一停顿思考，AI 就立刻插话追问，甚至会把沉默当成“学生没听懂”，直接跳过当前问题。解决：在 Prompt 中要求 AI 留出思考时间，避免过度追问。把 AI 触发“你还在吗？”的超时等待时间，从 5 秒延长到了 10 秒。

（5）LLM 根本不懂什么叫随机

Panos 原本要求 AI “随机抽取” 一个案例进行提问，结果 12 月 12-18 日期间，只要案例列表里有“Zillow”（美国房产平台），AI 选中它的概率就高达 8%。

解决：把随机性从 Prompt 层面转移到代码层面，即生成一个显式的随机数，再将随机数与案例进行确定性映射。随机性由代码来保证，而非依赖 LLM 的选择。

评分委员会：三模型互相“掰头”真的有效

借鉴 Andrej Karpathy 的思路，Panos 他们采用了“LLM 评分委员会”的模式：

让 Claude、Gemini、ChatGPT 三个模型，分别独立评估每场口试的对话记录；之后，让每个模型看到另外两个模型的评分和理由，并据此修正自己的评分；最后，由 Claude 担任 “主考官”，综合所有模型的意见，生成最终评分和详细依据。

第一轮的结果简直惨不忍睹：三个模型的评分完全一致的情况为 0%，仅有 23% 的评分误差在 2 分以内；在 20 分满分的体系下，评分的最大平均误差接近 4 分。

甚至，不同模型的“打分风格”也不一样：Gemini 堪称“心软的老好人”，平均分高达 17分；而 Claude 的平均分只有 13.4 分——3.6 分的差距，刚好是 B+ 和 B- 的区别。而 Claude 和 OpenAI 的打分尺度在第一轮就已经比较接近：70% 的评分误差不超过 1 分。

而当模型们进入 “审议环节”（看到彼此的评分和理由）后，评分一致性发生了质的飞跃：Gemini 在参考了 Claude 和 OpenAI 更严格的评分依据后，平均分直接下调了 2 分——因为它无法再为那些“实验讨论存在明显 bug”的答卷，给出 17 分的高分。

更有意思的是，模型之间的评分分歧并不是随机出现的。

在“问题框架设计”和“评估指标选择”这两个维度上，三大模型在 1 分以内的一致率是 100%；但在“实验设计”上，一致率只有 57%。

为什么会这样？原因其实很直观：当学生给出的回答清晰、具体、有结构时，不论是人还是 AI，评分都高度一致；当学生的回答开始变得空泛、含糊、全是套话时，评分者就会在“到底该给多少部分分”上产生巨大分歧。所以，“实验设计”这一项的一致率低，反映的不是模型不靠谱，而是学生的回答本身就存在模糊性。

除此之外，Panos 坦言这套系统给出的评分，比他平时给学生的要严格一些。关于这一点，他认为是好事：“毕竟学生走出校园后，这个世界可不会习惯性给他们打高分。”

AI的反馈质量，已远超人类水平

Panos 还提到，AI 系统会自动生成“优点 / 不足 / 改进行动”三段式反馈，并直接引用学生原话作为证据。

以最高分学生的反馈为例：

“你对指标权衡与 Goodhart 定律风险的理解非常出色—— 你用‘热水浴缸’的例子，完美阐释了优化单一指标如何导致其他指标失效。”

再以一位 B- 学生的反馈为例：

“请练习完整阐述 A/B 测试方案：明确提出假设、定义随机化单元、指定监控指标阈值、并建立方案上线或回滚的决策标准。”

这些反馈都具体、可落地，还附带实证支撑。Panos 感慨：“说实话，换成人类评分者，根本不可能为每个学生都做到这一步。”

而当 Panos 他们开始按考点拆分学生成绩时，一个短板暴露得淋漓尽致——实验设计。这个考点的平均分仅为 1.94 分（满分 4 分），对比“问题框架设计”考点的 3.39 分，差距一目了然。

具体的分数分布更是触目惊心：

● 3 名学生（8%）得 0 分——完全无法就该考点展开论述

● 7 名学生（19%）得 1 分——仅具备表层理解

● 15 名学生（42%）得 2 分——具备基础理解

● 0 名学生得 4 分——无人达到精通水平

这些数据让 Panos 他们意识到了自己的问题：课程中讲解 A/B 测试方法论的部分太过仓促。而这场由 AI 主导的口试，把这个教学漏洞赤裸裸地摆在了他们面前，想忽视都不行。

另一个令他们颇感意外的发现是：口试时长与最终得分完全不相关（相关系数 r = -0.03）。耗时最短的一场口试（9 分钟），反而拿到了最高分 19 分；而耗时最长的一场（64 分钟），得分只有 12 分。

也就是说，时间长并不代表懂得多，而真正的理解，反而是高效的。

那么，学生怎么说？

在公布成绩前，Panos 他们对学生做了问卷调查，收集他们对AI口试的感受，结果很有意思：

● 仅 13% 的学生更喜欢 AI 口试模式，57% 的学生还是倾向于传统笔试

● 83% 的学生认为 AI 口试比笔试更有压力

但与此同时：70% 的学生认同，AI 口试能更准确地检验他们的真实理解水平——这也是所有调查选项中认可度最高的一项。简单来说，大多数学生都认可这种评估方式，但对体验过程并不满意。

所以，结论很显然：核心思路是可行的，只是执行细节还需迭代优化。

在分享的最后，Panos 提到，课后作业的时代已经落幕，而退回传统的线下纸笔考试，更像是一种技术上的倒退。当今教师需要的，是一种能奖励真正的理解能力、决策能力和实时推理能力的评估方式：

“口试曾经是主流的评估手段，只是受限于规模问题才被淘汰；如今，AI 正在让口试重新变得规模化、可落地。”

Panos 补充道，还可以把整套 AI 口试系统直接开放给学生，让他们反复练习、充分备考。因为与传统考试“考题泄露即灾难”不同，AI 口试的考题是实时生成的——学生练得越多，掌握得就越扎实。

“而这，才是学习本该有的样子”，他表示，“以毒攻毒，方为上策。”

原文链接：https://www.behind-the-enemy-lines.com/2025/12/fighting-fire-with-fire-scalable-oral.html

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.