主导型教育 Agent 产品，是口语学习的终极答案吗？|教学|外教|英语|真实场景

分享至

教育 Agent 的第一场考试：让大模型学会 “主动教学”。

文丨陈然

2011 年，乔布斯最后一次与比尔·盖茨会面，两人的闲聊中有一部分话题关于教育。乔布斯认为，无论是苹果还是微软，都没有真正通过技术提高教育的水平，盖茨同意这个判断：技术已经重塑了法律和医学的学习方式，但在教育领域却没有从技术的巨大进步中获益。

盖茨对这个问题的解释是，技术需要更多致力于提供个性化的课程和带有启发性的反馈，由此才能从根本上重塑教育。

这恰恰也是教育复杂与难以改造的地方，它非常依赖人与人之间的互动反馈，教育的过程不仅在传递知识，还涉及情感与价值观的多层次交流，仅仅是把教学材料数字化，从传统纸笔换成平板电脑，从面对面教学切换到网络远程教学，虽然可以让教学资源更充分地被分配运用，但并不能本质上提升教育的水平。

语言学习尤其如此。著名语言学家史蒂芬·克拉申在 1980 年代提出的语言习得五种假说中，首先区分了 “习得（Acquisition）” 和 “学习（Learning）” 两个概念。克拉申认为，语言学习更应该是一个 “习得” 的过程，自然、直觉乃至近乎于潜意识的学习方式才更接近语言的本质——我们每个人在婴儿时期都是如此学习母语的。

但当前的现实是，几乎所有人都在 “学习” 而不是 “习得” 语言。这让学习者虽然能够掌握语法规则和词汇，却缺乏实际运用语言的能力。

听、读和写的能力，尚能依赖反复练习、强化记忆以及单项针对训练来提高，但口语的提升几乎必须采用 “习得” 方式：唯有真切地不厌其烦地高频即时互动，学习者才有可能逐步提升口语的水平，脱离了语言环境和互动，这一切很难成立。这也让口语教育成为语言学习听说读写四个方面中最薄弱的环节，“哑巴英语” 由此而来。

在技术改造语言学习方面，至少在 2011 年，乔布斯和比尔·盖茨都没有看到什么清晰路径，让它变得更加个性化，更具互动性。

直到新一轮人工智能浪潮的来临，大模型的出现带来了语言教育方式根本变革的可能性。

供需严重不匹配的口语市场，大模型的缓缓落地

在大模型出现之前，找外教是人们提高口语水平的主要方式。

2020 年教育部公布的中国教育机构共有外籍教师 6.71 万人，卖方市场主导下，即使通过在线平台远程教学的方式，单次外教的费用也在 100 元 / 次以上，按一周两次课计算，一个月花费在口语上的费用超过 800 元——这超出了大部分中国家庭的消费能力：根据博研咨询的统计，全国只有 12% 的家庭能够负担长期一对一外教的费用。

如果不选择一对一外教，而是班级制授课，那么开口次数这样的关键指标会立刻下滑，双向互动频率的降低会直接影响口语教学效果。

庞大的口语学习需求和无法规模化的口语教学方式之间产生了严重的供求不匹配，斑马首席产品官修佳明认为，这正是造成大部分人口语水平长期停滞无法突破的原因。既没有那么多的老师来提供一对一口语教学，也没有那么多的家庭支付得起高昂的一对一费用。

大模型技术被认为可以针对性地解决这种供需错配的痛点，它提供了过往技术一直难以提供的口语交互的个性化表达和及时反馈，同时又很容易实现规模化部署，市场最初对 AI 的乐观也在于此，口语教学第一次可以不再依赖真人。

很多 AI 口语产品陆续出现。在这些产品中，大模型被当做是一个可以完成流畅对话的万能语伴，人们可以没有负担的和它展开自由讨论，大模型更是能够自如地说出一般人难以掌握的长难句式，从语言教育的角度讲，这更接近语言 “习得” 的本质。

但这些仍然称不上是理想的口语教育。在克拉申的语言习得五种假说中，第五种被称为语言输入假说，在这位语言学大师看来，输入（听和读）比输出（读和写）重要，只有累积了足够的输入语料，输出才能够有的放矢。克拉申特别强调，输入的材料必须略微超过学习者本身的水平，但又不至于难到让人彻底无法理解。正是这种带有适当挑战性的渐进式输入决定了输出的水平。

大模型尽管具有广博的通用知识，精准无误的语言发音和智能互动体验，但每一次对话背后并没有对难度的考量，也就是说，学习者面对的只是一个全能对话问答机器，它既不懂得设定教学目标，也无意构建教学效果闭环，它只是尽己所能地回答用户的问题，这并不是一种基于 AI 原生驱动的教学产品，反而更像是一个添加了 AI 功能的传统教学工具。

可以说，工具都是被动响应用户的问题，而不是主动带领用户学习。

用户到底需要什么样的口语学习 AI 产品？

AI 已经成为助推教育产业发展的重要因子，Grand View Research 报告估计，从 2024 到 2030 年，全球 AI 教育市场规模的复合年增长率将超过 30%，但迄今为止，在教育赛道里，还没有出现一款基于大模型 Agent 技术构建的原生 AI 教育产品。

较为典型的是拍照搜题类产品，大模型使其答案更加清晰准确和高效。然而，这类工具产品尽管使用频率高，却因功能单一，难以形成完整的学习闭环，大模型优化了它们的工具属性，但并未将其转化为一种全新的学习产品。

实际上这揭示了大模型 Agent 技术落地中的一个核心问题：用户已经见过太多相似的 AI 工具，它们缺乏不可替代性，而乐观的商业前景有赖于提供与众不同的体验。因此，在修佳明看来，仅仅只是在现有的教学工具上添加一些 AI 功能，对斑马来说还远远不够。它不应该是某些单点能力上的 AI 化，而应该是全栈式基于 AI 本身的特点，从 0 构建的新形态产品。

刚刚推出的斑马口语，就是修佳明心目中对于全栈式 AI 学习产品理解的产物。他说，斑马口语是 “首个落地教育场景的 ‘教育 Agent’”，相比较于其它 AI 口语产品更多围绕于简单的工具属性，教育 Agent 则是 “能自主完成教学闭环的智能体”。

斑马口语技术架构图

“自主完成” 和 “教学闭环” 这两个关键词，恰巧对应了前文提到的大模型主动交互能力和 “教学-练习-测试-反馈” 全链条。

打开斑马口语，会看到一个三分屏，其中一个分给 AI 外教，她是一个名叫 Jessica 虚拟 2D 老师形象，另一个留给播放孩子实时直播画面，最后的大屏则是交互式动画课件。

在大模型 Agent 技术的加持下，用户使用这款针对 6-12 岁儿童设计的口语学习的全程（一节课时长大约 25 分钟），都是在跟 AI 外教一对一练习。

AI 外教不仅围绕每节内容的教学目标回答小朋友天马行空的各种问题，更会灵活运用儿童心理学知识和有亲和力的人格特征主动引导用户开口完整表达，为了进一步加强口语教学的互动性，交互式动画课件中甚至还预埋了不少彩蛋动效，举例来说，当小朋友兴奋谈论自己的生日时，这些彩蛋会随机触发，像烟花一样绽放在整个屏幕。

再比如，当 Jessica 引导孩子用英语形容某个人的长相时，交互式课件上会根据孩子的回答。

这样的强互动设计贯穿课程始终，确保用户在 25 分钟的时间内紧密围绕教学目标深度参与，根据斑马内测期间的数据统计，用户一堂课累积开口说话的次数超过 100 次。

斑马口语针对用户的英语水平，将难度划分为了六个梯度，每个梯度分为 24 个单元，每个单元 4 节课，所有 96 节课全部上完需要一年。这样的内容设计同在线一对一真人外教类似，而随着教学的深入推进（每周两次），斑马口语不仅逐渐记住用户的个人学习情况、兴趣爱好，还会在之后的课程中基于这些个人化信息同用户进行主动互动——这也同用户面对真人老师时的情况一样。

斑马口语从设计伊始就遵循 “AI 原生” 原则。其核心在于实现大模型主动交互、教学目标体系化设计与产品界面机制三者的全面协同，修佳明说，这在国内尚属首次。

与模型 “搏斗”

作为一个具备自主教学能力的教育 Agent，斑马口语的基座来自猿力大模型，同时对儿童语言教育场景进行了特训微调，其中许多数据来自斑马多年以来的英语教学积累：斑马过去的口语强化系列产品已经积累了近 60 万节、1500 万分钟的真实数据。

当然，仅仅依赖专有数据和大模型能力本身并不足以将斑马口语与市面上现有的 AI 口语产品区别开来，为了践行主导型 Agnet 教育产品的理念，做一款市面上没有的产品，斑马在两年多的时间里投入 200 人规模的团队，这里面不仅包括负责教学体系动画交互设计的内容团队，产品团队和研发团队，还有音视频中台以及跨部门的数据标注与质检调优团队。

自 2023 年 8 月立项以来，斑马口语的上线日期多次推迟——用修佳明的话说，团队一直在 “与模型搏斗”。

搏斗分为两个层面，首先是模型层。

已有的自研大模型只是基础，想要产品化，还必须针对 AI 原生做特训，这种特训大致包括两部分。首先是让模型融合多种口语教学法、心理学与语言学技巧，以便在实践中更好地应对多种突发场景（比如所谓熊孩子的捣乱）。另一部分则是将课件信息、学习目标、评价标准等纳入模型中，让它对自己的教学目标有着清晰认知。

如何在引导纠正用户把复杂的句子说好的同时不打击他的信心？如何记住用户的理解程度同时适当拔高口语训练的难度？大模型极大的灵活性和口语教学的特点注定了这是个繁杂的过程，模型需要时刻围绕用户的具体场景和能力水平来做响应。

搏斗的第二层则是工程化实践。

大模型天然具有开放，灵活的特点。然而，当斑马的技术团队决定开发一个原生主导型教育 Agent，而非市面上常见的 AI 口语工具时，他们面临的核心挑战是如何平衡控制与灵活：既要确保大模型严格遵循教学流程，又要避免限制过死，保留其应答的灵活性。

不仅只是排除一般意义上的不安全内容，模型训练阶段的数据筛选还特别注意数据与儿童心理年龄发育的匹配性。在策略层，斑马口语通过规则设定了一道弹性但明确的边界，允许大模型在边界内自由发挥。

这套规则设计进一步延宕了斑马口语的开发速度，因为这种策略 “边界” 设定，不是加几个关键词拦截那么简单，它不但是模型能力的一道护栏，同时还肩负着教学功能：斑马的产研团队将每堂课都拆分成十几个环节，通过精确到 2-3 分钟的环节目标设定，引导大模型 Agent 能力沿着教学体系设计的方向前进。

这种精细颗粒度让开发一年的内容花费的时间差不多也需要一年，但带来的好处在斑马看来是值得的：清晰的、根据教学内容设计的规则促使大模型 Agent 拥有极强的主导能力，但又不会漫无边际地神游天外，同时在许多人类意想不到的时刻，会产生奇妙的火花。

修佳明举了个例子，在内测阶段，同 AI 外教一同出场辅助执行教学任务的 AI 学伴，在看到用户对话中提及自己收到礼物时，会脱口而出：I’m jealous.（我很嫉妒）“小朋友非常开心。” 修佳明说，因为这是一个有针对性的、情绪化的、意料之外的反应。在大模型 Agent 出现之前，没有哪种技术能做到这一点。

这种独特性引发了另一个问题。如同从小接触平板电脑与智能手机的小朋友会下意识触摸每一块看得到的玻璃一样，作为实现完全自主的教育 Agent，斑马口语中的 AI 外教 Jessica 对孩子来说意味着什么？

作为儿童教育领域的资深从业者，修佳明认为，不需向用户讳言 Jessica 的 AI 属性，实际上，Jessica 确实就是个有人格的 AI 外教，她知识面广博，囊括了大量的通识知识，这在开放式问题互动过程中非常好用。温暖热忱，拥有超越普通外教水平的教学能力和超强的记忆力。

斑马口语从设计之初就致力于为 AI 外教建立稳定的人格特质，通过大模型 Agent 实现的高质量互动，使得 AI 外教能够模拟真实教学中的多维交流，不限于知识，也包含情感与价值观。

主导型 Agent 与教育市场的重构

口语教学是一个供需不匹配，一直以来需求都没有被满足的巨大市场。主导型 Agent 教育产品的出现，第一次有望根本解决这种关系失衡。

根据修佳明的介绍，在经过技术论证和反复测试后，斑马口语最终定位是首个 AI 外教一对一产品，这意味着它的最终价格会参考同级别的真人口语课程。

在教育领域，消费者的决策逻辑非常朴素理性，就是看这个产品是否有用，从早期内测的情况来看，反响颇为正面，斑马内部甚至围绕这个产品构建了一个名为口语力的指标，以便清晰量化衡量口语的提高过程。口语力共分为准确度、流利度和丰富度三个大的维度，通过客观数据指标来量化分析，这些数据汇总起来得出的分数就是口语力，它会在斑马口语稍晚上线，届时每个用户都能通过这个指标便捷衡量口语能力的提升幅度。

教育和医疗领域的 AI 应用和其它所有赛道都不同，在修佳明看来，教育真正 “涉及人命关天的事情”，让大模型领悟教育实践过程中的微妙和精密，是一个注定无法一蹴而就的事。

两年多的开发过程中，斑马的产研团队真正掌握了许多一手实践经验，正是这些经验，填补了大模型与成熟可商业化落地产品之间的空白。“经验和人力的比重是特别大的，尤其是儿童英语。” 修佳明说，在模型不能自由发挥的地方，精密的教学内容衔接、难度设计都需要人的经验来完成。

从另一个角度说，这也是一份真正的苦活。对教育 Agent 产品来说， 97% 的可靠性都是不可接受的，这意味着 100 个用户中有 3 个人的教育会出错。然而提升到 99.9% 所付出的边际成本是巨大的，仅仅在研发上，斑马为了这一款产品就投入超两个亿。

斑马口语目前的形态，是不是具有泛用性？斑马口语这种主导型 Agent 形式适合所有人群和所有口语教学场景吗？修佳明的心中并没有确定的答案。关于 AI 教育产品的未来，还有许多问题有待于发现。

AI 推动教育行业实现增长已经是确定的事实，但随着主导型 Agent 产品的出现，教育行业整个市场规模、增长前景乃至商业模式都面临着重大重构，至少在口语教学领域，AI 外教已经能够做到真人教师的水平，甚至许多时候还更出色，而这距离 ChatGPT 发布才过去仅仅三年。在乔布斯所提出问题的道路上，技术已经进入一个新阶段。

题图来源：《模仿游戏》

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.