一家估值百亿美元的教育科技公司,把"用AI"写进KPI,一年后CEO亲自道歉——这不是段子,是多邻国(Duolingo)的真实剧情。
CEO路易斯·冯·安(Luis von Ahn)最近在播客里坦承:「我们试图强推一些在某些情况下并不合适的东西。」从"AI优先"的激进口号,到"能帮你完成工作就行"的务实回调,这场翻车给所有想靠行政命令推AI的公司上了一课。
![]()
强制AI办公的KPI,怎么设计的
多邻国的AI-first战略起初逻辑自洽:既然AI要重塑工作,员工就该用起来,公司也该追踪使用量确保不掉队。
具体执行层面,他们把AI使用纳入绩效评估。员工被期望在工作中主动调用AI工具,管理层则通过某种量化指标来考核这件事。
冯·安本人是技术乐观派的典型代表。作为卡内基梅隆大学教授、CAPTCHA验证码的发明者,他向来对技术变革持激进态度。2024年初,他在内部高调宣布AI-first转型,要求团队全面拥抱生成式AI。
但问题很快暴露。员工开始质疑:到底在测量什么?是AI的使用频率?使用时长?还是生成的token数量?
更麻烦的是,不同岗位对AI的需求天差地别。内容编辑可能用AI辅助课程脚本,但财务合规岗强行套用AI反而增加风险。一刀切地考核"用没用",本质是把复杂的工作简化成虚假的数字化指标。
冯·安在播客里反思:「感觉我们不是在为实际结果负责,而是在强行推一个有时候并不合适的东西。」
为什么"用AI"不能成为KPI
多邻国的困境不是个案。过去两年,从摩根大通到沃尔玛,大量公司尝试过类似的强制AI使用政策,结果普遍遇冷。
核心矛盾在于:AI是手段,不是目的。当KPI锁定"使用行为"而非"产出质量",员工会自然选择最小阻力路径——用AI完成考核指标,而非真正解决工作问题。
冯·安承认,部分员工为了达标,开始在并不合适的场景硬塞AI。「有些人明明手写更快,却非要让AI生成再修改,纯粹浪费时间。」
更深层的陷阱是技术成熟度的不均衡。2024年的生成式AI在创意写作、代码辅助场景表现亮眼,但在需要精确性、合规审查、跨部门协调的任务中,幻觉问题和上下文限制仍然明显。强行推广等于让员工为技术短板买单。
多邻国自身的业务特性也放大了矛盾。作为语言学习平台,其内容生产需要兼顾语言学准确性和文化敏感性——这正是当前AI最容易出错的领域。内部团队反馈,AI生成的例句经常出现微妙的文化偏差,人工复核反而比直接创作更耗时。
回调之后的新规则是什么
多邻国的修正方案可以概括为一句话:结果导向,工具中立。
冯·安明确表态:「最重要的是你把本职工作做到尽可能好。很多时候AI能帮上忙,但如果帮不上,我不会强迫你用。」
具体调整包括:取消AI使用量的量化考核,改为由员工自主申报AI辅助的具体成果;管理层评估时关注"任务完成质量"而非"工具使用比例";允许团队根据实际场景选择技术栈,包括传统工具和人工流程。
这个转向的微妙之处在于,它没有否定AI的价值,而是否定了"强制使用"的管理逻辑。多邻国仍在投资AI基础设施,包括自研课程内容生成系统和个性化学习推荐引擎——但这些是产品层面的技术投入,而非对员工的工作方式绑架。
一个值得注意的细节:冯·安特别强调"我们后退了一步"(we backtracked)。在硅谷语境中,公开承认战略回撤需要相当的勇气。这种坦诚本身也是一种管理信号——承认试错,比硬撑面子更能重建团队信任。
给其他公司的四个清醒剂
多邻国的案例提供了几个可操作的教训。
第一,区分"AI能力"和"AI使用"。前者是组织层面的技术储备,后者是个人层面的工作习惯。强制后者往往适得其反,因为工具适配需要情境判断,无法靠行政命令标准化。
第二,警惕"数字化表演"。当AI使用成为可见的考核指标,员工会优先满足可测量的行为(如生成文档数量),而非不可测量但更重要的目标(如决策质量、客户关系)。这和当年"代码行数考核程序员"的荒谬如出一辙。
第三,接受技术采纳的非线性。Gartner技术成熟度曲线的残酷之处在于,从"期望膨胀"到"泡沫破裂"的下滑期,往往伴随组织层面的管理失误。多邻国的快速回调,某种程度上是缩短了这个痛苦阶段。
第四,CEO的个人技术信仰需要制度制衡。冯·安的学术背景和产品直觉推动了多邻国的早期成功,但也让他在AI-first决策中低估了执行层面的摩擦。健康的组织需要有人敢于对CEO说"这个方向可能有问题"——而多邻国的绩效争议,恰恰说明这种制衡机制曾暂时失效。
AI办公的真正瓶颈在哪
回到更宏观的视角,多邻国的故事揭示了2024-2025年企业AI应用的一个关键拐点:从"要不要用"转向"怎么用对"。
早期 adopters 的红利期正在结束。简单地把ChatGPT接入工作流、要求员工每天提问N次,这类低门槛策略的边际效益急剧递减。真正的差异化竞争,来自对特定岗位工作流的深度重构——而这需要比"强制使用"精细得多的组织设计。
冯·安的反思中有一句话值得划重点:「在某些情况下并不合适。」这个"某些情况"的界定,恰恰是当前企业AI战略最缺的能力。不是技术能力,而是对业务场景的理解能力,以及承认"这里暂时不需要AI"的管理诚实。
多邻国没有放弃AI。他们仍在开发AI驱动的语言学习功能,仍在探索生成式内容的生产管线。改变的是推进方式:从自上而下的行政指令,转向自下而上的场景验证。
对于正在制定AI政策的科技公司管理者,多邻国的回调提供了一个检验标准——你的AI战略能否经受住"冯·安测试":如果一年后需要公开道歉,现在的设计哪里会出问题?
务实的答案通常是:少定几条关于"用不用"的规定,多留一些让一线员工判断"好不好用"的空间。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.