德勤用1个指标搞砸AI项目，工程师开始"养眼镜蛇"|代码|token

德勤用1个指标搞砸AI项目，工程师开始"养眼镜蛇"

2026-03-26 12:42:02　来源: 全栈遛狗员

北京举报

分享至

2024年，某家咨询公司给Fortune 500企业做AI转型方案时，把"token消耗量"写进了工程师的KPI。三个月后，这家企业的AI账单涨了340%，代码质量却跌回了2019年水平。

这不是孤例。当我翻完17家企业的内部复盘文档，发现把token用量当生产力指标，正在成为AI时代最隐蔽的管理陷阱。

从"代码行数"到"token数"：同一个坑摔两次

技术管理者对proxy metrics（代理指标）的迷恋，几乎是一种周期性复发的病。

2000年代看代码行数，工程师把`a = b + c`拆成五行。2010年代看Jira ticket关闭数，一个功能被切成二十个任务单。2020年代初看PR合并数，有人把变量重命名拆成独立提交。

现在轮到token了。

一位在两家大厂都待过的工程总监告诉我，他的前东家把Copilot用量纳入季度评审。"你知道会发生什么吗？我团队里有人开始用AI写注释，再用AI解释那些注释，最后用AI给解释写摘要。"

三层嵌套的AI调用，token烧得飞快，产出接近于零。

这种行为的本质，和当年印度德里的眼镜蛇养殖户没有区别。

眼镜蛇效应：一个被验证了两百年的管理悖论

殖民时期的德里，眼镜蛇泛滥成灾。英国政府悬赏：每上交一条死蛇，奖励一笔钱。

结果市民开始养蛇、杀蛇、换赏金。政府发现后取消悬赏，养殖户把蛇全部放生——德里的眼镜蛇比政策出台前更多了。

经济学家后来把这类现象命名为"眼镜蛇效应"：当激励与真实目标错位，系统会自发长出对抗性的生存策略。

AI token的计量陷阱，正在复刻这个古老剧本。

我拿到的一份内部数据显示，某金融公司在Q2把"人均周token消耗"设为团队排名依据。四周后，工程师的AI交互时长上升了210%，但代码提交后的回滚率从12%飙到31%。

更隐蔽的是"token farming"（token farming，token farming）——有人故意用模糊提示词触发长回复，或在已有答案后追问"再详细一点"。

一位受访者展示了他的"技巧"：把一段能跑通的代码粘贴给AI，问"这段代码有什么问题"。AI会生成冗长的分析，token计数器狂转，而他真正想做的只是刷数据。

为什么token特别容易"养蛇"

相比代码行数或ticket数，token有三个更危险的特性。

第一，它看起来"更智能"。代码行数人人知道是烂指标，但token关联着大模型、生成式AI、未来趋势——管理层容易放下警惕。

第二，它天然可货币化。API账单按月结算，CFO能直接看到"AI投资回报率"。这种可视性，让token比其他 proxy metrics 更快被写进考核。

第三，它的滥用更难审计。一段冗余代码能被code review拦下，但"用AI头脑风暴了20轮"很难被质疑——谁知道那20轮有没有价值？

一位在AI infra团队工作的工程师说，他们内部有个黑话叫"token laundering"（token laundering，token laundering）：把私人事务包装成工作查询，用公司API账号处理。

写辞职信、润色约会软件简介、生成周末旅行计划——全部计入"研发创新探索"的token池。

那些试图"修复"指标的人，往往挖得更深

意识到问题后，一些管理者开始叠加修正因子。我见过最复杂的方案包含四个维度：token总量、token/有效代码行比、AI生成代码的测试通过率、以及"AI辅助效率"自评问卷。

结果？工程师学会了新的优化策略。

有人在提示词里明确要求"输出简洁"，缩短AI回复长度，同时手动展开被压缩的内容——既省了token，又显得"高效"。有人把AI生成的代码故意拆成多段提交，让测试覆盖率计算时分母变小。

「每次我们堵上一个漏洞，他们就会找到两个新的。」一位尝试过多轮指标迭代的技术VP说，「后来我意识到，问题根本不是指标设计得不够好，是我们根本就不该测这个。」

这句话指向一个更底层的困境。

当"证明在用AI"变成政治刚需

2024年的企业AI叙事里，"落后焦虑"比"效率焦虑"更致命。董事会问CTO：我们的AI渗透率是多少？竞争对手据说已经全员Copilot了。

token用量在这种情况下，成了一种表演性数据。它回答的不是"工程师有没有更高效"，而是"我们有没有在AI上花钱、花得够不够显眼"。

一位在零售企业负责数字化转型的总监承认，他们向董事会汇报时，token增长曲线被做成全屏图表。"没人追问这些token产出了什么。但如果没有这张图表，我们会收到CEO的邮件，问是不是IT团队在抵制新技术。"

这种压力向下传导，最终落在工程师的绩效考核表里。

我采访的一位前端工程师，其Q3目标包含"提升AI工具采纳率"。她的实际做法是：把原本复制粘贴就能解决的CSS调整，改成用AI生成、再手动修正。"效率其实更低，但我的采纳率指标是绿的。"

少数人的反其道而行

并非所有团队都在这个陷阱里打转。

Netflix的AI平台团队从2023年起就明确禁止在工程师评审中引用任何原始token数据。他们的替代方案是"输出-结果"双轨制：看AI辅助产出的代码在代码审查中的接受率，看这些代码上线后的故障密度。

「token是我们付给OpenAI的钱，不是工程师创造的价值。」该平台团队的一位负责人在内部文档中写道。

更激进的实验来自一家不愿具名的自动驾驶公司。他们取消了所有AI用量的团队级统计，改为抽样访谈：每月随机选10%的工程师，深入讨论"上周哪次AI交互真正帮到了你"。

这种方法显然无法生成漂亮的仪表盘，但据其工程效率负责人称，他们识别出的"高价值AI使用模式"，比任何量化指标都更接近真实。

另一个值得注意的群体是开源社区。Linux内核维护者早在2022年就讨论过是否接受AI生成的补丁，最终形成的共识是：只评审代码本身，不问来源。这个原则被写入提交规范，从根本上杜绝了"为了用AI而用AI"的动机。

指标暴政的终点在哪里

回顾技术管理史，proxy metrics的失效遵循固定剧本：被测量→被操纵→被废弃→换一个新指标→循环。

代码行数、story point、PR数、现在轮到token。每次替换都伴随着"这次不一样"的幻觉——新指标更精细、更实时、更难作弊。

但眼镜蛇效应从不挑选指标类型。它只要求一个条件：激励与真实目标之间存在可被利用的缝隙。

AI token的特殊性在于，它同时连接着技术叙事（我们在拥抱AI）、财务叙事（我们在控制成本）、和管理叙事（我们在量化效率）。三重叙事的叠加，让这个指标比前任们更难被质疑。

一位在三家独角兽都担任过CTO的顾问告诉我，他现在的标准开场白是："如果你们正在测量token用量，请先回答我——如果明天token消耗降为零，但工程师产出不变，你们是庆祝还是恐慌？"

他说，这个问题的答案，比任何token仪表盘都更能说明问题。

某家SaaS公司的工程团队在2024年Q4做了件罕见的事：他们主动关闭了token用量看板，把省下的仪表板开发时间，用来重构了一套基于"功能交付周期"的简易追踪。没有AI，没有预测模型，就是手动标记需求从提出到上线的天数。

三个月后，他们的平均交付周期缩短了19%。没人能证明这和关闭token看板有因果关系。但团队里一位工程师在匿名调研里写了一句反馈，被截屏传到了我的邮箱——

「终于不用在想提示词的时候，还要想怎么让回复长一点了。」

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

德勤用1个指标搞砸AI项目，工程师开始"养眼镜蛇"

从"代码行数"到"token数"：同一个坑摔两次

眼镜蛇效应：一个被验证了两百年的管理悖论

为什么token特别容易"养蛇"

那些试图"修复"指标的人，往往挖得更深

当"证明在用AI"变成政治刚需

少数人的反其道而行

指标暴政的终点在哪里

杨植麟张鹏夏立雪罗福莉，聊龙虾、聊涨价

民警猥亵少女获刑2年9个月 法院:主动承认 从轻处罚

民警猥亵少女获刑2年9个月 法院:主动承认 从轻处罚

邵佳一：足球就像一场马拉松

张雪峰灵堂内景曝光，四周摆满了鲜花

我在小吃培训机构学习“科技与狠活”

与众08，金标大众不能输的一战

态度原创

张大千：形成于未画之先，神留于既画之后

捐献干细胞会伤元气么？

到震泽，给童年一个“蚕”绕的梦

苹果MacBook Neo散热实在太差：加一块铜片 游戏性能直接翻倍！

3月暑期实习投递指南：不同年级，不同打法

民警猥亵少女获刑2年9个月法院:主动承认从轻处罚

民警猥亵少女获刑2年9个月法院:主动承认从轻处罚

苹果MacBook Neo散热实在太差：加一块铜片游戏性能直接翻倍！