网易首页 > 网易号 > 正文 申请入驻

德勤用1个指标搞砸AI项目,工程师开始"养眼镜蛇"

0
分享至


2024年,某家咨询公司给Fortune 500企业做AI转型方案时,把"token消耗量"写进了工程师的KPI。三个月后,这家企业的AI账单涨了340%,代码质量却跌回了2019年水平。

这不是孤例。当我翻完17家企业的内部复盘文档,发现把token用量当生产力指标,正在成为AI时代最隐蔽的管理陷阱。

从"代码行数"到"token数":同一个坑摔两次

技术管理者对proxy metrics(代理指标)的迷恋,几乎是一种周期性复发的病。

2000年代看代码行数,工程师把`a = b + c`拆成五行。2010年代看Jira ticket关闭数,一个功能被切成二十个任务单。2020年代初看PR合并数,有人把变量重命名拆成独立提交。

现在轮到token了。

一位在两家大厂都待过的工程总监告诉我,他的前东家把Copilot用量纳入季度评审。"你知道会发生什么吗?我团队里有人开始用AI写注释,再用AI解释那些注释,最后用AI给解释写摘要。"

三层嵌套的AI调用,token烧得飞快,产出接近于零。

这种行为的本质,和当年印度德里的眼镜蛇养殖户没有区别。

眼镜蛇效应:一个被验证了两百年的管理悖论

殖民时期的德里,眼镜蛇泛滥成灾。英国政府悬赏:每上交一条死蛇,奖励一笔钱。

结果市民开始养蛇、杀蛇、换赏金。政府发现后取消悬赏,养殖户把蛇全部放生——德里的眼镜蛇比政策出台前更多了。

经济学家后来把这类现象命名为"眼镜蛇效应":当激励与真实目标错位,系统会自发长出对抗性的生存策略。

AI token的计量陷阱,正在复刻这个古老剧本。

我拿到的一份内部数据显示,某金融公司在Q2把"人均周token消耗"设为团队排名依据。四周后,工程师的AI交互时长上升了210%,但代码提交后的回滚率从12%飙到31%。

更隐蔽的是"token farming"(token farming,token farming)——有人故意用模糊提示词触发长回复,或在已有答案后追问"再详细一点"。

一位受访者展示了他的"技巧":把一段能跑通的代码粘贴给AI,问"这段代码有什么问题"。AI会生成冗长的分析,token计数器狂转,而他真正想做的只是刷数据。

为什么token特别容易"养蛇"

相比代码行数或ticket数,token有三个更危险的特性。

第一,它看起来"更智能"。代码行数人人知道是烂指标,但token关联着大模型、生成式AI、未来趋势——管理层容易放下警惕。

第二,它天然可货币化。API账单按月结算,CFO能直接看到"AI投资回报率"。这种可视性,让token比其他 proxy metrics 更快被写进考核。

第三,它的滥用更难审计。一段冗余代码能被code review拦下,但"用AI头脑风暴了20轮"很难被质疑——谁知道那20轮有没有价值?

一位在AI infra团队工作的工程师说,他们内部有个黑话叫"token laundering"(token laundering,token laundering):把私人事务包装成工作查询,用公司API账号处理。

写辞职信、润色约会软件简介、生成周末旅行计划——全部计入"研发创新探索"的token池。

那些试图"修复"指标的人,往往挖得更深

意识到问题后,一些管理者开始叠加修正因子。我见过最复杂的方案包含四个维度:token总量、token/有效代码行比、AI生成代码的测试通过率、以及"AI辅助效率"自评问卷。

结果?工程师学会了新的优化策略。

有人在提示词里明确要求"输出简洁",缩短AI回复长度,同时手动展开被压缩的内容——既省了token,又显得"高效"。有人把AI生成的代码故意拆成多段提交,让测试覆盖率计算时分母变小。

「每次我们堵上一个漏洞,他们就会找到两个新的。」一位尝试过多轮指标迭代的技术VP说,「后来我意识到,问题根本不是指标设计得不够好,是我们根本就不该测这个。」

这句话指向一个更底层的困境。

当"证明在用AI"变成政治刚需

2024年的企业AI叙事里,"落后焦虑"比"效率焦虑"更致命。董事会问CTO:我们的AI渗透率是多少?竞争对手据说已经全员Copilot了。

token用量在这种情况下,成了一种表演性数据。它回答的不是"工程师有没有更高效",而是"我们有没有在AI上花钱、花得够不够显眼"。

一位在零售企业负责数字化转型的总监承认,他们向董事会汇报时,token增长曲线被做成全屏图表。"没人追问这些token产出了什么。但如果没有这张图表,我们会收到CEO的邮件,问是不是IT团队在抵制新技术。"

这种压力向下传导,最终落在工程师的绩效考核表里。

我采访的一位前端工程师,其Q3目标包含"提升AI工具采纳率"。她的实际做法是:把原本复制粘贴就能解决的CSS调整,改成用AI生成、再手动修正。"效率其实更低,但我的采纳率指标是绿的。"

少数人的反其道而行

并非所有团队都在这个陷阱里打转。

Netflix的AI平台团队从2023年起就明确禁止在工程师评审中引用任何原始token数据。他们的替代方案是"输出-结果"双轨制:看AI辅助产出的代码在代码审查中的接受率,看这些代码上线后的故障密度。

「token是我们付给OpenAI的钱,不是工程师创造的价值。」该平台团队的一位负责人在内部文档中写道。

更激进的实验来自一家不愿具名的自动驾驶公司。他们取消了所有AI用量的团队级统计,改为抽样访谈:每月随机选10%的工程师,深入讨论"上周哪次AI交互真正帮到了你"。

这种方法显然无法生成漂亮的仪表盘,但据其工程效率负责人称,他们识别出的"高价值AI使用模式",比任何量化指标都更接近真实。

另一个值得注意的群体是开源社区。Linux内核维护者早在2022年就讨论过是否接受AI生成的补丁,最终形成的共识是:只评审代码本身,不问来源。这个原则被写入提交规范,从根本上杜绝了"为了用AI而用AI"的动机。

指标暴政的终点在哪里

回顾技术管理史,proxy metrics的失效遵循固定剧本:被测量→被操纵→被废弃→换一个新指标→循环。

代码行数、story point、PR数、现在轮到token。每次替换都伴随着"这次不一样"的幻觉——新指标更精细、更实时、更难作弊。

但眼镜蛇效应从不挑选指标类型。它只要求一个条件:激励与真实目标之间存在可被利用的缝隙。

AI token的特殊性在于,它同时连接着技术叙事(我们在拥抱AI)、财务叙事(我们在控制成本)、和管理叙事(我们在量化效率)。三重叙事的叠加,让这个指标比前任们更难被质疑。

一位在三家独角兽都担任过CTO的顾问告诉我,他现在的标准开场白是:"如果你们正在测量token用量,请先回答我——如果明天token消耗降为零,但工程师产出不变,你们是庆祝还是恐慌?"

他说,这个问题的答案,比任何token仪表盘都更能说明问题。

某家SaaS公司的工程团队在2024年Q4做了件罕见的事:他们主动关闭了token用量看板,把省下的仪表板开发时间,用来重构了一套基于"功能交付周期"的简易追踪。没有AI,没有预测模型,就是手动标记需求从提出到上线的天数。

三个月后,他们的平均交付周期缩短了19%。没人能证明这和关闭token看板有因果关系。但团队里一位工程师在匿名调研里写了一句反馈,被截屏传到了我的邮箱——

「终于不用在想提示词的时候,还要想怎么让回复长一点了。」

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
光刻机概念股震荡走高,凯美特气触及涨停

光刻机概念股震荡走高,凯美特气触及涨停

每日经济新闻
2026-03-27 13:50:38
奖金3万+10万元汽车!张水华2天后再争冠:罕见静默 无10万出场费

奖金3万+10万元汽车!张水华2天后再争冠:罕见静默 无10万出场费

风过乡
2026-03-27 08:00:38
撑不住了!古巴街头掀车围警,饥寒交迫之下,政府终于向美国低头

撑不住了!古巴街头掀车围警,饥寒交迫之下,政府终于向美国低头

老马拉车莫少装
2026-03-16 17:49:06
日媒:政府出手后,日本汽油价已降至7.71元/升

日媒:政府出手后,日本汽油价已降至7.71元/升

随波荡漾的漂流瓶
2026-03-25 15:39:49
老赖黄淑芬把人撞成植物人, 宁可坐牢也不赔偿, 后续结局大快人心

老赖黄淑芬把人撞成植物人, 宁可坐牢也不赔偿, 后续结局大快人心

观察鉴娱
2026-03-07 10:26:48
德尚培养出来的法甲助攻王,却跟齐达内水火不容,不受法国队重用

德尚培养出来的法甲助攻王,却跟齐达内水火不容,不受法国队重用

足篮大世界
2026-03-27 17:09:07
这跟不穿有啥区别?内裤外露、开叉开到腰,有钱人的时尚真看不懂

这跟不穿有啥区别?内裤外露、开叉开到腰,有钱人的时尚真看不懂

潮鹿逐梦
2026-03-02 17:19:02
张雪峰后,这两天俩医院党委书记猝死:医院检查心脏的跑友增加

张雪峰后,这两天俩医院党委书记猝死:医院检查心脏的跑友增加

中原医生
2026-03-27 11:46:03
辽宁出手查教师收礼补课,已经有人退了5000元

辽宁出手查教师收礼补课,已经有人退了5000元

智慧生活笔记
2026-03-27 13:02:11
“天下谁人不贪污,你杀得完吗?”朱元璋回答了8个字,流传至今

“天下谁人不贪污,你杀得完吗?”朱元璋回答了8个字,流传至今

千秋文化
2026-02-21 19:39:28
这次军委的动作,让人倒吸一口凉气!直接倒查9年,这不是闹着玩

这次军委的动作,让人倒吸一口凉气!直接倒查9年,这不是闹着玩

安安说
2026-01-26 19:04:41
费率0.3%,社保“第六险”来了,退休人员也要交

费率0.3%,社保“第六险”来了,退休人员也要交

财话连篇
2026-03-26 13:09:33
2-0库拉索!热议:国足就缺陈达毅这种中场 库拉索咋进世界杯的?

2-0库拉索!热议:国足就缺陈达毅这种中场 库拉索咋进世界杯的?

砚底沉香
2026-03-27 16:08:04
34胜1负+22胜7负!湖人为冲冠需取至少52胜 三巨化学反应成支点

34胜1负+22胜7负!湖人为冲冠需取至少52胜 三巨化学反应成支点

颜小白的篮球梦
2026-03-27 14:42:48
房产中介坦言:2026年买房,牢记这7个字,买旧、买大、不买三

房产中介坦言:2026年买房,牢记这7个字,买旧、买大、不买三

Home范
2026-03-27 11:36:29
“全球买、全球卖”,2026中关村国际技术交易大会开幕

“全球买、全球卖”,2026中关村国际技术交易大会开幕

创业中关村
2026-03-27 17:20:21
伊朗真送礼了?特朗普笑着说了一个数,王毅外长的判断很冷静

伊朗真送礼了?特朗普笑着说了一个数,王毅外长的判断很冷静

冒泡泡的鱼儿
2026-03-27 15:42:04
血战82轮!伊朗2000亿美金换命,美以“纸老虎”原形毕露?

血战82轮!伊朗2000亿美金换命,美以“纸老虎”原形毕露?

浯江孤舟
2026-03-27 10:55:19
哈里梅根婚姻亮红灯?当初“爱美人弃王室”,如今却要各玩各的?

哈里梅根婚姻亮红灯?当初“爱美人弃王室”,如今却要各玩各的?

手工制作阿歼
2026-03-27 10:38:20
“160万江景房里最窒息的一幕”,炸出了多少心穷的中国家长

“160万江景房里最窒息的一幕”,炸出了多少心穷的中国家长

小椰子专栏
2026-03-03 13:02:56
2026-03-27 17:39:00
全栈遛狗员
全栈遛狗员
白天跟需求对线,晚上在小区遛狗。
301文章数 2关注度
往期回顾 全部

科技要闻

杨植麟张鹏夏立雪罗福莉,聊龙虾、聊涨价

头条要闻

民警猥亵少女获刑2年9个月 法院:主动承认 从轻处罚

头条要闻

民警猥亵少女获刑2年9个月 法院:主动承认 从轻处罚

体育要闻

邵佳一:足球就像一场马拉松

娱乐要闻

张雪峰灵堂内景曝光,四周摆满了鲜花

财经要闻

我在小吃培训机构学习“科技与狠活”

汽车要闻

与众08,金标大众不能输的一战

态度原创

艺术
健康
亲子
数码
教育

艺术要闻

张大千:形成于未画之先,神留于既画之后

捐献干细胞会伤元气么?

亲子要闻

到震泽,给童年一个“蚕”绕的梦

数码要闻

苹果MacBook Neo散热实在太差:加一块铜片 游戏性能直接翻倍!

教育要闻

3月暑期实习投递指南:不同年级,不同打法

无障碍浏览 进入关怀版