凌晨两点,某独角兽公司的后端工程师刚刷新完团队排行榜——他的月度Token消耗量又登顶了。这不是什么游戏成就,而是他本月向Claude Code和Cursor支付的AI算力账单。在硅谷的开发者社群里,这种"Tokenmaxxing"(最大化Token消耗)正在变成一种奇怪的荣誉勋章。
但问题是:烧掉更多算力,真的等于产出更多价值吗?
![]()
一场被误读的"生产力革命"
AI编码工具的爆发让管理者们措手不及。Claude Code、Cursor、GitHub Copilot——这些工具确实让代码产出量飙升。Waydev的创始人Alex Circei告诉我,他们追踪的数据显示,工程师的代码接受率(即AI生成代码被开发者采纳并保留的比例)表面上有80%到90%。
这个数字看起来很美,直到你看向时间轴的另一端。
Circei的团队服务着50家企业客户、超过1万名软件工程师。他们发现,那些"被接受"的代码在随后几周内被大幅修改或重写的比例高得惊人。把这条时间线拉通计算,真实世界的有效代码接受率其实只有10%到30%。
换句话说,工程师们正在批量生产"技术债",只是换了一种更隐蔽的方式。
正方:Token即生产力
支持"Tokenmaxxing"的逻辑并非全无道理。在辩论的这一侧,核心论点有几个支撑点。
第一,探索成本的大幅降低。过去写一个功能模块,工程师需要先在脑子里完整推演架构,再动手编码。现在可以用AI快速生成多个版本进行A/B对比,试错成本趋近于零。Token消耗在这里等同于"认知外包"——把大脑里的草稿直接变成可运行的原型。
第二,学习曲线的陡峭化。 junior工程师(初级工程师)可以通过大量与AI的交互,快速接触原本需要数年才能积累的模式和最佳实践。一位在Stripe工作的朋友告诉我,他们团队的新人在三个月内接触到的代码场景,比他当年两年还多。
第三,组织层面的信号价值。对于CTO和工程VP来说,团队AI工具使用率是一个容易获取、容易展示的"数字化转型"指标。在向董事会汇报时,"本月Token消耗增长300%"比"代码质量主观评估提升"要直观得多。
这种思路的极端版本,是把AI编码工具当成"无限实习生"——反正算力便宜,让它先生成十版方案,再挑最好的那个。
反方:我们正在测量错误的东西
但另一群工程师和工程管理者正在提出尖锐的反驳。他们的核心质疑是:当输入(Token)变得廉价,我们反而更难看清真实的输出效率。
Waydev的数据揭示了一个被忽视的指标:代码返工率(code churn)。AI生成的代码被接受,不等于它被正确理解、不等于它能长期维护、更不等于它解决了真实问题。Circei观察到,很多工程师在代码审查(Code Review)环节对AI产出"过度信任"——表面看流程走完了,实际上是把技术风险后置了。
更深层的矛盾在于认知负荷的转移。传统编程中,工程师在写代码时已经完成了深度思考;而现在,大量思考被推迟到"修改AI生成的代码"阶段。一位在Netflix工作的资深工程师向我描述这种感受:"以前我写200行代码,脑子里有完整的上下文;现在我审200行AI代码,需要重建同样的上下文,但感觉更累,因为逻辑不是我写的。"
还有一个被低估的成本:调试时间的黑洞。AI生成的代码在语法上往往正确,但在边界条件、异常处理、性能特征上隐藏问题。这些bug不会立即暴露,而是在生产环境中以"诡异方式"浮现——而排查这种代码的耗时,通常远高于从头写一段干净代码。
最尖锐的批评来自一位拒绝具名的Google工程师:"Tokenmaxxing的本质,是把'我努力工作'的幻觉,替换成'我让AI努力工作'的幻觉。两者都不等于'我交付了价值'。"
我的判断:工具正在重塑,但度量体系还没跟上
这场辩论的真正价值,不在于判定哪一方"正确",而在于暴露了一个被忽视的事实:AI编码工具的普及速度,远超我们对"如何衡量其效果"的理解速度。
传统的开发者效能指标——代码行数、提交频率、功能交付速度——在AI时代正在失效。Waydev过去六个月彻底重构平台,正是因为旧有的分析框架无法捕捉"AI生成→人工修改→长期维护"这个完整链条。
我倾向于认为,"Tokenmaxxing"现象是一个过渡期的扭曲信号。它类似于早期云计算时代,企业把"服务器数量"当成数字化程度的指标——直到大家意识到,真正重要的是"每美元算力带来的业务产出"。
几个正在浮现的新度量方向值得关注:
第一,"有效代码寿命"。不是看代码被接受的那一刻,而是追踪它在后续3个月、6个月、12个月内的修改频率。如果一段AI代码在两周后被重写80%,它的Token成本应该被分摊到这段短命的产出上,而非按初始接受率计算。
第二,"认知深度指标"。这更难量化,但一些团队开始尝试通过代码审查时长、审查意见密度、后续bug关联度等 proxy(代理指标),间接测量工程师对代码的真实理解程度。
第三,"端到端交付效率"。把视角从"代码产出"拉大到"需求到上线"的全流程。AI工具是否减少了总交付时间?是否降低了生产事故率?这些才是业务真正关心的输出。
Circei的新产品方向印证了这个判断:Waydev正在推出追踪AI代理元数据的工具,让工程管理者能同时看到"AI adoption(采用率)"和"AI efficacy(效能)"两个维度。这不是要否定AI工具的价值,而是要把度量基准从"用了多少"迁移到"用出了什么"。
给工程管理者的实操建议
如果你正在管理使用AI编码工具的团队,几个具体动作可能比盯着Token账单更有价值。
首先,建立"代码考古"机制。每月随机抽取10%-15%的AI生成代码,追溯其在后续迭代中的命运。这个样本不需要大,但要有意识地覆盖不同工程师、不同模块,形成对"真实接受率"的体感认知。
其次,重新定义代码审查的标准。明确要求审查者不仅判断"这段代码能跑吗",还要判断"我能在三个月后维护它吗"。后者才是区分"AI辅助编程"和"AI替代思考"的关键阈值。
第三,警惕"虚假忙碌"的陷阱。如果团队开始以Token消耗量进行非正式排名,主动打断这个游戏。可以公开讨论:我们奖励的是"解决问题的数量"还是"消耗算力的数量"?
最后,保留"无AI时间"的对照实验。让团队在某些模块或某些迭代周期内回归传统编程方式,对比两种模式下的bug率、维护成本、工程师满意度。没有对照组,任何关于"AI提升效率"的结论都可能是幸存者偏差。
回到开头那个凌晨两点的工程师。他的Token消耗排行榜登顶,可能意味着他是团队里最积极探索新工具的人,也可能意味着他正在用算力燃烧掩盖架构思考的懒惰。在更好的度量体系出现之前,这两种解读都无法被证伪——而这正是问题所在。
AI编码工具无疑在重塑软件工程,但"Tokenmaxxing"这个标签本身,或许是我们这个时代对"生产力"最讽刺的误读:当算力变得像自来水一样廉价,我们反而更需要清醒地分辨,哪些工作值得被测量,哪些数字只是噪音。
如果你的团队也在用Claude Code或Cursor,你有没有找到比Token消耗更靠谱的效能指标?还是说,这个问题本身——"如何测量AI时代的开发者生产力"——正在成为新一代工程管理者最核心的挑战?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.