AI圈的怪词又上新了 —— 这次一口气来了两个。
一个叫“Tokenmaxxing”,代表一种把Token用量疯狂刷满的行为;另一个叫“Harness”,是一套让 Agent 正确执行任务的工程设计。
这两个词最近都很热,但率先破圈的是 Tokenmaxxing。
这个纯看 Token 消耗、带着点粗暴意味的词儿,在半个月内被海外AI大厂、黄仁勋、Andrej Karpathy,还有以龙虾为代表的 Agent 推上风口浪尖。
甚至,最近 AI 圈打招呼的方式,都变成了互问 Token 消耗量。
![]()
*Token用尽!
与此同时,在刷量联欢中,一个名为 Harness 的理念在技术圈流行了起来。
Harness 这单词的直译是“马具”。
这个词真的很灵。如果把 Agent 比作不听话的野马,那 Harness,就是一套让 Agent 保证任务质量的工程设计。没错,它是一套设计框架,不是具体的产品。
某种意义上,它们是 AI 狂飙的一体两面的产物。Tokenmaxxing 代表纵情燃烧算力的挥霍,Harness 则适时递上了一条缰绳,试图把那些无效的消耗拉回正轨。
这两个看起来都有些怪异,又某种程度上意义相反的概念,在同一个春天火了起来。
Tokenmaxxing,一种新型“身份象征”
Tokenmaxxing,把模型的 Token 用量最大化。这种简单粗暴的模式之所以成为 AI 新风尚,源于 AI 大厂设置的职场新规,以及黄仁勋、Andrej Karpathy 这类 icon 人物的助推。
几天前纽约时报的报道,第一次揭露了海外 AI 公司内部员工 Token 消耗排行榜的秘密。
报道中说,Meta、OpenAI、Anthropic 这类公司会把员工近期的 Token 消耗情况列出来,并依据消耗量进行排名。
榜上排名靠前的员工,可能会获得更多薪酬。还有些公司,会把提供给员工的 Token 预算,当作福利列在牙科保险和免费午餐的旁边。
以上种种,让 Token 消耗量成为一种身份象征。
有匿名的 OpenAI 员工表示,自己几天内消耗了2100亿 Tokens,是全公司的榜一大哥。
这个规模,能把整个维基百科的文本逐字浏览33遍,把《红楼梦》的中文版读上百万遍,把5000字的论文写作并修改上亿篇...
拿他们自家的 GPT-5.4 输出价格算一下,这些 Tokens 差不多得花个315万美元。
身体力行要把 Token 刷爆的代表人物,还有 Andrej Karpathy,这位全球顶流 AI KOL。
他在硅谷著名投资人 Sarah Guo 的播客上说,自己现在不在前沿 AI 实验室工作,所以把每个月的 Token 消耗拉满,是一种保持手感的方式,“如果订阅还有剩余,我会焦虑,说明我没有最大化我的 token 吞吐量。”
这话一出,立马引起讨论。很多心怀 FOMO 的人觉得,Karpathy 替自己说出了心声,但还有另外一部分人觉得,他是真的有点...病。
![]()
*一篇讨论Karpathy“AI病态”的高赞帖子下,有网友点评,疯狂消耗Token人就像仓鼠一样在转轮里瞎忙活。
而黄仁勋,在几天前的 GTC 大会上把 Tokenmaxxing 这种纯卷 Token 的态度直接摆上了台面。
他说,工程师们应该把Token当作薪酬包的一部分。一个AI工程师,每年至少会消耗价值25万美元的Tokens。
![]()
Token刺客,以及那只烧钱的虾
至此,Tokenmaxxing 这派已经集齐了 AI 公司、技术 KOL 和算力霸主。这让它迅速升格为“Token 经济学”的最潮实践,也成了一门职场显学。
一位爱立信驻瑞典的工程师在采访中说,自己花在 Claude 上的钱已经超过了工资 —— 好在账单由公司买单。
Shopify 的一位工程师匿名透露:“现在的绩效评估表上,有一栏专门问你本周用了多少 AI 工具。”如果数字不够大,绩效就不好看。
Shopify 的 CEO 随后在 X 上公开了这份内部备忘文件,肯定了员工的 AI 用量确实和绩效挂钩。
![]()
*“我们马上要在绩效评估和同事360环评表里,加上一栏专门问你AI用了多少量了。”
不过,随着 Tokenmaxxing 而来的还有困扰。这套逻辑里最核心的问题是:过于强调消耗量,疏于评估投入产出比。
像 OpenAI 榜一大哥花2100亿 Tokens 做的,也并非什么惊天创新,只是一些日常工作而已。
不少重金砸 Token 的人已经感到肉痛。
有在硅谷工作的朋友告诉我,Meta 近期有工程师疑似烧出了百万美元级别的天价账单,被主管紧急约谈,追问他到底在做什么。
还有风投大佬、8090的联创 Chamath Palihapitiya 最近也公开发言,说自家公司的 AI 成本自去年底开始疯涨,逼近年烧1000万美元,但收入却没有同步跟上。“我们的收入并没有增长三倍,Token 账单却增长了三倍。”
![]()
ROI 严重失衡的背后,Agent 成为了推手。
Chamath Palihapitiya 怀疑,自己公司大量的 Token 账单来自所谓的 Agent 的循环模式,也就是 Agent 反复给自己喂同一个提示词,转了一百圈也没解决问题,但 Token 消耗量倒是非常好看。
这种体验,想必各位养虾人也不陌生。
![]()
*过去两个月,虾让很多普通人体会到什么是Token刺客
Harness,驾驭Agent,驾驭AI
当 Tokenmaxxing 在争议中愈演愈烈,一种更理性的声音开始出现。
一些人在讨论,AI 公司不应该只看工程师的 Token 消耗量,更应该考察他们能否用10M的 Token,完成等效100M Token 的开发。
这个思路听着靠谱多了。它其实已经指向了 Tokenmaxxing 的对立面——Harness,一个最近在 AI 工程圈爆火,且正在加速破圈的理念。
Harness,直译是“马具”。
这个词选得很妙。Agent 经常和野马一样不听话乱跑,还费钱,而 Harness,就是一套让 Agent 保证任务质量的工程(马具)。
设计 Harness 的精髓是,既不把 Agent 限制死,又能确保它跑在正确的轨道上。
关于 Agent、模型、Harness 的关系公式是:Agent = Model + Harness。模型提供智能,而Harness 让智能变得可用。在具体实践中,Harness 包含前两年被强调的上下文工程,又不限于此。
![]()
其实早在半年前 Claude Code 风靡时,AI技术圈已经在讨论“脚手架” scaffold,一种通过工程手段提升 Agent 效果的模式。
![]()
*四木群聊当时讨论,不论是Cursor还是ClaudeCode,都在脚手架方面做了很多工作。
今年初,随着 OpenAI 发布 Codex 实践,与“脚手架”思路一脉相承的 Harness Engineering 正式成为热词。
![]()
*原文:
https://openai.com/index/harness-engineering/
本周,Anthropic 在一系列重大更新后,也发布了自己的 Harness 经验。他们主要讲了通过“对抗生成”的思路,让 Agent 产出更符合预期的网页结构与交互逻辑。
![]()
*原文:
https://www.anthropic.com/engineering/harness-design-long-running-apps
在诸多关于 Harness 的持续解读中,我觉得字节 Web Infra AI Coding 的负责人周晓总结地挺到位:
他说,Harness Engineering 的核心是给模型好的上下文、好的工具、可读的环境。
也就是「为 Agent 打造专属工作室」,用工程手段让 Agent 发挥出超越模型的价值,减少幻觉、提升效率,保证任务完成的效果。
![]()
如果再拆分各家的具体做法,会发现Harness 还没有统一思路,目前包括不限于以下几个层面:
上下文工程,这是最基础的一层。
Agent 的输出质量,很大程度上取决于它“看到”了什么。塞给它冗余的上下文,会浪费 Token,还会干扰判断;过于稀薄的上下文,会让它胡乱发挥。好的 Harness 设计,是在任务执行的不同阶段,精准地给 Agent 喂它需要的信息。
记忆与状态管理,更进阶的议题。
多轮任务中,Agent 需要记住“之前做过什么”,但如果每次都把完整历史塞进上下文,Token 成本会指数级增长。好的 Harness 设计会区分哪些记忆需要持久、哪些只需要在单次任务中保留,从而在保证连贯性的同时,控制消耗。
任务拆解,是保证 Agent “头脑”清醒的关键。
把一个不算简单的任务拆成研究、 确认方案、执行、验证等几个步骤,甚至让不同的Agent承担这些工作,效果会更好。
反馈机制,是 Agent 自我进化的核心。
这里的具体操作有:一旦 Agent 出现了重要失误,就要把这次的教训记录进.md文档里,让它下次不再犯;以及设置Hook或循环任务,让它持续自发校验,直到完成目标。
除此之外,Harness 还涉及效果评估、安全权限等一系列设计。
![]()
*海外独角兽对Harness组件的梳理
由于业务场景差异,不同 Agent 的 Harness 难以形成一套不变的标准方法。但无论落地细节如何变化,Harness 的存在,都恰好制衡了 Tokenmaxxing 式的浪费。
甚至,如果跟着 Harness 的思路,普通人养龙虾时遭遇的记忆偏差与任务跑偏问题也能缓解。
![]()
*根据Harness经验调整龙虾的记忆机制
Tokenmaxxing 和 Harness,这组同期走红的理念,一个鼓励无节制地消耗,一个追求有质量地控制。
它们共同指向了所谓的“Token 经济学” —— 这个两年前被造出来的词,之前在很多场合被等同于 Token 消耗量,类似于 Tokenmaxxing。
但经济学的本质,是一门研究“如何在有限资源下做选择”的学问。如果真讨论所谓的 Token 经济学,那它应该回答的问题不是消耗了多少,而是这些消耗是否值得。
虽然此时 Token 价值的判断标准还不清晰,但 Harness 起码给出了一个起点。
毕竟,比起在排行榜上刷出一个耸人听闻的 Token 数,设计一套方案让虾真的能把事情做完,是更值得追求的目标。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.