![]()
上周Anthropic宣布高峰时段收紧Claude使用限制,我的时间线被开发者刷屏——"我就问了3个问题,怎么额度就爆了?"
我是vexp的开发者,一个本地AI编程助手上下文引擎。在动手做这玩意儿之前,我做了一件似乎没人做的事:把账算清楚。
我用FastAPI v0.115.0实测——真正的开源框架,约800个Python文件,不是玩具项目。7个任务(修bug、加功能、重构、代码理解),每个任务跑3遍,42次完整执行,Claude Sonnet 4.6,每次运行完全隔离。
结果:70%的代币消耗是浪费。
你的额度不是被问题烧光的,是被"翻文件"烧光的
AI编程助手没有代码库的地图。它不知道哪些文件和你的问题相关,所以只能像新员工入职第一天那样:全读一遍。
区别在于,新员工读一次就记住了。你的AI助手每次提问都重新读。
而且情况会恶化。随着对话继续,上下文不断累积。到第15轮时,每个提示词都要重新处理完整的对话历史加上代码库读取。单次成本呈指数增长,而非线性。
这就是为什么Anthropic的限流让你抓狂——不是你的问题太多,是你的助手太"勤奋"地在读不相干的文件。
![]()
今天就能做的免费优化(省20-30%)
收窄提示词范围。"修复src/auth/login.ts里的认证错误"触发3-5次文件读取。"修复认证错误"触发20+次。
缩短会话。每个任务开新会话,别在一个对话里做15件事。
在上下文膨胀前用/compact。别等到自动压缩的167K代币阈值。
审计你的MCP。每个加载的MCP服务器每次提示都增加代币开销,即使你没用它。
用/model opusplan。Opus做规划,Sonnet做实现。
这些能省20-30%。结构性方案能省58-74%。
vexp实测:16.29美元→6.89美元
核心思路:不让助手逐文件探索代码库,而是预先索引项目,每个查询只提供相关代码。
![]()
我把它做成MCP服务器叫vexp。Rust二进制,tree-sitter语法树解析,依赖图谱,SQLite。100%本地运行,代码永不离开你的机器。
FastAPI基准测试42轮总消耗:不用vexp 16.29美元,用vexp 6.89美元。
输出代币的下降让我意外。Claude不只是读得更少——它生成的无关输出也更少。聚焦的输入上下文带来聚焦的响应。我没专门设计这个效果,但道理说得通:噪音进,噪音少。
我在SWE-bench Verified上也跑了——100个真实GitHub bug,Claude Opus 4.5,每个任务3美元预算:
相同模型。相同预算。唯一变量是上下文质量。
大家都在吵错的事
所有人都在争论Anthropic该提高限额还是降价。两边都没抓到重点。
真正的问题是架构性的:AI编程助手不了解你的代码库。它们用"读所有文件"来补偿。你为这份补偿付代币——而且没人告诉你账单明细。
Anthropic的限流政策像是一个被迫的透明度工具。它逼你意识到:你的助手是个贪婪的读者,而你在按字数付费。
vexp的代码在GitHub开源。但更大的问题是:如果Claude Code自带代码库索引,这些优化本该是默认设置。为什么需要第三方工具来修复70%的浪费?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.