Anthropic账单让我懵了3个月，这个零成本路由把费用砍了68%|代码|key

Anthropic账单让我懵了3个月，这个零成本路由把费用砍了68%

2026-04-13 12:21:28　来源: 报错免疫体

北京举报

分享至

三个月前，我的AI工具账单像一团迷雾。Anthropic每月扣一笔，OpenAI每月扣一笔，我付完钱就关掉页面，从没想过这些钱具体买了什么。

直到我把某个月的 invoice 逐行看了一遍。Claude Sonnet 烧了 2.4M token，但哪些任务花的？代码审查还是随手补全？Claude Code 和聊天界面各自贡献多少？完全没头绪。

供应商的账单 dashboard 不是给开发者用的。它们告诉你"本月消费 47 美元"，但不告诉你哪段 10 行的函数重构其实可以用免费模型搞定。

你优化不了无法测量的东西。

我做了个叫 CliGate 的本地代理，卡在工具和上游 API 中间。四个工具统一走 localhost:8081，一个入口管凭证、管路由、管记账。这个位置恰好能拦截所有请求，记录谁发的、调的哪个模型、多少 token、单价多少。

一周后的数据面板让我愣了一下：

账单解剖：68% 的钱花在哪儿

Anthropic API 4.82 美元，占 68%。OpenAI API 2.27 美元，占 32%。ChatGPT 账号池和免费路由都是 0。

模型级拆解更有意思：Claude Sonnet 4.21 美元（59%），GPT-4o 1.89 美元（27%），Codex-mini 0.38 美元（5%）。Claude Haiku 那一行是 0，因为我开了免费路由。

这个零让我停下来想了一会儿。

CliGate 的 free model routing 功能会把 Haiku 的请求转发到 DeepSeek R1、Qwen3、MiniMax 这些免费模型，通过 Kilo AI 走，不需要 API key。我当初当实验开的，一周后看统计：所有快速问答、短补全、"这个函数干嘛的"——全是 0 成本。

本地模型的 3 分钟嫁接

免费路由解决的是轻量请求。但有些场景我不想把代码片段发到任何第三方服务器，哪怕免费。

我把 Claude Code 指向了本地 Ollama 模型。步骤比想象中简单：Ollama 跑起来，模型 pull 好，Claude Code 的 config 里加一行 base URL 指向 localhost:11434，model 名填 ollama 里的标签。全程不到 3 分钟。

Claude Code 的文档没 prominently 宣传这个能力，但它是原生支持的。Ollama 的 OpenAI-compatible API 让工具以为自己在跟 GPT 对话，实际上数据没出本机。

本地模型的质量差距在缩小。Qwen3 的 32B 版本处理日常重构已经够用，敏感代码的审查和文档生成完全可以本地跑。我的路由规则现在是：涉密代码 → Ollama，常规补全 → 免费路由，复杂架构讨论 → 才走 Sonnet。

代理层的隐藏价值

CliGate 的位置在协议栈里很微妙。它不做模型，不训练数据，只是中转。但这个中转点能做的事比记账多得多。

统一凭证管理意味着我不用在四个工具里分别填 API key。模型别名系统让我可以随时把 "claude-sonnet" 指向不同的上游，测试新版本不用改工具配置。请求级别的日志让调试变得直观——哪个工具在疯狂重试，哪个模型响应慢，一目了然。

最意外的是成本意识的改变。以前我随手按 Tab 接受 AI 建议，现在会停顿半秒：这个补全值 0.003 美元吗？还是让本地模型试试？

这种微观决策以前不可能做，因为信息被埋在聚合账单里。

从黑箱到仪表盘

AI 编码工具的商业模式建立在"按量计费但用量模糊"上。它们希望你为便利付费，而不是为精确的价值付费。这没什么不对，只是不适合想优化成本的人。

CliGate 的仪表盘让我第一次看清了自己的使用模式。Sonnet 的 59% 占比里，有多少是真正的复杂推理，有多少只是我在偷懒没写提示词？GPT-4o 的 27% 里，Codex CLI 和 Gemini CLI 各自贡献多少？

数据不会自动省钱，但会让省钱成为可能。我把路由规则调了三次：第一次砍掉明显能用免费模型的场景，第二次把涉密代码强制导向本地，第三次给高频但低价值的操作加了缓存。

三周后的账单：Anthropic 从 4.82 降到 1.47，OpenAI 从 2.27 降到 0.89。本地模型和免费路由承担了大约 60% 的请求量。

这个比例还在变。Qwen3 的新版本让我又把一批任务从 Sonnet 迁过来，代价是本地 GPU 风扇响一点。但电费比 API 账单便宜太多。

工具链的再中心化

AI 编码工具的碎片化是个老问题。每个厂商都想让你用它的 CLI、它的账号、它的计费体系。Claude Code、Codex CLI、Gemini CLI、各种聊天界面——四组凭证，四个账单周期，四种使用习惯。

CliGate 把这种碎片化压进一个入口。不是取代这些工具，而是在它们下面垫一层透明的基座。工具继续各用各的，但数据流、成本流、凭证流统一了。

这个模式有点像早期的 HTTP 代理，或者后来的 API gateway。价值不在功能，在位置——卡在数据必经之路上，就能做拦截、做转换、做记录。

我现在的 workflow 是：早上打开终端，四个工具照常启动，但都知道把请求发给 localhost:8081。CliGate 的日志面板开着，像看股票行情一样扫一眼昨晚的消耗。有异常峰值就点进去看详情，没有就继续写代码。

这种可见性本身改变了行为。以前月底看到账单会惊讶，现在每笔消费都发生在眼前，优化变成游戏化的挑战：能不能把这个函数的重构成本压到零？

免费路由的边界

Kilo AI 提供的免费模型不是慈善。它们通过这种方式获取用户、测试模型、积累数据。但对于终端开发者来说，这是真实的零成本选项。

DeepSeek R1 的推理能力在某些场景下比 Haiku 还强，Qwen3 的代码理解进步很快。这些模型不是 Sonnet 的平替，而是特定任务的更优解——尤其是当你把"延迟"和"隐私"也计入成本的时候。

免费路由的局限也很明显。没有 SLA，没有支持，模型版本可能突然变。我把关键路径的请求限制在自有 API key 的范围内，免费模型只处理探索性、非生产性的任务。

这个分层策略让成本结构变得健康。固定支出可控，弹性支出有天花板，意外消耗有本地模型兜底。

从个人工具到团队基础设施

CliGate 最初是个人项目，但结构上有团队扩展的可能。统一的凭证管理意味着轮换 API key 不用改每个开发者的本地配置。集中的用量监控让成本分摊有数据依据。模型路由规则可以版本化，团队逐步迁移到新模型不用强制同步。

这些特性我没实现，但架构上预留了空间。代理层的价值会随着团队规模放大——10 个人的零散消耗，汇总起来就是可观的优化空间。

更大的图景是 AI 基础设施的成熟。模型能力在商品化，接口标准在收敛（OpenAI-compatible API 几乎成为事实标准），差异化竞争转向编排层、监控层、成本优化层。CliGate 这种轻量代理，可能是这个趋势的早期信号。

数据出走的代价

成本不是唯一的优化目标。过去三个月，我越来越在意代码片段的流向。不是 paranoid，而是意识到"上传整个代码库给云端模型"这个行为本身有隐性代价。

知识产权、合规要求、客户合同——很多场景下，数据出境是红线。本地模型不是性能最优解，但是某些任务的唯一合法解。

Claude Code 对 Ollama 的原生支持，让这个选择变得无痛。不需要改 workflow，不需要学新工具，只是配置里换一行地址。这种兼容性设计值得更多厂商学习。

我的路由规则现在有两条硬约束：客户代码不出本机，开源项目随便云端。CliGate 的模型别名系统让这种策略可执行、可审计。

记账即反馈

AI 编码工具的设计哲学是"减少摩擦"。Tab 键接受建议，自然语言描述生成代码，对话式调试。这些便利的代价是让你忘记自己在消耗资源。

CliGate 把消耗重新变成可见的。不是制造焦虑，而是恢复反馈循环。就像开车时仪表盘显示油耗，不是让你盯着数字开车，而是让你知道急加速的代价。

我现在的编码习惯变了：先本地模型试探，不够再升级，而不是默认调最强的。提示词写得更具体，减少来回澄清的轮次。多文件修改时先画草图，减少 AI 的无效探索。

这些改进不是因为模型变贵了，而是因为成本可见了。可见性驱动优化，优化积累成习惯，习惯重塑工作方式。

三个月后的账单

第一个月：Anthropic 4.82，OpenAI 2.27，合计 7.09。第二个月：Anthropic 2.15，OpenAI 1.43，本地和免费路由占 35%。第三个月：Anthropic 1.47，OpenAI 0.89，本地和免费路由占 67%。

绝对金额不大，但比例变化说明结构在调整。我不是在少用 AI，而是在更聪明地分配请求。复杂架构讨论仍然走 Sonnet，值得付费。但大量边缘场景找到了更便宜的解法。

这个过程中，CliGate 的仪表盘成了日常工具。不是因为它功能多强，而是因为它填补了供应商故意留下的信息缺口。

AI 工具厂商有动力让计费保持模糊。聚合账单、延迟报表、缺失的模型级明细——这些"疏忽"让你难以优化，从而难以离开。第三方代理的存在，把这个权力关系稍微扳回来一点。

下一步：当模型继续便宜

有人可能会说：等模型再便宜一个数量级，这种优化就失去意义了。也许。但历史经验是，消耗会填满供给。当 token 便宜到可以随便烧，应用层会发明新的消耗方式——更长的上下文、更多的并行请求、更激进的 agentic 循环。

成本优化不是终点，是持续过程。今天的免费路由是 DeepSeek 和 Qwen，明天可能是其他模型。今天的本地模型是 32B，明年可能是 70B 也能本地跑。代理层的价值在于让这种迁移无痛。

我把 CliGate 开源了。不是因为它代码多优雅，而是觉得这个模式值得更多人尝试。AI 基础设施的透明化，不应该依赖每个开发者自己造轮子。

如果你也在用多个 AI 编码工具，建议做一件事：把最近一个月的账单下载下来，按模型、按工具、按任务类型拆一遍。不需要写代码，电子表格就够了。拆完之后，你可能会发现自己和三个月前的我一样，在为很多"其实可以零成本"的请求付费。

那个发现本身，就是改变的开始。

你现在用的 AI 编码工具，能告诉你昨天具体哪段对话花了多少钱吗？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.