![]()
三个月前,我的AI工具账单像一团迷雾。Anthropic每月扣一笔,OpenAI每月扣一笔,我付完钱就关掉页面,从没想过这些钱具体买了什么。
直到我把某个月的 invoice 逐行看了一遍。Claude Sonnet 烧了 2.4M token,但哪些任务花的?代码审查还是随手补全?Claude Code 和聊天界面各自贡献多少?完全没头绪。
供应商的账单 dashboard 不是给开发者用的。它们告诉你"本月消费 47 美元",但不告诉你哪段 10 行的函数重构其实可以用免费模型搞定。
你优化不了无法测量的东西。
我做了个叫 CliGate 的本地代理,卡在工具和上游 API 中间。四个工具统一走 localhost:8081,一个入口管凭证、管路由、管记账。这个位置恰好能拦截所有请求,记录谁发的、调的哪个模型、多少 token、单价多少。
一周后的数据面板让我愣了一下:
账单解剖:68% 的钱花在哪儿
Anthropic API 4.82 美元,占 68%。OpenAI API 2.27 美元,占 32%。ChatGPT 账号池和免费路由都是 0。
模型级拆解更有意思:Claude Sonnet 4.21 美元(59%),GPT-4o 1.89 美元(27%),Codex-mini 0.38 美元(5%)。Claude Haiku 那一行是 0,因为我开了免费路由。
这个零让我停下来想了一会儿。
CliGate 的 free model routing 功能会把 Haiku 的请求转发到 DeepSeek R1、Qwen3、MiniMax 这些免费模型,通过 Kilo AI 走,不需要 API key。我当初当实验开的,一周后看统计:所有快速问答、短补全、"这个函数干嘛的"——全是 0 成本。
本地模型的 3 分钟嫁接
免费路由解决的是轻量请求。但有些场景我不想把代码片段发到任何第三方服务器,哪怕免费。
我把 Claude Code 指向了本地 Ollama 模型。步骤比想象中简单:Ollama 跑起来,模型 pull 好,Claude Code 的 config 里加一行 base URL 指向 localhost:11434,model 名填 ollama 里的标签。全程不到 3 分钟。
Claude Code 的文档没 prominently 宣传这个能力,但它是原生支持的。Ollama 的 OpenAI-compatible API 让工具以为自己在跟 GPT 对话,实际上数据没出本机。
本地模型的质量差距在缩小。Qwen3 的 32B 版本处理日常重构已经够用,敏感代码的审查和文档生成完全可以本地跑。我的路由规则现在是:涉密代码 → Ollama,常规补全 → 免费路由,复杂架构讨论 → 才走 Sonnet。
代理层的隐藏价值
CliGate 的位置在协议栈里很微妙。它不做模型,不训练数据,只是中转。但这个中转点能做的事比记账多得多。
统一凭证管理意味着我不用在四个工具里分别填 API key。模型别名系统让我可以随时把 "claude-sonnet" 指向不同的上游,测试新版本不用改工具配置。请求级别的日志让调试变得直观——哪个工具在疯狂重试,哪个模型响应慢,一目了然。
最意外的是成本意识的改变。以前我随手按 Tab 接受 AI 建议,现在会停顿半秒:这个补全值 0.003 美元吗?还是让本地模型试试?
这种微观决策以前不可能做,因为信息被埋在聚合账单里。
从黑箱到仪表盘
AI 编码工具的商业模式建立在"按量计费但用量模糊"上。它们希望你为便利付费,而不是为精确的价值付费。这没什么不对,只是不适合想优化成本的人。
CliGate 的仪表盘让我第一次看清了自己的使用模式。Sonnet 的 59% 占比里,有多少是真正的复杂推理,有多少只是我在偷懒没写提示词?GPT-4o 的 27% 里,Codex CLI 和 Gemini CLI 各自贡献多少?
数据不会自动省钱,但会让省钱成为可能。我把路由规则调了三次:第一次砍掉明显能用免费模型的场景,第二次把涉密代码强制导向本地,第三次给高频但低价值的操作加了缓存。
三周后的账单:Anthropic 从 4.82 降到 1.47,OpenAI 从 2.27 降到 0.89。本地模型和免费路由承担了大约 60% 的请求量。
这个比例还在变。Qwen3 的新版本让我又把一批任务从 Sonnet 迁过来,代价是本地 GPU 风扇响一点。但电费比 API 账单便宜太多。
工具链的再中心化
AI 编码工具的碎片化是个老问题。每个厂商都想让你用它的 CLI、它的账号、它的计费体系。Claude Code、Codex CLI、Gemini CLI、各种聊天界面——四组凭证,四个账单周期,四种使用习惯。
CliGate 把这种碎片化压进一个入口。不是取代这些工具,而是在它们下面垫一层透明的基座。工具继续各用各的,但数据流、成本流、凭证流统一了。
这个模式有点像早期的 HTTP 代理,或者后来的 API gateway。价值不在功能,在位置——卡在数据必经之路上,就能做拦截、做转换、做记录。
我现在的 workflow 是:早上打开终端,四个工具照常启动,但都知道把请求发给 localhost:8081。CliGate 的日志面板开着,像看股票行情一样扫一眼昨晚的消耗。有异常峰值就点进去看详情,没有就继续写代码。
这种可见性本身改变了行为。以前月底看到账单会惊讶,现在每笔消费都发生在眼前,优化变成游戏化的挑战:能不能把这个函数的重构成本压到零?
免费路由的边界
Kilo AI 提供的免费模型不是慈善。它们通过这种方式获取用户、测试模型、积累数据。但对于终端开发者来说,这是真实的零成本选项。
DeepSeek R1 的推理能力在某些场景下比 Haiku 还强,Qwen3 的代码理解进步很快。这些模型不是 Sonnet 的平替,而是特定任务的更优解——尤其是当你把"延迟"和"隐私"也计入成本的时候。
免费路由的局限也很明显。没有 SLA,没有支持,模型版本可能突然变。我把关键路径的请求限制在自有 API key 的范围内,免费模型只处理探索性、非生产性的任务。
这个分层策略让成本结构变得健康。固定支出可控,弹性支出有天花板,意外消耗有本地模型兜底。
从个人工具到团队基础设施
CliGate 最初是个人项目,但结构上有团队扩展的可能。统一的凭证管理意味着轮换 API key 不用改每个开发者的本地配置。集中的用量监控让成本分摊有数据依据。模型路由规则可以版本化,团队逐步迁移到新模型不用强制同步。
这些特性我没实现,但架构上预留了空间。代理层的价值会随着团队规模放大——10 个人的零散消耗,汇总起来就是可观的优化空间。
更大的图景是 AI 基础设施的成熟。模型能力在商品化,接口标准在收敛(OpenAI-compatible API 几乎成为事实标准),差异化竞争转向编排层、监控层、成本优化层。CliGate 这种轻量代理,可能是这个趋势的早期信号。
数据出走的代价
成本不是唯一的优化目标。过去三个月,我越来越在意代码片段的流向。不是 paranoid,而是意识到"上传整个代码库给云端模型"这个行为本身有隐性代价。
知识产权、合规要求、客户合同——很多场景下,数据出境是红线。本地模型不是性能最优解,但是某些任务的唯一合法解。
Claude Code 对 Ollama 的原生支持,让这个选择变得无痛。不需要改 workflow,不需要学新工具,只是配置里换一行地址。这种兼容性设计值得更多厂商学习。
我的路由规则现在有两条硬约束:客户代码不出本机,开源项目随便云端。CliGate 的模型别名系统让这种策略可执行、可审计。
记账即反馈
AI 编码工具的设计哲学是"减少摩擦"。Tab 键接受建议,自然语言描述生成代码,对话式调试。这些便利的代价是让你忘记自己在消耗资源。
CliGate 把消耗重新变成可见的。不是制造焦虑,而是恢复反馈循环。就像开车时仪表盘显示油耗,不是让你盯着数字开车,而是让你知道急加速的代价。
我现在的编码习惯变了:先本地模型试探,不够再升级,而不是默认调最强的。提示词写得更具体,减少来回澄清的轮次。多文件修改时先画草图,减少 AI 的无效探索。
这些改进不是因为模型变贵了,而是因为成本可见了。可见性驱动优化,优化积累成习惯,习惯重塑工作方式。
三个月后的账单
第一个月:Anthropic 4.82,OpenAI 2.27,合计 7.09。第二个月:Anthropic 2.15,OpenAI 1.43,本地和免费路由占 35%。第三个月:Anthropic 1.47,OpenAI 0.89,本地和免费路由占 67%。
绝对金额不大,但比例变化说明结构在调整。我不是在少用 AI,而是在更聪明地分配请求。复杂架构讨论仍然走 Sonnet,值得付费。但大量边缘场景找到了更便宜的解法。
这个过程中,CliGate 的仪表盘成了日常工具。不是因为它功能多强,而是因为它填补了供应商故意留下的信息缺口。
AI 工具厂商有动力让计费保持模糊。聚合账单、延迟报表、缺失的模型级明细——这些"疏忽"让你难以优化,从而难以离开。第三方代理的存在,把这个权力关系稍微扳回来一点。
下一步:当模型继续便宜
有人可能会说:等模型再便宜一个数量级,这种优化就失去意义了。也许。但历史经验是,消耗会填满供给。当 token 便宜到可以随便烧,应用层会发明新的消耗方式——更长的上下文、更多的并行请求、更激进的 agentic 循环。
成本优化不是终点,是持续过程。今天的免费路由是 DeepSeek 和 Qwen,明天可能是其他模型。今天的本地模型是 32B,明年可能是 70B 也能本地跑。代理层的价值在于让这种迁移无痛。
我把 CliGate 开源了。不是因为它代码多优雅,而是觉得这个模式值得更多人尝试。AI 基础设施的透明化,不应该依赖每个开发者自己造轮子。
如果你也在用多个 AI 编码工具,建议做一件事:把最近一个月的账单下载下来,按模型、按工具、按任务类型拆一遍。不需要写代码,电子表格就够了。拆完之后,你可能会发现自己和三个月前的我一样,在为很多"其实可以零成本"的请求付费。
那个发现本身,就是改变的开始。
你现在用的 AI 编码工具,能告诉你昨天具体哪段对话花了多少钱吗?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.