上个月在飞机上,我用断断续续的WiFi连上云服务器,六个子代理同时运行。看着周度token配额比预期消耗得更快,落地时我已经开始为剩下的日子精打细算。
这就是推理套利的日常。不是把所有任务丢给最贵的模型,而是为每个AI任务匹配最便宜且质量可接受的选项。没有基准测试能告诉你哪个模型适合哪个任务、什么价位。我上周发布了覆盖15个模型的38项基准测试,核心发现不是某个模型名字,而是一条路由原则:匹配模型与任务,大多数任务不需要昂贵的那个。
![]()
我的五个模型栈
Sonnet是主力。Claude Code里的日常驾驶位,处理所有交互任务:编码、调试、文件编辑、写作、规划。基准测试中100%准确率,每次0.20美元,中位响应4.6秒。以我的调用量,质量成本比无可匹敌。
Opus是升级选项。Sonnet出错或遇到真正棘手的问题时启用。同样100%准确率,但单次0.69美元,3.5倍溢价,多数任务零额外质量提升。溢价物有所值之处:模糊推理、多步因果链、首次答案必须正确且验证成本高昂的场景。
Codex子代理用于交叉验证和成本分散。OpenAI的Codex CLI作为独立推理通道运行,token消耗分散到不同订阅计划,同时交叉检查Opus的工作。同一问题,两个模型,对比答案:一致则高置信,不一致则深挖。GPT-5.2-codex基准测试98.3%,不同架构模型的第二意见曾捕获单模型工作流遗漏的真实bug。上周一次重构中,Codex标记了Sonnet两次通过的监控脚本竞态条件。
Gemini Flash CLI负责研究和文件读取。通过@file语法读取本地文件,内置Google搜索,速度够快,单次研究冲刺烧掉1000次调用。曾需要100家公司的成立日期和员工数,Gemini五分钟搞定,Claude预算分文未动。
我的调用日志显示:典型工作日80-120次API调用(交互工作)加50-200次(自动化脚本)。基准开发期间的峰值日冲到7700次——那是自动化测试,非正常用量。我是Claude Max订阅者,这个背景下的日常推荐仅供参考。
预算周期即工作计划
现在我围绕周度重置周期规划重任务。周一预算充足,排队昂贵的推理任务。周四起,一切可能的路由到更便宜模型或推迟到下一周期。这不是技术限制,是成本纪律。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.