![]()
每月烧掉200美元API费用后,我终于看了眼账单明细。结果触目惊心:65%的请求根本不该用 Claude Sonnet,却在按 Sonnet 的价格付费。
这不是我的问题,是行业的通病。开发者把简单任务和复杂推理全塞进同一个模型,就像用救护车送快递——能到,但贵得离谱。
成本差100倍,质量几乎一样
2026年初的真实定价:Gemini 2.5 Flash 输入 $0.15/百万 token,输出 $0.60;Claude Haiku 输入 $0.80,输出 $4.00。而大多数人在用的 Claude Sonnet?输入 $3.00,输出 $15.00。
简单摘要任务用 Sonnet 比 Flash 贵10到20倍,输出质量却看不出区别。
我的请求分布很典型:60%-70%是"提取邮件姓名""分类工单""翻译句子"这类傻瓜任务,30%才是财务分析、多步推理的硬骨头。按这个比例,混合成本能从 $8/百万 token 压到 $3-4,省50%还没动过一条提示词。
但知道该做和真去做,中间隔着一座山。
为什么没人愿意干
多供应商路由的工程成本太高了。你得注册 Anthropic、OpenAI、Google 三家,管三把 API 钥匙,学三种请求格式(相似但不相同),写路由逻辑,处理某家宕机时的降级,还要在三个账单后台来回切。
副业项目没人愿意搞这个。大公司也一样——选一家供应商,接受多付的钱,因为省下来的 API 费用抵不上工程师的时间成本。
我最初也是这么想的,直到月账单突破200刀才开始动手。
智能路由长什么样
我的解法是先分类、再分流。分类器扫描每条请求的多个信号:长度、是否含代码、要不要分析推理、有没有系统提示词、对话深度多少。
基于这些信号,请求被打上四类标签之一,然后扔进对应的价格桶。简单任务去 Gemini Flash 或 Claude Haiku,复杂推理留给 Sonnet 或 GPT-4o。
这套东西后来变成了一个产品。但核心逻辑其实不复杂——难点在于把"不复杂"的事情做得足够省事,让开发者愿意从"一个模型走天下"的舒适区里出来。
成本优化这件事,行业喊了三年,真正动手的人没几个。是技术门槛太高,还是省钱的动力不够强?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.