200多个新闻网站,21年技术债务,18个月接入OpenAI、Anthropic、Google、DeepSeek、Groq、Mistral六家大模型——这不是技术演示,是土耳其一个CMS团队的真实生产环境。
他们没写PPT,只写能跑的代码。核心就两件事:任务该派给谁,以及一家挂了怎么办。
![]()
先说钱。GPT-4o输入token要价2.5美元/百万,Gemini Flash只要0.075美元——差33倍。一篇简单摘要用不着GPT-4o的推理能力,硬上就是烧钱。他们的解法叫"cascade routing":给任务分级,便宜够用的先上,不行再换贵的。
![]()
代码里枚举了六种任务类型:简单摘要、标题建议、SEO元数据、内容生成、事实核查、翻译。每种任务配一个模型优先级队列。摘要任务先走Groq的Llama 3.1 70B,挂了或质量不达标就换Gemini Flash。事实核查只能走Claude Sonnet,准确度不容妥协。
2024到2025年OpenAI多次宕机,纯绑GPT-4的网站直接停摆。他们的系统默默切到Claude或Gemini,用户无感知。这是多供应商架构的硬价值——不是"最好"的模型,是"能用"的模型在关键时刻救场。
每个供应商SDK、请求格式、错误码都不一样。他们包了一层抽象层,路由代码只认TaskType和modelId,底层谁来实现不关心。质量门控(QualityGate)是最后防线:模型返回了,但得验收过线才算数。
![]()
这套东西跑在PHP 8.2上。不是追新,是21年的老系统动不了。他们用严格类型和只读属性,让 legacy code 勉强跟上现代节奏。
最终数字:推理成本压降约95%,质量没掉。秘诀不是某个黑科技,是把"该用谁"的判断权从程序员手里交给代码——按任务、按成本、按可用性实时决策。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.