训练是一次性投资,推理是永久性驻留——这个区别被大多数AI成本讨论刻意回避了。AI基础设施预算的叙事已经转变:不是从"便宜"到"昂贵",而是从"事件"到"常态"。训练有终点线,推理稳态没有。每个部署的模型都会持续占用计算资源、服务基础设施和运营开销,只要应用还在运行,成本时钟就永不停止。与传统云工作负载不同,推理不存在自然降低支出的空闲状态。
这在架构层面至关重要,因为它改变了治理对象。有界工作负载的优化杠杆是效率,永久性驻留工作负载的优化杠杆是权限——谁决定什么占据基础设施、以何种条件、承担何种责任。这是完全不同的治理问题。
![]()
推理稳态不是阶段,而是新基线
模型一旦投产,就永久占用基础设施。端点保持温热,因为冷启动延迟会违反服务等级目标(SLO)。并发余量必须提前预留。路由层、令牌缓存、回退模型和可观测性管道与主服务路径并行持续运行。
推理稳态是AI工作负载在任何时候所需的最低可行基础设施占用——不是平均值,不是峰值,而是无法在SLA承诺范围内运营的底线。随着采用率增长,这条底线向上扩展,几乎从不回落。
请求是信号,驻留是成本。
推理支出为何不会自然衰减
传统云成本指导假设工作负载存在空闲状态。推理以四种独立方式打破这一假设:
延迟SLO强制要求温热容量。在请求之间保持容量温热是有意的架构选择,而非优化失败。AI推理执行预算问题由此衍生——你无法在一个被设计为永不空闲的系统上强制执行运行时成本限制。
需求随采用率扩展。推理支出不会衰减——它随产品成功而阶梯式上升。
模型增殖速度快于退役速度。旧模型很少完全退出环境——金丝雀流量、回退路由和合规要求使其以缩减容量保持温热。
金丝雀部署使临时驻留翻倍。在规模上,多个模型的金丝雀占用合计成为服务支出的永久性比例。
⚠ 常见错误:将推理成本视为使用优化问题。温热容量是使SLA可实现的机制——针对它进行优化会在降低支出之前先损害可靠性。
持久推理驻留栈
三层。三个所有者。无共享优化面。
第一层——计算驻留。团队以为的:GPU支出。实际发生的:并发预留。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.