![]()
你的AI助手回复慢,可能不是模型变笨了,而是有人在中间"抽成"了47%的响应时间。
这是AI基础设施公司Modal Labs最近放出的实测数据。他们用同一套代码测试了OpenAI、Anthropic和Google的API,发现了一个被行业默认却没人说破的潜规则:模型推理只占总延迟的53%,剩下近一半时间耗在预处理、调度和网络传输上。
Modal Labs实测:延迟拆解
Modal Labs的工程师Eric Zhang在博客中详细记录了测试方法。他们用Llama 3.1 70B模型,输入8000个token,输出1000个token,在相同硬件环境下对比了不同服务商的表现。
结果让人意外。OpenAI的GPT-4o虽然模型推理速度最快,但端到端延迟却输给了部分开源方案。差距出在哪?Modal Labs把延迟拆解成五个环节:token化(Tokenization)、调度排队、网络传输、模型推理、流式输出。其中token化和调度排队这两个"隐形环节",在某些服务商那里能吃掉30%以上的时间。
「很多人以为买更快的GPU就能解决问题,」Eric Zhang写道,「但瓶颈往往出现在模型之前。」
更讽刺的是,这些预处理延迟对用户完全不可见。你看到的"思考中"动画,掩盖的是一套复杂的资源调度逻辑——而这套逻辑的设计优先级,未必是你的体验。
为什么大厂不愿优化?
Modal Labs的测试揭示了一个结构性矛盾。云服务商的API架构是为"吞吐量"优化的,不是为"延迟"优化的。
简单说,他们更愿意让100个用户各等100毫秒,也不愿让1个用户等10毫秒。这种批量处理策略能最大化GPU利用率,降低单位成本,但代价是每个用户的响应都被"摊薄"了。
Anthropic的Claude 3.5 Sonnet在这方面表现稍好,但Modal Labs指出,其优势主要来自更激进的流式输出策略——还没算完就往外吐字,让用户"感觉"更快。这种心理 trick 被行业广泛采用,但掩盖不了底层架构的臃肿。
Google的Gemini 1.5 Pro则是另一个极端。它的预处理管道最复杂,支持多模态输入的代价是token化时间显著增加。Modal Labs的数据显示,处理同样长度的文本,Gemini的token化耗时是OpenAI的1.8倍。
开源方案的"偷袭"
Modal Labs自己是一家Serverless GPU平台,立场不算中立。但他们的测试方法开源了,任何人可以复现。
真正有意思的是对比组:用vLLM(开源推理引擎)+ Modal的Serverless基础设施,端到端延迟比OpenAI官方API快40%。秘诀不是模型更快,而是砍掉了多余的调度层。
「大厂的多租户架构像高峰期地铁,」Eric Zhang打了个比方,「你得等、得挤、得换乘。我们做的是专车,点对点。」
这个比喻背后是一个更尖锐的问题:当AI能力 commoditize(商品化)之后,延迟会不会成为下一个战场?
Modal Labs显然在押注这个方向。他们刚发布了新的推理优化框架,主打"首token延迟<50毫秒"——这个数字是GPT-4o的三分之一。
用户能做什么?
对普通开发者来说,Modal Labs的测试至少提供了两个 actionable 的 insight。
第一,别只看模型 benchmarks 里的"推理速度",端到端延迟才是真实体验。很多评测把预处理时间算进"网络开销",实际上这是服务商可以优化的部分。
第二,流式输出(Streaming)的"感觉快"不等于真的快。Modal Labs建议用"time to first token"(首token时间)和"inter-token latency"(token间延迟)两个指标分开测,能拆穿不少营销话术。
更激进的选项是绕过API直接用开源模型。但这里有个陷阱:自托管的隐性成本——运维、扩缩容、故障恢复——Modal Labs自己也不讳言,Serverless模式省的是"操心",不只是钱。
「我们测了17种配置,」Eric Zhang在文末说,「最快的方案往往不是名气最大的那个。」
Modal Labs把完整测试代码和原始数据都开源在了GitHub上。他们留下了一个没回答的问题:如果OpenAI明天把预处理延迟砍掉一半,现在的API定价还站得住脚吗?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.