OpenAI把延迟藏了2年，用户测完集体破防|谷歌|labs|电子表格|知名企业|token|openai

OpenAI把延迟藏了2年，用户测完集体破防

2026-04-03 21:06:06　来源: 爬虫饲养员

北京举报

分享至

你的AI助手回复慢，可能不是模型变笨了，而是有人在中间"抽成"了47%的响应时间。

这是AI基础设施公司Modal Labs最近放出的实测数据。他们用同一套代码测试了OpenAI、Anthropic和Google的API，发现了一个被行业默认却没人说破的潜规则：模型推理只占总延迟的53%，剩下近一半时间耗在预处理、调度和网络传输上。

Modal Labs实测：延迟拆解

Modal Labs的工程师Eric Zhang在博客中详细记录了测试方法。他们用Llama 3.1 70B模型，输入8000个token，输出1000个token，在相同硬件环境下对比了不同服务商的表现。

结果让人意外。OpenAI的GPT-4o虽然模型推理速度最快，但端到端延迟却输给了部分开源方案。差距出在哪？Modal Labs把延迟拆解成五个环节：token化（Tokenization）、调度排队、网络传输、模型推理、流式输出。其中token化和调度排队这两个"隐形环节"，在某些服务商那里能吃掉30%以上的时间。

「很多人以为买更快的GPU就能解决问题，」Eric Zhang写道，「但瓶颈往往出现在模型之前。」

更讽刺的是，这些预处理延迟对用户完全不可见。你看到的"思考中"动画，掩盖的是一套复杂的资源调度逻辑——而这套逻辑的设计优先级，未必是你的体验。

为什么大厂不愿优化？

Modal Labs的测试揭示了一个结构性矛盾。云服务商的API架构是为"吞吐量"优化的，不是为"延迟"优化的。

简单说，他们更愿意让100个用户各等100毫秒，也不愿让1个用户等10毫秒。这种批量处理策略能最大化GPU利用率，降低单位成本，但代价是每个用户的响应都被"摊薄"了。

Anthropic的Claude 3.5 Sonnet在这方面表现稍好，但Modal Labs指出，其优势主要来自更激进的流式输出策略——还没算完就往外吐字，让用户"感觉"更快。这种心理 trick 被行业广泛采用，但掩盖不了底层架构的臃肿。

Google的Gemini 1.5 Pro则是另一个极端。它的预处理管道最复杂，支持多模态输入的代价是token化时间显著增加。Modal Labs的数据显示，处理同样长度的文本，Gemini的token化耗时是OpenAI的1.8倍。

开源方案的"偷袭"

Modal Labs自己是一家Serverless GPU平台，立场不算中立。但他们的测试方法开源了，任何人可以复现。

真正有意思的是对比组：用vLLM（开源推理引擎）+ Modal的Serverless基础设施，端到端延迟比OpenAI官方API快40%。秘诀不是模型更快，而是砍掉了多余的调度层。

「大厂的多租户架构像高峰期地铁，」Eric Zhang打了个比方，「你得等、得挤、得换乘。我们做的是专车，点对点。」

这个比喻背后是一个更尖锐的问题：当AI能力 commoditize（商品化）之后，延迟会不会成为下一个战场？

Modal Labs显然在押注这个方向。他们刚发布了新的推理优化框架，主打"首token延迟<50毫秒"——这个数字是GPT-4o的三分之一。

用户能做什么？

对普通开发者来说，Modal Labs的测试至少提供了两个 actionable 的 insight。

第一，别只看模型 benchmarks 里的"推理速度"，端到端延迟才是真实体验。很多评测把预处理时间算进"网络开销"，实际上这是服务商可以优化的部分。

第二，流式输出（Streaming）的"感觉快"不等于真的快。Modal Labs建议用"time to first token"（首token时间）和"inter-token latency"（token间延迟）两个指标分开测，能拆穿不少营销话术。

更激进的选项是绕过API直接用开源模型。但这里有个陷阱：自托管的隐性成本——运维、扩缩容、故障恢复——Modal Labs自己也不讳言，Serverless模式省的是"操心"，不只是钱。

「我们测了17种配置，」Eric Zhang在文末说，「最快的方案往往不是名气最大的那个。」

Modal Labs把完整测试代码和原始数据都开源在了GitHub上。他们留下了一个没回答的问题：如果OpenAI明天把预处理延迟砍掉一半，现在的API定价还站得住脚吗？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.