网易首页 > 网易号 > 正文 申请入驻

OpenAI把延迟藏了2年,用户测完集体破防

0
分享至


你的AI助手回复慢,可能不是模型变笨了,而是有人在中间"抽成"了47%的响应时间。

这是AI基础设施公司Modal Labs最近放出的实测数据。他们用同一套代码测试了OpenAI、Anthropic和Google的API,发现了一个被行业默认却没人说破的潜规则:模型推理只占总延迟的53%,剩下近一半时间耗在预处理、调度和网络传输上

Modal Labs实测:延迟拆解

Modal Labs的工程师Eric Zhang在博客中详细记录了测试方法。他们用Llama 3.1 70B模型,输入8000个token,输出1000个token,在相同硬件环境下对比了不同服务商的表现。

结果让人意外。OpenAI的GPT-4o虽然模型推理速度最快,但端到端延迟却输给了部分开源方案。差距出在哪?Modal Labs把延迟拆解成五个环节:token化(Tokenization)、调度排队、网络传输、模型推理、流式输出。其中token化和调度排队这两个"隐形环节",在某些服务商那里能吃掉30%以上的时间

「很多人以为买更快的GPU就能解决问题,」Eric Zhang写道,「但瓶颈往往出现在模型之前。」

更讽刺的是,这些预处理延迟对用户完全不可见。你看到的"思考中"动画,掩盖的是一套复杂的资源调度逻辑——而这套逻辑的设计优先级,未必是你的体验。

为什么大厂不愿优化?

Modal Labs的测试揭示了一个结构性矛盾。云服务商的API架构是为"吞吐量"优化的,不是为"延迟"优化的。

简单说,他们更愿意让100个用户各等100毫秒,也不愿让1个用户等10毫秒。这种批量处理策略能最大化GPU利用率,降低单位成本,但代价是每个用户的响应都被"摊薄"了。

Anthropic的Claude 3.5 Sonnet在这方面表现稍好,但Modal Labs指出,其优势主要来自更激进的流式输出策略——还没算完就往外吐字,让用户"感觉"更快。这种心理 trick 被行业广泛采用,但掩盖不了底层架构的臃肿。

Google的Gemini 1.5 Pro则是另一个极端。它的预处理管道最复杂,支持多模态输入的代价是token化时间显著增加。Modal Labs的数据显示,处理同样长度的文本,Gemini的token化耗时是OpenAI的1.8倍。

开源方案的"偷袭"

Modal Labs自己是一家Serverless GPU平台,立场不算中立。但他们的测试方法开源了,任何人可以复现。

真正有意思的是对比组:用vLLM(开源推理引擎)+ Modal的Serverless基础设施,端到端延迟比OpenAI官方API快40%。秘诀不是模型更快,而是砍掉了多余的调度层。

「大厂的多租户架构像高峰期地铁,」Eric Zhang打了个比方,「你得等、得挤、得换乘。我们做的是专车,点对点。」

这个比喻背后是一个更尖锐的问题:当AI能力 commoditize(商品化)之后,延迟会不会成为下一个战场?

Modal Labs显然在押注这个方向。他们刚发布了新的推理优化框架,主打"首token延迟<50毫秒"——这个数字是GPT-4o的三分之一。

用户能做什么?

对普通开发者来说,Modal Labs的测试至少提供了两个 actionable 的 insight。

第一,别只看模型 benchmarks 里的"推理速度",端到端延迟才是真实体验。很多评测把预处理时间算进"网络开销",实际上这是服务商可以优化的部分。

第二,流式输出(Streaming)的"感觉快"不等于真的快。Modal Labs建议用"time to first token"(首token时间)和"inter-token latency"(token间延迟)两个指标分开测,能拆穿不少营销话术。

更激进的选项是绕过API直接用开源模型。但这里有个陷阱:自托管的隐性成本——运维、扩缩容、故障恢复——Modal Labs自己也不讳言,Serverless模式省的是"操心",不只是钱。

「我们测了17种配置,」Eric Zhang在文末说,「最快的方案往往不是名气最大的那个。」

Modal Labs把完整测试代码和原始数据都开源在了GitHub上。他们留下了一个没回答的问题:如果OpenAI明天把预处理延迟砍掉一半,现在的API定价还站得住脚吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
CBA开重磅罚单,广厦再收坏消息,弃用孙铭徽才能逆转

CBA开重磅罚单,广厦再收坏消息,弃用孙铭徽才能逆转

宗介说体育
2026-05-30 15:10:16
日本实施史上最大规模外汇干预行动

日本实施史上最大规模外汇干预行动

参考消息
2026-05-30 21:21:08
上市公司发公告就是在暗示散户该走还是该留。

上市公司发公告就是在暗示散户该走还是该留。

流苏晚晴
2026-05-09 18:41:02
这辈子发过最意想不到的横财是什么?网友:车被追尾,把我车买了

这辈子发过最意想不到的横财是什么?网友:车被追尾,把我车买了

夜深爱杂谈
2026-05-25 07:59:13
人口跌下第一神坛?二孩催生失灵后,国家终于向住房动真格了

人口跌下第一神坛?二孩催生失灵后,国家终于向住房动真格了

消费侠
2026-05-29 20:15:57
王鹤棣没想到,心中这口恶气竟让官媒给出了,沈月也能松口气

王鹤棣没想到,心中这口恶气竟让官媒给出了,沈月也能松口气

LULU生活家
2026-05-30 18:01:01
极狐S3购车手册,充电/换电共8款配置,推荐660 ULTRA 版

极狐S3购车手册,充电/换电共8款配置,推荐660 ULTRA 版

车文频道
2026-05-23 22:25:43
如果中国继续在俄乌冲突中中立,俄罗斯可能要 “重新考虑方向”

如果中国继续在俄乌冲突中中立,俄罗斯可能要 “重新考虑方向”

回京历史梦
2026-05-29 18:32:40
5月28日起,华为智驾未来最大的对手,可能不是小鹏、特斯拉了!

5月28日起,华为智驾未来最大的对手,可能不是小鹏、特斯拉了!

三农老历
2026-05-29 18:40:06
央八开播!又一20集黑马大剧来袭,演员阵容不错,值得期待!

央八开播!又一20集黑马大剧来袭,演员阵容不错,值得期待!

蓝莓影视推荐
2026-05-28 19:00:17
很快Here we go,罗马诺:伊劳拉将成为利物浦下一任主帅

很快Here we go,罗马诺:伊劳拉将成为利物浦下一任主帅

懂球帝
2026-05-30 20:11:03
1969年许世友为王近山求情,毛主席打趣:放虎归山,哪个军区敢要

1969年许世友为王近山求情,毛主席打趣:放虎归山,哪个军区敢要

磊子讲史
2026-05-26 18:56:24
有仇必报!策划发动阿克萨洪水行动的四名哈马斯高官全部被杀

有仇必报!策划发动阿克萨洪水行动的四名哈马斯高官全部被杀

高博新视野
2026-05-29 19:00:15
印度热炸了,震惊全球!

印度热炸了,震惊全球!

财经三分钟pro
2026-05-28 17:33:22
半场全程高能!VAR多次介入抢镜,申花西海岸连番上演争议场面

半场全程高能!VAR多次介入抢镜,申花西海岸连番上演争议场面

老牛体育解说
2026-05-31 02:15:25
A股:重磅传来,中央四部门联合发布!下周将要迎来更大的转变

A股:重磅传来,中央四部门联合发布!下周将要迎来更大的转变

虎哥闲聊
2026-05-30 10:48:41
人民日报公布“好碳水”清单!短短4周,衰老指标竟年轻4岁,肠道菌群或是关键

人民日报公布“好碳水”清单!短短4周,衰老指标竟年轻4岁,肠道菌群或是关键

肠菌科普
2026-05-28 07:03:00
看了新加坡媒体的披露,我才知道,中国已经没必要向世界证明什么

看了新加坡媒体的披露,我才知道,中国已经没必要向世界证明什么

触摸史迹
2026-03-21 02:58:06
起风了!金溥聪满盘皆输,陈凤馨指出多个端倪!连战方面或将出手

起风了!金溥聪满盘皆输,陈凤馨指出多个端倪!连战方面或将出手

究竟谁主沉浮
2026-05-31 01:27:26
最大的铁饭碗要碎了吗:转岗、超编、过剩......

最大的铁饭碗要碎了吗:转岗、超编、过剩......

黯泉
2026-05-29 15:10:09
2026-05-31 05:19:00
爬虫饲养员
爬虫饲养员
业余养了只叫“龙虾”的AI爬虫,主业是给互联网打工。
4234文章数 37关注度
往期回顾 全部

科技要闻

车圈大佬发声:价格战远去,但竞争仍残酷

头条要闻

两名9岁女孩被困电梯近2小时 求救几十次物业无动于衷

头条要闻

两名9岁女孩被困电梯近2小时 求救几十次物业无动于衷

体育要闻

巴黎再度捧起欧冠奖杯 枪手众将黯然神伤

娱乐要闻

张碧晨《歌手》 “活人微死” 自嘲

财经要闻

双汇管不住一头猪

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

教育
健康
艺术
公开课
军事航空

教育要闻

帕德逼近:导数中无敌般的存在

尝试干细胞疗法如何避免踩坑?

艺术要闻

非洲超级地标!全球最大足球场,持续推进!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美防长参加"香会" 就美中关系最新表态

无障碍浏览 进入关怀版