网易首页 > 网易号 > 正文 申请入驻

为什么ChatGPT的第一个字总是慢半拍

0
分享至

你有没有注意到这个现象:每次打开ChatGPT或Claude,输入问题后,总要等上一小会儿,屏幕上才蹦出第一个字。但紧接着,后面的文字就像开了闸一样哗哗往外涌,速度快得几乎跟不上。

这不是网络卡顿,也不是服务器抽风。背后是一个叫KV缓存的工程决策,专门用来让大模型推理变快。


要理解它为什么有效,得先从Transformer生成文本的基本原理说起。

模型是怎么"一个字一个字"往外蹦的

Transformer处理输入时,会给每个词都算出一个隐藏状态。这些隐藏状态再被投影到词汇表空间,变成一组分数——每个词一个分,叫logits。但模型只关心最后一个词的分数,从中采样出下一个词,把它拼回输入末尾,再重复整个过程。

关键洞察就在这里:要生成下一个词,其实只需要最新那个词的隐藏状态。其他所有隐藏状态都是中间产物,用一次就扔。

注意力机制到底在算什么

在Transformer的每一层里,每个词都会被拆成三个向量:查询向量Q、键向量K、值向量V。注意力机制用Q去点乘所有的K,得到注意力分数,再用这些分数给所有的V加权求和。

现在只看最后一个词。它的注意力计算需要:它自己的Q向量,以及序列中所有词的K和V向量。最终输出的隐藏状态,用的也是同样的配方——最新Q,加上全部K和V。

这意味着,要算出我们唯一需要的那个隐藏状态,每一层注意力都只需要:最新token的Q,以及所有历史token的K和V。

没有缓存时,算力是怎么被浪费的

生成第50个token时,模型需要token 1到50的K和V。生成第51个token时,需要token 1到51的K和V。问题在于,token 1到49的K和V早就算过了,输入没变,输出也不会变,但模型每次都从头重算一遍。

这是每步O(n)的冗余计算,整段生成下来就是O(n²)的浪费。

KV缓存的做法很简单:算过的K和V存起来,别扔。下次直接用新的Q去查全表,只算新增的那一个K和一个V,其余从内存里取。

注意力计算本身还是要遍历整个序列长度,但昂贵的K、V投影操作每个token只做一次,而不是每步都重做。

为什么第一个字特别慢

现在你能理解那个初始延迟了。当你发送提示词,模型要在一轮前向传播里处理完整输入,为每个token计算并缓存K和V。这叫预填充阶段,是整个请求中最吃算力的部分。

缓存 warmed up 之后,每个后续token只需要单token的单轮前向传播。那个让人抓狂的等待时间,就叫首token时间(TTFT)。提示词越长,预填充越久,等得越久。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你坐火车有过哪些奇葩经历?网友:怪自己那时候太单纯!

你坐火车有过哪些奇葩经历?网友:怪自己那时候太单纯!

夜深爱杂谈
2025-12-21 17:37:52
赵露思演唱会妆造惊艳,原想吐槽却赞叹不已

赵露思演唱会妆造惊艳,原想吐槽却赞叹不已

萧狡科普解说
2026-05-11 03:56:37
Shams:勇士将在休赛期寻找一名明星球员来与库里搭档

Shams:勇士将在休赛期寻找一名明星球员来与库里搭档

懂球帝
2026-05-10 23:08:33
盲人女孩盲道上被电动车撞倒,肇事男子竟质问:“不看路啊”……最新消息

盲人女孩盲道上被电动车撞倒,肇事男子竟质问:“不看路啊”……最新消息

大风新闻
2026-05-10 20:42:04
长得太美被导演占为己有,25岁生下3个孩子,如今个个都给她争光

长得太美被导演占为己有,25岁生下3个孩子,如今个个都给她争光

揽星河的笔记
2026-05-07 20:18:36
两性关系:55-65岁这十年,惜命最好的方式,不是锻炼,而是这6点

两性关系:55-65岁这十年,惜命最好的方式,不是锻炼,而是这6点

周哥一影视
2026-04-17 06:45:59
电商白嫖党新套路,直播穿完就退货,商家血亏还帮洗衣服

电商白嫖党新套路,直播穿完就退货,商家血亏还帮洗衣服

燕梳楼频道
2026-05-09 21:42:19
高市早苗表情管理又崩了:与澳大利亚总理同行时,突然张大嘴巴!

高市早苗表情管理又崩了:与澳大利亚总理同行时,突然张大嘴巴!

阿龙聊军事
2026-05-09 19:23:40
张柏芝母亲节晒母子4人照,8岁三胎儿子出镜,小眼睛却很帅气

张柏芝母亲节晒母子4人照,8岁三胎儿子出镜,小眼睛却很帅气

湘潭市律师协会
2026-05-10 19:54:56
活力四射积极性十足,湖人到了下赛季应该重用这位侧翼新秀?

活力四射积极性十足,湖人到了下赛季应该重用这位侧翼新秀?

稻谷与小麦
2026-05-10 22:46:03
张嘉益新剧《主角》第一波真实口碑出炉!观众的评价一针见血

张嘉益新剧《主角》第一波真实口碑出炉!观众的评价一针见血

晴晴的娱乐日记
2026-05-10 21:53:39
国乒3-2绝杀日本夺冠!140万奖金全归队员,教练一分不拿?

国乒3-2绝杀日本夺冠!140万奖金全归队员,教练一分不拿?

衔春信
2026-05-11 03:15:27
农村彩钢瓦大整治铺开!村干部天天连轴转,老百姓别再硬扛观望了

农村彩钢瓦大整治铺开!村干部天天连轴转,老百姓别再硬扛观望了

芳姐侃社会
2026-05-09 17:15:10
上海地铁两老太撕扯女孩后续:官方介入,更多细节曝光

上海地铁两老太撕扯女孩后续:官方介入,更多细节曝光

千言娱乐记
2026-05-10 14:55:09
冯绍峰没撒谎!消失3个月,曝光率下降的赵丽颖,证实了他的评价

冯绍峰没撒谎!消失3个月,曝光率下降的赵丽颖,证实了他的评价

阿伧说事
2026-05-10 15:30:49
我跟女同事开玩笑:嫁给我年终奖归你,下班被总裁叫住:女婿站住

我跟女同事开玩笑:嫁给我年终奖归你,下班被总裁叫住:女婿站住

千秋文化
2026-05-08 19:43:24
马筱梅心寒不是没道理!玥儿开账号只关注徐家人,继子女这态度换谁不难受

马筱梅心寒不是没道理!玥儿开账号只关注徐家人,继子女这态度换谁不难受

乡野小珥
2026-05-11 01:51:49
1-3!大连防线太渣了!海牛豪取四连胜,配拿3分,但裁判太逆天了

1-3!大连防线太渣了!海牛豪取四连胜,配拿3分,但裁判太逆天了

刀锋体育
2026-05-10 22:15:41
江苏省“点名批评”的4所大学!毕业证含金量很低,学生提高警惕

江苏省“点名批评”的4所大学!毕业证含金量很低,学生提高警惕

花语轻吟
2026-05-10 21:23:28
1970年,老布什与他的四个儿子同框,四个儿子都非常的阳光帅气。

1970年,老布什与他的四个儿子同框,四个儿子都非常的阳光帅气。

东方不败然多多
2026-05-10 20:09:20
2026-05-11 06:00:49
野生运营
野生运营
懂点产品,懂点AI,正在努力给平淡日子搞点新花样。
2456文章数 33关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

王楚钦助男乒12连冠+生日捧杯:球迷陪伴是最好礼物

头条要闻

王楚钦助男乒12连冠+生日捧杯:球迷陪伴是最好礼物

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

健康
房产
教育
公开课
军事航空

干细胞能让人“返老还童”吗

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

教育要闻

男孩为了拼中考体育满分,每天坚持猛跑1小时,却把骨头跑断了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗革命卫队深夜警告

无障碍浏览 进入关怀版