网易首页 > 网易号 > 正文 申请入驻

大模型“降智”真相,找到了

0
分享至


智东西
作者 陈骏达
编辑 云鹏

智东西4月30日报道,今天,智谱发布了一篇名为《Scaling Pain:超大规模Coding Agent推理实践》的技术报告,披露了GLM-5系列模型在Coding Agent场景下遇到的推理基础设施挑战与对应解法。

报告透露,在每日数亿次Coding Agent调用压力下,部分用户遭遇了GLM-5系列模型乱码、复读和生僻字等异常,这些现象在表面上与长上下文场景下常见的“降智”相似,但智谱并未进行降低模型精度的优化,相关问题主要由高并发、长上下文的极端条件触发。

通过数周排查,智谱锁定了两个底层竞态问题:PD分离架构下的KV Cache异步Abort引发显存写入冲突,以及HiCache加载流水线缺少同步约束导致“数据未就绪即被读取”。针对性修复后,相关异常发生率从约万分之十几降至万分之三以下。

报告还公开了智谱自研的KV Cache分层存储方案LayerSplit,在Context Parallel场景下将单卡KV Cache显存压力大幅降低,实测系统吞吐提升10%至132%,且上下文越长收益越大。

一、本地无法复现,高压才露头:投机采样指标成“照妖镜”

从今年3月起,智谱GLM-5出现了三类异常:乱码、复读、生僻字。排查初期,智谱对线上异常案例做了本地回放,但未能复现,说明大概率不是模型问题。进一步模拟线上高压环境后,在每万次请求中稳定复现3-5次异常。这种“与内容无关、与压力相关的特征”,将问题指向高负载下的推理状态管理。

三类异常中,复读较易检测,乱码和生僻字则难以用正则或模型判别高效覆盖。分析推理日志后,智谱发现投机采样指标可作为重要参考:

投机采样本为性能优化而设计:草稿模型生成draft token,目标模型校验后决定是否接受,并记录spec_accept_length与spec_accept_rate,从而在不改变最终输出分布的前提下提升解码效率。

针对乱码/生僻字问题,智谱发现spec_accept_length极低,draft token几乎全被拒绝,表明KV Cache状态存在显著偏差。

针对复读问题,智谱发现spec_accept_rate偏高,损坏的KV Cache使注意力退化,陷入重复循环。

据此,智谱团队建立了在线监控策略。将投机采样从一项单纯的性能优化技术,拓展为质量监控信号。

二、锁定时序漏洞,两个竞态Bug如何导致输出异常

定位问题后,智谱进一步分析其原因。通过对请求生命周期以及推理引擎中PD分离执行时序的分析,智谱发现该问题源于请求生命周期与KV Cache回收与复用时序之间的不一致,从而引发的KV Cache复用冲突。


为消除上述问题,智谱在推理引擎中引入了更严格的时序约束,在请求终止与KV Cache写入完成之间建立显式同步关系。

这一问题的具体修复方案是在Decode触发Abort后通知Prefill侧,仅在RDMA未开始或已完成时才允许回收复用,确保KV写入不跨越显存复用边界。修复后,异常发生率从万分之十几降至万分之三以下。

智谱面临的第二个bug与Coding Agent场景的特性有关。Coding Agent场景输入长、前缀复用率高,HiCache成为关键优化。但KV Cache换入与计算重叠执行时,未保证数据加载完成后再使用。

为修复这一问题,智谱在Indexer算子启动前引入同步点,确保数据就绪后才启动计算。修复后,相关问题完全消失,相关修复已提交至SGLang社区。


三、Prefill吞吐成瓶颈,LayerSplit让吞吐最高涨132%

上述两个问题揭示了一个共同的系统瓶颈:在长上下文的Coding Agent服务场景中,Prefill阶段主导了系统性能。修复状态一致性问题后,核心挑战回归瓶颈本身,也就是如何提升Prefill吞吐、降低KV Cache显存占用。为此,智谱团队设计并实现了KV Cache分层存储方案LayerSplit。

Coding Agent负载具有上下文长、Prefix Cache命中率高的特征,使得Context Parallel(CP,上下文并行)成为Prefill节点的主要并行策略。然而,SGLang开源实现中每张GPU保存全部层的KV Cache,冗余存储导致显存容量成为计算资源利用率的瓶颈。

LayerSplit方案的核心思路是:每张GPU仅持有部分层的KV Cache,从而显著降低单卡显存占用。计算时,持有某一层Cache的CP rank会在Attention计算前将其广播给其他rank。


为进一步减少开销,智谱设计了KV Cache广播与Indexer计算的重叠机制,使二者在时间上相互掩盖。整个流程仅额外引入约为KV Cache体量1/8的Indexer Cache广播,通信成本对性能影响可忽略。

实验结果表明,在Cache命中率90%的条件下,请求长度从40k到120k区间内,系统吞吐量提升幅度在10%至132%之间,且上下文越长收益越显著。


该优化从架构层面缓解了Prefill侧的显存瓶颈,与此前两项BugFix共同构成了一套完整的推理基础设施优化方案,提升了智谱GLM-5在Coding Agent场景下的服务能力。

结语:输出质量成高并发长上下文场景新痛点

高并发长上下文场景下,推理基础设施的挑战已不止于吞吐和延迟,输出质量同样不可忽视。智谱此次公开的技术细节,从异常识别方法、两个竞态Bug的定位与修复,到LayerSplit显存优化,构成了一套相对完整的排查与优化链路。

对于同样在大规模部署推理服务的团队而言,这份报告在故障复现、指标选型、架构层面的时序一致性等方面提供了可参考的实践经验。智谱将这些经验公开分享,客观上为社区填补了部分长上下文推理场景下的工程资料空白。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
券商暴雷 19只ST 7只退市

券商暴雷 19只ST 7只退市

趋势巡航
2026-04-30 06:48:52
郑丽文官宣访美言论翻车?国台办回应绝了,国民党高层清醒一点!

郑丽文官宣访美言论翻车?国台办回应绝了,国民党高层清醒一点!

阅微札记
2026-04-30 16:52:55
孩子脱臼复位只收100元,家长举报乱收费!卫健委:应收110元,你还少给了!家长拒缴费后离开!

孩子脱臼复位只收100元,家长举报乱收费!卫健委:应收110元,你还少给了!家长拒缴费后离开!

医脉圈
2026-04-25 20:04:06
随着中国新星吴宜泽13-8晋级,斯诺克世锦赛4强已经诞生3席

随着中国新星吴宜泽13-8晋级,斯诺克世锦赛4强已经诞生3席

侧身凌空斩
2026-04-30 04:24:21
俞敏洪回应东方甄选股权授予:从东方甄选成立到今天,没领一分钱工资;未来股权兑现后会用在设立董事长奖励基金、捐献一部分给北大等方面

俞敏洪回应东方甄选股权授予:从东方甄选成立到今天,没领一分钱工资;未来股权兑现后会用在设立董事长奖励基金、捐献一部分给北大等方面

鲁中晨报
2026-04-30 15:35:02
花掉三亿人民币,打捞一艘800年沉船,打开船舱后,所有人都懵了

花掉三亿人民币,打捞一艘800年沉船,打开船舱后,所有人都懵了

海佑讲史
2026-04-30 17:15:12
俞敏洪发文:东方甄选成立后“没领过一分钱工资”

俞敏洪发文:东方甄选成立后“没领过一分钱工资”

第一财经资讯
2026-04-30 16:51:12
广东3消息!陈老板发表讲话,徐杰深夜发声,徐昕与少东家握手

广东3消息!陈老板发表讲话,徐杰深夜发声,徐昕与少东家握手

多特体育说
2026-04-29 23:35:23
吕后刚死吕家就被屠尽?毛泽东点破:没把握的权力,终是取死之道

吕后刚死吕家就被屠尽?毛泽东点破:没把握的权力,终是取死之道

掠影后有感
2026-04-30 09:29:54
初中的几个潜规则:初一成绩就中下,甚至倒数的,基本跟高中无缘

初中的几个潜规则:初一成绩就中下,甚至倒数的,基本跟高中无缘

好爸育儿
2026-04-20 15:00:49
你应该知道的第二次鸦片战争全过程

你应该知道的第二次鸦片战争全过程

梨花头
2026-04-29 08:41:23
南方航空:拟以约213.78亿美元购买137架A320NEO系列飞机

南方航空:拟以约213.78亿美元购买137架A320NEO系列飞机

界面新闻
2026-04-29 20:50:53
葛卫东一季度调仓曝光:清仓撤退消费赛道,全面押注硬科技成长

葛卫东一季度调仓曝光:清仓撤退消费赛道,全面押注硬科技成长

新浪财经
2026-04-30 03:07:23
特朗普“百亿补贴”,目的只有一个,不让解放军杀穿西太龙入大海

特朗普“百亿补贴”,目的只有一个,不让解放军杀穿西太龙入大海

阿芒娱乐说
2026-04-30 08:45:48
第一夫人扛不住了!布丽吉特开口谈婚姻:9年没有正常夫妻生活

第一夫人扛不住了!布丽吉特开口谈婚姻:9年没有正常夫妻生活

白露文娱志
2026-04-29 14:05:20
她凭一己之力,把吴某凡送进监狱,没想到如今也栽了,不值得同情

她凭一己之力,把吴某凡送进监狱,没想到如今也栽了,不值得同情

林轻吟
2026-04-27 07:43:11
尹子维的母亲曾是邵氏的顶级花旦,惊为天人的美貌,美得让人窒息

尹子维的母亲曾是邵氏的顶级花旦,惊为天人的美貌,美得让人窒息

上官晚安
2026-04-21 08:56:51
为何美国现在要拼命围攻中国?5年后,中国将不再忌惮任何国家!

为何美国现在要拼命围攻中国?5年后,中国将不再忌惮任何国家!

奥利奥变薄了的
2026-04-29 19:53:34
你在无意中发现别人什么秘密?网友爆料,电视剧都不敢这样演

你在无意中发现别人什么秘密?网友爆料,电视剧都不敢这样演

夜深爱杂谈
2026-03-16 22:21:03
中超第9轮,上海申花-成都蓉城,前瞻:金身不破

中超第9轮,上海申花-成都蓉城,前瞻:金身不破

足坛超短波
2026-04-30 10:35:16
2026-04-30 17:59:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11735文章数 117058关注度
往期回顾 全部

科技要闻

四巨头财报齐发:AI已经不只是风口

头条要闻

媒体:打了9周烧了250亿 特朗普现在要“窒息”伊朗

头条要闻

媒体:打了9周烧了250亿 特朗普现在要“窒息”伊朗

体育要闻

季后赛场均5.4分,他凭啥在骑士打首发?

娱乐要闻

孙杨博士学历有问题?官方含糊其辞

财经要闻

易会满被“双开”!

汽车要闻

专访捷途汪如生:捷途双线作战 全球化全面落地

态度原创

亲子
艺术
教育
游戏
手机

亲子要闻

刚出生的宝宝第一次睁眼,瞬间心都融化了

艺术要闻

安东·爱德华·基尔德鲁普:19世纪丹麦风景画家

教育要闻

5月5日!南京一中国际部与你一见“中”情

不坑国人!国产影游国区全球最低价 美区竟贵6倍

手机要闻

黑鲨冰封制冷背夹6 Pro/Max散热器新增《凡人修仙传》联名版本

无障碍浏览 进入关怀版