中国AI性价比奇高的秘密，被一篇博客捅破了|调用|算法|上下文|工作流|自然语言|token

分享至

五一假期后的第一个交易日，智谱和MiniMax都涨疯了。

5月4日，智谱涨超10%，股价再次逼近千元关口，MiniMax大涨12.62%，报收803港元。

根据摩根士丹利的报告，股价暴涨的原因来自于中国AI独有的“性价比叙事”。

摩根士丹利在报告《China‘s AI Path: More Bang For The Buck》中表示，在算力受到约束的前提下，中美顶尖模型的智能水平正在快速接近，差距已经收窄到3到6个月。

同时报告指出，中国模型真正突出的地方，是能以美国同行15%到20%的推理成本，实现接近同等水平的智能。

这句话其实很好理解。大家不一定需要用最强的模型，但绝大多数人都想用便宜的模型。

市场买的不是一个简单的“国产替代”故事，而是中国AI正在把性价比转化成真实调用量、真实收入和真实估值弹性。

但问题也随之而来，这种性价比到底从哪里来？

如果只是低价获客，那它很快会变成价格战。

如果只是模型蒸馏，可现在Anthropic、OpenAI等企业，均已关闭蒸馏的入口，那么评级不应该下降吗，怎么还调高了？

事实上，真正让这个叙事变得更有说服力的，是智谱在五一前发布的技术博客《Scaling Pain：超大规模Coding Agent推理实践》。

这篇博客没有讲宏大的AGI愿景，而是把KV Cache、吞吐、调度、异常输出这些底层工程摊开给市场看。

最主要的是，它把中国AI性价比背后的秘密，给“捅破了”。

在这篇博客里，智谱大概讲了怎么通过优化缓存、调度和异常监控，让同样的GPU能干更多活，出错更少。

智谱发现，AI不好用不一定是模型不聪明，也可能是后台运行系统太乱。它修掉了缓存串数据的问题，优化了GPU调度和缓存复用，还加了一个能提前发现异常输出的报警器。

结果就是，同样的模型、同样的GPU，可以服务更多用户，出错概率也更低。所以它的“性价比叙事”不是单纯降价，而是靠工程优化，把每张GPU榨出了更多稳定可用的算力。

经过底层工程优化，GLM-5系列在Coding Agent场景下的系统吞吐量最高提升132%，系统异常输出率从大约万分之10，下降到了万分之3。

比如原来一张GPU，它原先一小时能服务100个任务，现在经过优化后，最高可能服务232个任务。

每一项单独看，都不足以决定胜负。但叠在一起，就是同等算力下多出来的一倍吞吐，和一个数量级以上的稳定性提升。

模型没有变。变的是模型被“用起来”的方式。

具体来讲，自3月起，智谱在GLM-5的线上监控和用户反馈中观察到三类异常现象：乱码、复读、生僻字。这些现象在表面上与长上下文场景下常见的“降智”相似。

但智谱团队没有上线任何降低模型精度的优化。那异常究竟源于模型本身，还是源于推理链路？

在反复分析推理日志后，他们找到了一个意想不到的切入点：投机采样指标可以作为异常检测的参考信号。

投机采样原本只是一个性能优化技术。先由草稿模型生成候选token，再由目标模型校验并决定是否接受，从而在不改变最终输出分布的前提下提升解码效率。

就是让小模型先快速生成一批答案，大模型再挑选正确的，这样既快又准。

智谱团队发现，当异常发生时，投机采样的两个指标会呈现稳定模式。于是他们把投机采样从单纯的性能优化，扩展为输出质量的实时监控信号。

当spec_accept_length持续低于1.4且生成长度已超过128 token，或spec_accept_rate超过0.96时，系统主动中止当前生成，把请求交给负载均衡器重试。

这两个数字就像体检指标，一旦异常就说明模型“生病了”，需要重启治疗。

用户虽然感知不到这个过程，但是后台的确是完成了一次这样的重启。

异常的根因，是KV Cache复用冲突。

这就好比厨房，到了饭点的高峰期，很多人同时过来点单。

系统要临时保存每个用户的上下文，也就是KV Cache。这桌客人刚才点了什么、是要少放辣椒还是不吃香菜。一个两个客人还好，一旦客人多了，服务员就容易记错。

高并发时，某些缓存被回收、复用、读取的顺序乱了。结果模型拿错了上下文，就可能输出乱码、复读、生僻字。

在推理引擎中，PD分离架构下，请求生命周期与KV Cache回收与复用的时序之间存在不一致。并发压力一大，冲突就被放大，表现在用户端就是乱码和复读。

于是多个请求同时抢一块内存，结果数据乱了套，用户看到的就是乱码。

智谱团队定位了这个bug，也修复了它。

此外，他们还在主流开源推理框架SGLang的源代码层面发现并修复了HiCache模块的加载时序缺失问题，也就是read-before-ready。

修复方案通过Pull Request #22811提交给了SGLang社区，并被采纳。

SGLang是一个开源项目，全称可以理解为一种面向大语言模型的推理/服务框架。它不是一个大模型，也不是一家AI公司，而是一套让大模型高效运行的基础软件。

智谱在使用SGLang这套开源推理框架时，发现了一个高并发缓存bug。

它没有只在自己内部修，智谱还把修复代码提交给SGLang这个开源项目。

项目维护者审核后接受并合并。于是，这个修复进入了公共版本，其他使用SGLang的开发者和公司之后也可以用到。

这什么意思呢？

如果千问的某个部署链路用了SGLang+HiCache，那么阿里也会因为智谱发现并修复了这个问题而受益。

还是刚才说的那句话，模型是没有变的，但通过工程优化，让它在用起来的时候更聪明了。

智谱这篇博客真正戳破的，是一个更深的层次。

Chatbot时代的便宜，很大程度上来自训练成本低，一部分训练集来自对头部模型的蒸馏。

Agent时代，这招行不通了。

今年以来，Anthropic和OpenAI陆续关闭了蒸馏入口，明确禁止用其模型输出训练竞争模型。靠蒸馏取巧的路，越来越窄。

但中国AI公司的性价比叙事并没有弱下去，市场反而在为这个故事加码。

原因在于，性价比的定义已经变了。

Chatbot时代，平均上下文55K tokens，单次对话，低并发。

Agent时代，平均上下文70K+ tokens，长时间任务（8小时级），高并发、高前缀复用。

Chatbot时代，AI性价比的计量单位很简单。同样问一个问题，谁的模型更便宜，谁的回答更接近一线水平。

行业讨论的是每百万token多少钱、模型参数多大、榜单成绩高不高。

Agent时代，没人问这个，这套算法失效了。

用户买的不再是一句回答。他买的是一个完整任务的完成结果。

一个Coding Agent要读代码、理解上下文、规划步骤、调用工具、修改文件、跑测试、失败重试。它消耗的token不是一次问答的增量，而是一个工作流的总账。

OpenRouter作为全球最大的调用平台，它每周处理的token总量，从2026年1月第一周的6.4万亿，涨到2月9日当周的13万亿，一个月翻了一倍。

OpenRouter官方的说法是，100K到1M长文本区间的增量调用需求，正是agent工作流的典型消耗场景。

大家使用AI的模式，已经从“对话型”切换到了“流程型”。因此，AI性价比的单位，也从“token单价”变成了“任务单价”。

这就导致，有些模型它的token便宜，但是由于模型性能不行，进行任务的过程中总是失败，或者任务结果不达标，导致它的agent价格并不便宜。

比如说，一个8小时级别的Coding任务，中途只要乱码一次，整个工作流可能都要重来。节省下来的token单价，补不回浪费的时间。

中国AI的性价比叙事正在升级。

以前讲的是“输出相同水准的答案，我更便宜”。现在讲的是“同样复杂的任务，我能用更低成本跑完”。

开源基础设施也在成为中国AI的新护城河。

前文提到的SGLang就是如此。中国AI的工程能力，开始向上游社区辐射。

这件事的价值不只在于智谱修了一个bug，而在于中国AI公司正在把真实业务里的高并发、长上下文、agent调用问题，反向沉淀成公共基础设施的能力。

就像前文提到的，当一个修复进入SGLang这样的开源框架，它就不再只服务于智谱自己的模型。所有使用这套框架部署大模型的团队，都有机会获得更稳定的缓存、更低的推理成本和更好的agent体验。

模型能力可以被追赶，价格可以被压低，但基础设施一旦进入开源生态，就会变成标准、接口和开发习惯。

谁更早把自己的工程经验写进这些底层系统，谁就更容易在下一轮AI应用爆发里占住位置。

回到资本市场。

AI大模型概念股全线走高，资本愿意给AI公司重新定价？市场买的到底是什么？

答案是，资本市场正在为“中国AI公司能用更低推理成本做出接近一线智能”的叙事买单。

还是以OpenRouter的数据来说。

中国头部AI公司的token消耗份额，从2025年4月的5%快速攀升至2026年3月的32%。美国头部模型份额，从58%大幅下滑至19%。

MiniMax、智谱、阿里的token使用量，在2026年2-3月较去年12月增长4-6倍。

除了token调用以外，中国AI还在形成一套，完全不同于海外巨头的增长逻辑。

海外头部模型在卖“能力溢价”。

模型能力越强，单次调用越贵，用户为最强智能付费。Claude、GPT-5、Gemini都在往这个方向走。

中国AI在卖“工程”。

模型能力逼近一线模型，但是价格、延迟、调用门槛更低，更符合绝大多数高频场景的需求。

摩根士丹利的报告里提到，中国模型的输入价格约为0.3美元/百万token，部分海外同类产品的价格在5美元左右。这中间是十几倍的差距。

当AI从尝鲜工具变成生产力工具，性价比会直接决定调用频次。

模型便宜一点，企业就敢把更多客服、代码、营销、数据分析任务交给它。任务跑得越多，token消耗越大，平台越能摊薄基础设施成本。

我认为在这个环节，它是有可能会形成一个飞轮的。

第一圈，是用更低的API价格和更接近一线的能力，去吸引开发者和企业。

第二圈，更高的调用量会带来更多真实场景，倒逼模型和推理系统继续优化。

第三圈，也就是智谱这篇技术博客里讲到的，用工程优化降低单位token和单位任务成本，让厂商有能力继续降价、涨量，或者在高价值场景里涨价。

第四圈，当token消耗成为AI时代的新流量，谁能以更低成本承载更多token，谁就更接近下一阶段的平台型公司。

如果只是模型降价，市场会担心这是补贴和价格战，越来越烧钱，总有人的钱包撑不住。

而且，价格战撑不起高估值。

但如果降价背后是吞吐提升、缓存复用、异常率下降和调度效率提升，那么低价就不是牺牲利润换增长，而是工程能力释放出来的成本空间。

价格战和这种工程优化的结果，虽然都是让模型更便宜，而且在财报上看起来可能差不多。在估值模型里，差得很远。

前者是补贴，市场会折价。后者是工程壁垒，市场会溢价。

最后可以落到一个判断。

过去AI公司的估值看模型能力上限，看谁更接近AGI。当时市场在为“最强智能”付费，最强智能的定义越来越模糊，单次调用越来越贵。

现在agent时代，估值还要看成本下限。看谁能把智能稳定、便宜、大规模地交付出去。

对于追求最尖端的“智能”，这可能不是中国AI擅长的事情。

然而中国AI是最有可能把“智能”这两个字，做成所有人和企业都用得起的基础设施。

而市场只愿意为能说清楚自己逻辑的公司付钱。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

中国AI性价比奇高的秘密，被一篇博客捅破了

苹果诉OpenAI细节：一句“笑死”刺痛库克

哈兰德父亲看台上做不雅手势 网友：在隔空挑衅老对手

哈兰德父亲看台上做不雅手势 网友：在隔空挑衅老对手

被3个队友锁死，哈兰德以最憋屈的方式出局

迪丽热巴估计都无语了 亲自下场辟

美联储和市场将走向何方？

预售权益价11.78万起 五菱星光L将于7月16日上市

态度原创

重庆人有自己的避暑桃花源 | 夏天就去「酉」风的地方！

伊姐周六热推：电视剧《百花杀》；电影《后室》......

iPhone Fold双电池组合4883mAh 容量不及直板机

2026建博会(广州) 公装联探展交流活动

玩家网购老款处理器竟收到AMD最新锐龙7 9800X3D

哈兰德父亲看台上做不雅手势网友：在隔空挑衅老对手

哈兰德父亲看台上做不雅手势网友：在隔空挑衅老对手

迪丽热巴估计都无语了亲自下场辟

预售权益价11.78万起五菱星光L将于7月16日上市