网易首页 > 网易号 > 正文 申请入驻

中国AI性价比奇高的秘密,被一篇博客捅破了

0
分享至



五一假期后的第一个交易日,智谱和MiniMax都涨疯了。

5月4日,智谱涨超10%,股价再次逼近千元关口,MiniMax大涨12.62%,报收803港元。

根据摩根士丹利的报告,股价暴涨的原因来自于中国AI独有的“性价比叙事”。

摩根士丹利在报告《China‘s AI Path: More Bang For The Buck》中表示,在算力受到约束的前提下,中美顶尖模型的智能水平正在快速接近,差距已经收窄到3到6个月。

同时报告指出,中国模型真正突出的地方,是能以美国同行15%到20%的推理成本,实现接近同等水平的智能。

这句话其实很好理解。大家不一定需要用最强的模型,但绝大多数人都想用便宜的模型。

市场买的不是一个简单的“国产替代”故事,而是中国AI正在把性价比转化成真实调用量、真实收入和真实估值弹性。

但问题也随之而来,这种性价比到底从哪里来?

如果只是低价获客,那它很快会变成价格战。

如果只是模型蒸馏,可现在Anthropic、OpenAI等企业,均已关闭蒸馏的入口,那么评级不应该下降吗,怎么还调高了?

事实上,真正让这个叙事变得更有说服力的,是智谱在五一前发布的技术博客《Scaling Pain:超大规模Coding Agent推理实践》。

这篇博客没有讲宏大的AGI愿景,而是把KV Cache、吞吐、调度、异常输出这些底层工程摊开给市场看。

最主要的是,它把中国AI性价比背后的秘密,给“捅破了”。

A

在这篇博客里,智谱大概讲了怎么通过优化缓存、调度和异常监控,让同样的GPU能干更多活,出错更少。

智谱发现,AI不好用不一定是模型不聪明,也可能是后台运行系统太乱。它修掉了缓存串数据的问题,优化了GPU调度和缓存复用,还加了一个能提前发现异常输出的报警器。

结果就是,同样的模型、同样的GPU,可以服务更多用户,出错概率也更低。所以它的“性价比叙事”不是单纯降价,而是靠工程优化,把每张GPU榨出了更多稳定可用的算力。

经过底层工程优化,GLM-5系列在Coding Agent场景下的系统吞吐量最高提升132%,系统异常输出率从大约万分之10,下降到了万分之3。

比如原来一张GPU,它原先一小时能服务100个任务,现在经过优化后,最高可能服务232个任务。

每一项单独看,都不足以决定胜负。但叠在一起,就是同等算力下多出来的一倍吞吐,和一个数量级以上的稳定性提升。

模型没有变。变的是模型被“用起来”的方式。

具体来讲,自3月起,智谱在GLM-5的线上监控和用户反馈中观察到三类异常现象:乱码、复读、生僻字。这些现象在表面上与长上下文场景下常见的“降智”相似。

但智谱团队没有上线任何降低模型精度的优化。那异常究竟源于模型本身,还是源于推理链路?

在反复分析推理日志后,他们找到了一个意想不到的切入点:投机采样指标可以作为异常检测的参考信号。

投机采样原本只是一个性能优化技术。先由草稿模型生成候选token,再由目标模型校验并决定是否接受,从而在不改变最终输出分布的前提下提升解码效率。

就是让小模型先快速生成一批答案,大模型再挑选正确的,这样既快又准。

智谱团队发现,当异常发生时,投机采样的两个指标会呈现稳定模式。于是他们把投机采样从单纯的性能优化,扩展为输出质量的实时监控信号。

当spec_accept_length持续低于1.4且生成长度已超过128 token,或spec_accept_rate超过0.96时,系统主动中止当前生成,把请求交给负载均衡器重试。

这两个数字就像体检指标,一旦异常就说明模型“生病了”,需要重启治疗。

用户虽然感知不到这个过程,但是后台的确是完成了一次这样的重启。

异常的根因,是KV Cache复用冲突。

这就好比厨房,到了饭点的高峰期,很多人同时过来点单。

系统要临时保存每个用户的上下文,也就是KV Cache。这桌客人刚才点了什么、是要少放辣椒还是不吃香菜。一个两个客人还好,一旦客人多了,服务员就容易记错。



高并发时,某些缓存被回收、复用、读取的顺序乱了。结果模型拿错了上下文,就可能输出乱码、复读、生僻字。

在推理引擎中,PD分离架构下,请求生命周期与KV Cache回收与复用的时序之间存在不一致。并发压力一大,冲突就被放大,表现在用户端就是乱码和复读。

于是多个请求同时抢一块内存,结果数据乱了套,用户看到的就是乱码。

智谱团队定位了这个bug,也修复了它。

此外,他们还在主流开源推理框架SGLang的源代码层面发现并修复了HiCache模块的加载时序缺失问题,也就是read-before-ready。

修复方案通过Pull Request #22811提交给了SGLang社区,并被采纳。

SGLang是一个开源项目,全称可以理解为一种面向大语言模型的推理/服务框架。它不是一个大模型,也不是一家AI公司,而是一套让大模型高效运行的基础软件。

智谱在使用SGLang这套开源推理框架时,发现了一个高并发缓存bug。

它没有只在自己内部修,智谱还把修复代码提交给SGLang这个开源项目。

项目维护者审核后接受并合并。于是,这个修复进入了公共版本,其他使用SGLang的开发者和公司之后也可以用到。

这什么意思呢?

如果千问的某个部署链路用了SGLang+HiCache,那么阿里也会因为智谱发现并修复了这个问题而受益。

还是刚才说的那句话,模型是没有变的,但通过工程优化,让它在用起来的时候更聪明了。

B

智谱这篇博客真正戳破的,是一个更深的层次。

Chatbot时代的便宜,很大程度上来自训练成本低,一部分训练集来自对头部模型的蒸馏。

Agent时代,这招行不通了。

今年以来,Anthropic和OpenAI陆续关闭了蒸馏入口,明确禁止用其模型输出训练竞争模型。靠蒸馏取巧的路,越来越窄。

但中国AI公司的性价比叙事并没有弱下去,市场反而在为这个故事加码。

原因在于,性价比的定义已经变了。

Chatbot时代,平均上下文55K tokens,单次对话,低并发。

Agent时代,平均上下文70K+ tokens,长时间任务(8小时级),高并发、高前缀复用。

Chatbot时代,AI性价比的计量单位很简单。同样问一个问题,谁的模型更便宜,谁的回答更接近一线水平。

行业讨论的是每百万token多少钱、模型参数多大、榜单成绩高不高。

Agent时代,没人问这个,这套算法失效了。

用户买的不再是一句回答。他买的是一个完整任务的完成结果。

一个Coding Agent要读代码、理解上下文、规划步骤、调用工具、修改文件、跑测试、失败重试。它消耗的token不是一次问答的增量,而是一个工作流的总账。

OpenRouter作为全球最大的调用平台,它每周处理的token总量,从2026年1月第一周的6.4万亿,涨到2月9日当周的13万亿,一个月翻了一倍。

OpenRouter官方的说法是,100K到1M长文本区间的增量调用需求,正是agent工作流的典型消耗场景。

大家使用AI的模式,已经从“对话型”切换到了“流程型”。因此,AI性价比的单位,也从“token单价”变成了“任务单价”。

这就导致,有些模型它的token便宜,但是由于模型性能不行,进行任务的过程中总是失败,或者任务结果不达标,导致它的agent价格并不便宜。

比如说,一个8小时级别的Coding任务,中途只要乱码一次,整个工作流可能都要重来。节省下来的token单价,补不回浪费的时间。

中国AI的性价比叙事正在升级。

以前讲的是“输出相同水准的答案,我更便宜”。现在讲的是“同样复杂的任务,我能用更低成本跑完”。

开源基础设施也在成为中国AI的新护城河。

前文提到的SGLang就是如此。中国AI的工程能力,开始向上游社区辐射。

这件事的价值不只在于智谱修了一个bug,而在于中国AI公司正在把真实业务里的高并发、长上下文、agent调用问题,反向沉淀成公共基础设施的能力。

就像前文提到的,当一个修复进入SGLang这样的开源框架,它就不再只服务于智谱自己的模型。所有使用这套框架部署大模型的团队,都有机会获得更稳定的缓存、更低的推理成本和更好的agent体验。

模型能力可以被追赶,价格可以被压低,但基础设施一旦进入开源生态,就会变成标准、接口和开发习惯。

谁更早把自己的工程经验写进这些底层系统,谁就更容易在下一轮AI应用爆发里占住位置。

C

回到资本市场。

AI大模型概念股全线走高,资本愿意给AI公司重新定价?市场买的到底是什么?

答案是,资本市场正在为“中国AI公司能用更低推理成本做出接近一线智能”的叙事买单。

还是以OpenRouter的数据来说。

中国头部AI公司的token消耗份额,从2025年4月的5%快速攀升至2026年3月的32%。美国头部模型份额,从58%大幅下滑至19%。

MiniMax、智谱、阿里的token使用量,在2026年2-3月较去年12月增长4-6倍。

除了token调用以外,中国AI还在形成一套,完全不同于海外巨头的增长逻辑。

海外头部模型在卖“能力溢价”。

模型能力越强,单次调用越贵,用户为最强智能付费。Claude、GPT-5、Gemini都在往这个方向走。

中国AI在卖“工程”。

模型能力逼近一线模型,但是价格、延迟、调用门槛更低,更符合绝大多数高频场景的需求。

摩根士丹利的报告里提到,中国模型的输入价格约为0.3美元/百万token,部分海外同类产品的价格在5美元左右。这中间是十几倍的差距。

当AI从尝鲜工具变成生产力工具,性价比会直接决定调用频次。

模型便宜一点,企业就敢把更多客服、代码、营销、数据分析任务交给它。任务跑得越多,token消耗越大,平台越能摊薄基础设施成本。



我认为在这个环节,它是有可能会形成一个飞轮的。

第一圈,是用更低的API价格和更接近一线的能力,去吸引开发者和企业。

第二圈,更高的调用量会带来更多真实场景,倒逼模型和推理系统继续优化。

第三圈,也就是智谱这篇技术博客里讲到的,用工程优化降低单位token和单位任务成本,让厂商有能力继续降价、涨量,或者在高价值场景里涨价。

第四圈,当token消耗成为AI时代的新流量,谁能以更低成本承载更多token,谁就更接近下一阶段的平台型公司。

如果只是模型降价,市场会担心这是补贴和价格战,越来越烧钱,总有人的钱包撑不住。

而且,价格战撑不起高估值。

但如果降价背后是吞吐提升、缓存复用、异常率下降和调度效率提升,那么低价就不是牺牲利润换增长,而是工程能力释放出来的成本空间。

价格战和这种工程优化的结果,虽然都是让模型更便宜,而且在财报上看起来可能差不多。在估值模型里,差得很远。

前者是补贴,市场会折价。后者是工程壁垒,市场会溢价。

最后可以落到一个判断。

过去AI公司的估值看模型能力上限,看谁更接近AGI。当时市场在为“最强智能”付费,最强智能的定义越来越模糊,单次调用越来越贵。

现在agent时代,估值还要看成本下限。看谁能把智能稳定、便宜、大规模地交付出去。

对于追求最尖端的“智能”,这可能不是中国AI擅长的事情。

然而中国AI是最有可能把“智能”这两个字,做成所有人和企业都用得起的基础设施。

而市场只愿意为能说清楚自己逻辑的公司付钱。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
东城拟对雪茄烟专业店数量设上限:最多42家,实行“退一进一”

东城拟对雪茄烟专业店数量设上限:最多42家,实行“退一进一”

新京报
2026-05-07 10:23:12
50岁撒贝宁高调官宣喜讯,再次证明李白的选择没错

50岁撒贝宁高调官宣喜讯,再次证明李白的选择没错

黎兜兜
2026-05-06 21:20:51
火箭控卫连升2级?斯通捡漏,范乔丹获强力替补,廉价合同还剩1年

火箭控卫连升2级?斯通捡漏,范乔丹获强力替补,廉价合同还剩1年

熊哥爱篮球
2026-05-07 12:52:25
特德·特纳逝世

特德·特纳逝世

澎湃新闻
2026-05-07 09:56:09
“妖股”直击:巨力索具午后快速拉升成交量放大,2025年扭亏为盈斥资6亿布局海洋科技,2026年一季度净利润371.16万元

“妖股”直击:巨力索具午后快速拉升成交量放大,2025年扭亏为盈斥资6亿布局海洋科技,2026年一季度净利润371.16万元

金融界
2026-05-07 14:14:29
三八线要改个名字了?金正恩做出关键决定,让全世界都松了一口气

三八线要改个名字了?金正恩做出关键决定,让全世界都松了一口气

影孖看世界
2026-05-07 15:56:55
魔怔了?被罚5万还不服,再次怒喷亚历山大,年薪5300万不怕罚款

魔怔了?被罚5万还不服,再次怒喷亚历山大,年薪5300万不怕罚款

你的篮球频道
2026-05-07 10:51:57
对越反击战中爬回国的战士,未杀一敌,却被国家副主席亲授一等功

对越反击战中爬回国的战士,未杀一敌,却被国家副主席亲授一等功

兴趣知识
2026-04-24 15:09:50
芭提雅海湾8名外国游客不雅行为引争议,当地民众表示强烈不满

芭提雅海湾8名外国游客不雅行为引争议,当地民众表示强烈不满

曼谷陈大叔
2026-05-06 15:05:34
湖南烟花爆竹企业全部停产整顿;套现约455亿,李嘉诚又卖了!

湖南烟花爆竹企业全部停产整顿;套现约455亿,李嘉诚又卖了!

坠入二次元的海洋
2026-05-07 16:29:46
特朗普为何非来中国不可?三大原因曝光,这次是交易之旅

特朗普为何非来中国不可?三大原因曝光,这次是交易之旅

小涛叨叨
2026-05-07 18:20:50
华友停产,印尼翻脸!140亿买来一句:你找日本玩去吧

华友停产,印尼翻脸!140亿买来一句:你找日本玩去吧

李博世财经
2026-05-07 10:49:43
32岁凯恩快哭了!压哨破门+轰14球仍难救拜仁,生涯仍无欧冠冠军

32岁凯恩快哭了!压哨破门+轰14球仍难救拜仁,生涯仍无欧冠冠军

我爱英超
2026-05-07 05:33:10
美女尼姑释正孝同:梦到佛祖出家,放弃985大学,15年后怎样了?

美女尼姑释正孝同:梦到佛祖出家,放弃985大学,15年后怎样了?

舆图看世界
2026-05-07 15:10:04
为何汉化千年越南却独立,晚归顺的云南反倒稳留中国?

为何汉化千年越南却独立,晚归顺的云南反倒稳留中国?

老达子
2026-05-07 06:20:06
三星One UI 8.5正式版5月11日起全球更新,首批名单公布

三星One UI 8.5正式版5月11日起全球更新,首批名单公布

IT之家
2026-05-07 13:35:06
新冠后遗症对人体的最大影响,很多人深受其害,有些人还不自知

新冠后遗症对人体的最大影响,很多人深受其害,有些人还不自知

呼吸科大夫胡洋
2026-02-22 11:39:12
注意!中老年男性有性生活和没性生活,差别居然这么大?

注意!中老年男性有性生活和没性生活,差别居然这么大?

皓皓情感说
2026-04-22 08:20:32
国际足联回应世界杯天价票:主席因凡蒂诺用“热狗承诺”嘲讽

国际足联回应世界杯天价票:主席因凡蒂诺用“热狗承诺”嘲讽

现代快报
2026-05-07 18:37:38
《金瓶梅》揭露的情感真相:男人想让女人死心塌地,秘诀就三个字

《金瓶梅》揭露的情感真相:男人想让女人死心塌地,秘诀就三个字

卡西莫多的故事
2026-04-19 12:18:40
2026-05-07 21:08:49
字母榜 incentive-icons
字母榜
让未来不止于大。
2439文章数 8062关注度
往期回顾 全部

科技要闻

月之暗面完成20亿美元融资,估值突破200亿

头条要闻

存款被银行员工"转走炒股" 两储户1800万元已全部到账

头条要闻

存款被银行员工"转走炒股" 两储户1800万元已全部到账

体育要闻

巴黎再进欧冠决赛,最尴尬的情况还是发生了

娱乐要闻

Lisa主持!宁艺卓观看脱衣秀风波升级

财经要闻

金融“风暴”,AI制造

汽车要闻

雷克萨斯全新纯电三排SUV 全新TZ全球首发

态度原创

游戏
房产
教育
家居
艺术

PS主机独占国产大作竟在海外被狂喷!官方回应来了

房产要闻

负债23亿,抵押482亩地!海南这家巨头,惨遭拍卖!

教育要闻

名额分配人数又要分析?别走火入魔了……

家居要闻

破茧成蝶 土味精装房爆改

艺术要闻

这位老教授笔下的青年,活力满满

无障碍浏览 进入关怀版