硅谷最挑剔的那批人，在排队夸一个中国AI模型|算法|编程|glm|大模型

分享至

出品 | 网易智能

作者 | 辰辰

编辑 | 王凤枝

硅谷技术圈在排队夸一个中国AI模型。

GLM 5.2发布后的48小时内，fast.ai创始人、Vercel CEO、前DeepMind高管，这群人平时不轻易夸对手，更不会夸中国模型，在X上排着队说它好。

没有PR安排。没有"但我们也有优势"。就是好用，所以说了。

上一次硅谷被中国模型震到，是DeepSeek R1。那次的核心词是便宜。这一次不是便宜，是够用。

资本市场也在讲同一个故事。6月22日，智谱港股盘中突破1万亿港元，涨近20%。DeepSeek那次让纳斯达克一天蒸发了1万亿美元。这一次，智谱自己的市值在港股盘中突破了1万亿港元。

排队点赞的人

先看排队的人都有谁。

马特·维罗索（Mat Velloso），先后在Meta、谷歌DeepMind和微软担任过高管，见过所有顶级模型。他在X上写了一句话：

"用了一整天GLM 5.2。没觉得缺什么。第一个能当日常用车（daily driver）的开源模型。事情不会一样了。"

"日常用车"在技术圈有精确含义。 不是展台上的概念车，不是纽博格林赛道上的圈速王，是你每天上班、接送孩子、跑高速都不需要想第二下的那辆车。维罗索说一个中国开源模型达到了这个标准。这是他职业生涯里第一次这么说。

然后是吉列尔莫·劳赫（Guillermo Rauch），Vercel的CEO，旗下一家服务数百万开发者的云平台公司。他写的是：

"真心佩服，几乎可以说是震惊。GLM-5.2的编程能力太强了。这会改变格局。"

注意措辞。不是"有意思"，不是"有潜力"，是"almost shocked"。一个每天看技术发布会的人，被震到了。

fast.ai创始人杰里米·霍华德（Jeremy Howard），开源AI社区最有影响力的声音之一，用词更满：

"它至少跟Opus 4.8和GPT 5.5一样好。我从未见过这样的开源权重模型。它超级快，不贵，也不啰嗦。回应带有分寸和判断力，处理长上下文非常好。"

"至少一样好"，从fast.ai创始人口中说出来，不是轻飘飘的客套。

Redis创始人antirez夸了。深度学习技术作家塞巴斯蒂安·拉什卡（Sebastian Raschka）把它评为"今天最好的开源模型"。甚至连技术圈最挑剔的那批独立开发者，拿着基准测试一条条抠毛病的，说辞这次也出奇一致。

伊塔马尔·戈兰（Itamar Golan）的总结最有概括性：

"大多数开源模型是这样的：Demo惊艳，benchmark漂亮，实际用起来让人失望。GLM 5.2是第一个感觉不一样的。不是说它打败了Opus或GPT。不是说它完美。但它够近了，够近到能改变格局。'够近'就是颠覆开始的地方。"

一个叫Scott的开发者用了更传神的说法："第一个不像是benchmaxxing（刷榜优化）的开放模型。实际使用中很拼，有一股'我能干'的劲儿。很多时候，你可能根本注意不到它跟闭源前沿模型的性能差距。"

这些话放在一起，信号很清楚：中国开源模型第一次跨过了一道心理门槛，开发者不再觉得在"将就"。

曾在谷歌DeepMind工作过的布兰登·卡尔（Brandon Carl）列了一份名单：维罗索、霍华德、拉什卡、劳赫。"这些都是重量级人物。"他的判断是：闭源模型的定价权从此有了天花板。

当然，任何新模型发布后都有蜜月期。这些评价多来自48小时内的初步使用，长期表现还需要时间验证。

"够用"有多够

但"够用"是模糊的。让我们把它拆开来。

先看硬数据。独立评测机构Artificial Analysis把GLM 5.2排在全部模型的第四位，仅次于OpenAI ChatGPT 5.5和Anthropic Claude Opus 4.8，排在谷歌Gemini之前。 开源模型里的历史最高排名。

在长周期编程任务上，GLM 5.2压过了GPT 5.5：SWE-bench Pro得分62.1对58.6，FrontierSWE得分74.4%对72.6%。在工具调用评测MCP-Atlas上，77.0对75.3，同样压过。在一个叫Design Arena的设计任务众测评测中，GLM 5.2拿了第一，甚至超过了Anthropic刚发布的Fable 5，那个强到被美国政府下令禁止外国人使用的模型。

这些不是运气。GLM 5.2在架构底层做了一项叫IndexShare（索引共享）的关键改动：每四个稀疏注意力层复用同一个索引器，在100万token上下文窗口下，单token计算量压低了2.9倍。加上升级版多Token预测层带来的20%推理效率提升，长周期编程上的领先有结构性的原因。拉什卡在技术解读中特别指出了这一点。

但基准测试的世界有一条暗线，叫教考分离。

挪威国防研究所的哈瓦德·特维特·伊勒（Havard Tveit Ihle）做了一项关键研究。他把中国模型放在公开benchmark和私下benchmark上分别测试。公开测试中，中国模型落后美国4到6个月。私下测试中，题目从未公开，模型不可能提前"见过"，差距拉到8到10个月。几乎翻倍。

他的措辞很谨慎：中国实验室可能在"无意中"让模型学会应试。

GLM 5.2在两项私下benchmark上也遵循这个模式：在WeirdML（需要仔细推理的不寻常机器学习任务）上落后约7个月，在SimpleBench（用陷阱题测常识推理）上落后整整一年。

但还有另一个数据点。 6月19日，Artificial Analysis发布了一项全新评测，模拟办公室白领的真实工作：从杂乱文件中提取信息、评估互相矛盾的数据。GLM 5.2不可能提前训练过这套题。结果呢？它压过了4月才发布的ChatGPT 5.5。

"教考分离"的规律不是铁板一块。

有些类型的任务，中国模型在追；有些，差距比公开数据看起来大得多。美国政府的5月报告也得出了类似的结论：差距没有在扩大，但也没有在缩小。

听起来是追平了。也可以理解成：追上来的速度没有看起来那么快，但也没有停下来。

关键问题是：你看重哪类任务？

如果你是一个每天写代码的开发者，SWE-bench上的表现对你是真实的，GLM 5.2在这个维度上立得住。如果你需要一个理解微妙语境、处理开放式判断的助手，它可能在某些时刻让你觉得"差一口气"。

一个可能的解释是：GLM 5.2在结构化、流程化的工作任务上已经追平甚至超越，但在需要即兴判断、非常规推理的任务上仍有短板。 它的"够用"有一个边界，越接近标准化工作流，越够用；越偏离常规，差距越明显。

不是说它不好。是"够不够"这件事，取决于你站在哪里。

便宜的另一面

然后是价格。第二层需要拆开。

表面看，GLM 5.2便宜得离谱。API定价：输入每百万token 1.40美元，输出4.40美元。对比Anthropic Claude Opus 4.8的输出25美元，OpenAI GPT 5.5的30美元。智谱的编码订阅计划最低每月12.60美元。

编码订阅分三档：Lite版每月12.60美元，面向小型代码库的轻量迭代；Pro版每月50.40美元，5倍于Lite的额度，面向中型代码库日常开发；Max版每月112.00美元，20倍额度，面向重度工作负载，高峰期享有专属资源。

硅谷AI观察者Lisan al Gaib在X上直接开火："前沿实验室在API定价上绝对在宰你。"他列了一组数字：7440亿参数的GLM 5.2收4.40美元，1.6万亿参数的DeepSeek V4 Pro收0.87美元，而闭源模型收15到30美元。"开源开发者没有最新Blackwell芯片也能盈利，说明闭源厂商的利润率可能在90%以上。"

这个估算只看推理成本。如果把训练投入、研发人员和基础设施一起算进去，利润率会低得多。但即便如此，定价空间确实远大于边际成本。

已经有人在用钱包投票了。根据发票管理平台Ramp的数据，6月向DeepSeek支付服务费用的美国企业数量急剧增加。据报道，微软正在考虑在其旗舰Copilot聊天机器人中使用DeepSeek的模型，一家美国科技巨头，可能要把自己最重要的AI产品交给一家中国实验室的模型来驱动。

听着很颠覆。

但佐治亚理工的杜正（Du Zheng）和合作者6月更新的一项研究，给了一个更复杂的数字：给定相同任务，DeepSeek模型使用了OpenAI竞品23倍的token数量，来达到基本相同的结果。

23倍。

杜正测的是DeepSeek，不是GLM 5.2。但指向的是同一个结构性问题：中国模型倾向于用更多token来思考和输出。这意味着比价不能看"每个token多少钱"，而要看"完成一件事总共花了多少token"。 《经济学人》按这个算法对GLM 5.2做了测算，在一项软件工程benchmark上，GLM 5.2的总花费超过了Anthropic和OpenAI的竞品。

中国模型的能力在提升，但效率没有同步提升。

听起来是白菜价。也可以理解成：模型得多干23道工序才能交卷，按token计价的便宜不一定是真便宜。便宜不便宜，取决于你用得多深。

轻量使用，问几个问题、写一段代码，GLM 5.2确实省钱。重度使用，长时间自主编程、复杂多步骤推理，总成本可能反过来。

公平地说，智谱提供了一个缓解方案：缓存输入token的定价降到每百万0.26美元，而且目前免费提供缓存存储。对于反复调用相同上下文的场景，这能大幅压缩成本。关键看你的工作模式。

不设锁

GLM 5.2发布的时机，巧合也好，有意也好，时间线上的戏剧性是真实的。

6月12日，特朗普政府通知Anthropic，禁止非美国公民使用Fable 5。Anthropic的回应是把模型全面下线。 一个闭源模型，前一天还是开发者手中最好的工具之一，第二天就没法用了。

24小时后，6月13日下午5点21分，北京时间，GLM 5.2发布。 MIT开源许可证。无区域限制。无使用限制。可以下载、修改、商用，不需要付版税，不需要同意任何"可接受使用"政策。

智谱联合创始人唐杰（Tang Jie）在发布会上说了一句："我们的态度是激进开放。"他接着炮轰"外部封锁"，指的就是Anthropic和美国政府联手制造的那种局面，说这让AI系统"随时可以被撤销"。

这不是技术比拼。这是商业模式、用户信任和外部政策的三重交叉点。

一个企业CTO面对的选择变成了这样：这边是Anthropic，模型很强，但美国政府一句话就能让你的团队断供。那边是GLM 5.2，模型够用，你可以部署在自己的服务器上，谁也断不了你的供。

对于美国以外的企业，欧洲、东南亚、拉美，这道选择题没有那么难做。

Anthropic自己最近在一份报告中警告，中国AI正逼近美国。报告说美国及其盟友还有机会"锁定12到24个月的前沿领先优势"。但报告的潜台词是："这个窗口不会一直开着。"

一边在拉刹车，另一边在踩油门。

Anthropic说的是"我们领先但不多"，做的是把模型下线让用户无路可走。智谱说的是"激进开放"，做的是把模型权重直接扔到Hugging Face上，MIT许可证。

凯文·辛巴克（Kevin Simback）在X上指出了一个冷峻的问题："模型好不等于收入好。西方企业，真正的AI金主，可能在本地部署，钱根本到不了智谱手里。编码订阅计划的定价跟Anthropic和OpenAI差不多，未必有多少人转投。"

翻译一下：MIT许可证让模型无处不在，但也让钱很难流回开发者口袋。对用户是礼物，对智谱的财务报表未必。

当然，那是资本市场的逻辑。对用户来说，多一个不受美国开关控制的选择，本身就是价值。

那道线

回到戈兰那句话："够近"就是颠覆开始的地方。

GLM 5.2不是最强的模型。它在一些维度上赶不上Anthropic和OpenAI的旗舰，在私下基准测试上的差距或许比公开数据更大，token效率还有明显短板。

但它跨过了一条线。

这条线之前，开源模型是"尝鲜"，开发者下载试试，第二天换回闭源模型干活。这条线之后，开源模型可以当"日常用车"，你可以在它上面真正工作了。

这条线的名字叫够用线。一旦跨过，游戏规则就变了。

不是开源会取代闭源。是闭源不能再仅凭"我们最好"来定价，因为"第二好"已经够好了。当够用线和最好之间的差距，小于价签上的差距，预算表会替开发者做选择。

马斯克在X上说，他预计中国在明年初赶上当前前沿水平。唐杰回了一句："用不了那么久。"

那场硅谷排队点赞发生在6月的第二个周末。到了周一，一切看起来还是老样子，开发者写代码，公司审预算，美国政府发禁令。

但维罗索说的那句话，挂在X的时间线上，被转了又转：

"事情不会一样了。"

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.