网易首页 > 网易号 > 正文 申请入驻

硅谷最挑剔的那批人,在排队夸一个中国AI模型

0
分享至


出品 | 网易智能

作者 | 辰辰

编辑 | 王凤枝

硅谷技术圈在排队夸一个中国AI模型。

GLM 5.2发布后的48小时内,fast.ai创始人、Vercel CEO、前DeepMind高管,这群人平时不轻易夸对手,更不会夸中国模型,在X上排着队说它好。

没有PR安排。没有"但我们也有优势"。就是好用,所以说了。

上一次硅谷被中国模型震到,是DeepSeek R1。那次的核心词是便宜。这一次不是便宜,是够用。

资本市场也在讲同一个故事。6月22日,智谱港股盘中突破1万亿港元,涨近20%。DeepSeek那次让纳斯达克一天蒸发了1万亿美元。这一次,智谱自己的市值在港股盘中突破了1万亿港元。


排队点赞的人

先看排队的人都有谁。

马特·维罗索(Mat Velloso),先后在Meta、谷歌DeepMind和微软担任过高管,见过所有顶级模型。他在X上写了一句话:

"用了一整天GLM 5.2。没觉得缺什么。第一个能当日常用车(daily driver)的开源模型。事情不会一样了。"

"日常用车"在技术圈有精确含义。 不是展台上的概念车,不是纽博格林赛道上的圈速王,是你每天上班、接送孩子、跑高速都不需要想第二下的那辆车。维罗索说一个中国开源模型达到了这个标准。这是他职业生涯里第一次这么说。


然后是吉列尔莫·劳赫(Guillermo Rauch),Vercel的CEO,旗下一家服务数百万开发者的云平台公司。他写的是:

"真心佩服,几乎可以说是震惊。GLM-5.2的编程能力太强了。这会改变格局。"

注意措辞。不是"有意思",不是"有潜力",是"almost shocked"。一个每天看技术发布会的人,被震到了。


fast.ai创始人杰里米·霍华德(Jeremy Howard),开源AI社区最有影响力的声音之一,用词更满:

"它至少跟Opus 4.8和GPT 5.5一样好。我从未见过这样的开源权重模型。它超级快,不贵,也不啰嗦。回应带有分寸和判断力,处理长上下文非常好。"

"至少一样好",从fast.ai创始人口中说出来,不是轻飘飘的客套。


Redis创始人antirez夸了。深度学习技术作家塞巴斯蒂安·拉什卡(Sebastian Raschka)把它评为"今天最好的开源模型"。甚至连技术圈最挑剔的那批独立开发者,拿着基准测试一条条抠毛病的,说辞这次也出奇一致。

伊塔马尔·戈兰(Itamar Golan)的总结最有概括性:

"大多数开源模型是这样的:Demo惊艳,benchmark漂亮,实际用起来让人失望。GLM 5.2是第一个感觉不一样的。不是说它打败了Opus或GPT。不是说它完美。但它够近了,够近到能改变格局。'够近'就是颠覆开始的地方。"


一个叫Scott的开发者用了更传神的说法:"第一个不像是benchmaxxing(刷榜优化)的开放模型。实际使用中很拼,有一股'我能干'的劲儿。很多时候,你可能根本注意不到它跟闭源前沿模型的性能差距。"


这些话放在一起,信号很清楚:中国开源模型第一次跨过了一道心理门槛,开发者不再觉得在"将就"。

曾在谷歌DeepMind工作过的布兰登·卡尔(Brandon Carl)列了一份名单:维罗索、霍华德、拉什卡、劳赫。"这些都是重量级人物。"他的判断是:闭源模型的定价权从此有了天花板。


当然,任何新模型发布后都有蜜月期。这些评价多来自48小时内的初步使用,长期表现还需要时间验证。


"够用"有多够

但"够用"是模糊的。让我们把它拆开来。

先看硬数据。独立评测机构Artificial Analysis把GLM 5.2排在全部模型的第四位,仅次于OpenAI ChatGPT 5.5和Anthropic Claude Opus 4.8,排在谷歌Gemini之前。 开源模型里的历史最高排名。

在长周期编程任务上,GLM 5.2压过了GPT 5.5:SWE-bench Pro得分62.1对58.6,FrontierSWE得分74.4%对72.6%。在工具调用评测MCP-Atlas上,77.0对75.3,同样压过。在一个叫Design Arena的设计任务众测评测中,GLM 5.2拿了第一,甚至超过了Anthropic刚发布的Fable 5,那个强到被美国政府下令禁止外国人使用的模型。


这些不是运气。GLM 5.2在架构底层做了一项叫IndexShare(索引共享)的关键改动:每四个稀疏注意力层复用同一个索引器,在100万token上下文窗口下,单token计算量压低了2.9倍。加上升级版多Token预测层带来的20%推理效率提升,长周期编程上的领先有结构性的原因。拉什卡在技术解读中特别指出了这一点。

但基准测试的世界有一条暗线,叫教考分离。

挪威国防研究所的哈瓦德·特维特·伊勒(Havard Tveit Ihle)做了一项关键研究。他把中国模型放在公开benchmark和私下benchmark上分别测试。公开测试中,中国模型落后美国4到6个月。私下测试中,题目从未公开,模型不可能提前"见过",差距拉到8到10个月。几乎翻倍。

他的措辞很谨慎:中国实验室可能在"无意中"让模型学会应试。

GLM 5.2在两项私下benchmark上也遵循这个模式:在WeirdML(需要仔细推理的不寻常机器学习任务)上落后约7个月,在SimpleBench(用陷阱题测常识推理)上落后整整一年。

但还有另一个数据点。 6月19日,Artificial Analysis发布了一项全新评测,模拟办公室白领的真实工作:从杂乱文件中提取信息、评估互相矛盾的数据。GLM 5.2不可能提前训练过这套题。结果呢?它压过了4月才发布的ChatGPT 5.5。

"教考分离"的规律不是铁板一块。

有些类型的任务,中国模型在追;有些,差距比公开数据看起来大得多。美国政府的5月报告也得出了类似的结论:差距没有在扩大,但也没有在缩小。

听起来是追平了。也可以理解成:追上来的速度没有看起来那么快,但也没有停下来。

关键问题是:你看重哪类任务?

如果你是一个每天写代码的开发者,SWE-bench上的表现对你是真实的,GLM 5.2在这个维度上立得住。如果你需要一个理解微妙语境、处理开放式判断的助手,它可能在某些时刻让你觉得"差一口气"。

一个可能的解释是:GLM 5.2在结构化、流程化的工作任务上已经追平甚至超越,但在需要即兴判断、非常规推理的任务上仍有短板。 它的"够用"有一个边界,越接近标准化工作流,越够用;越偏离常规,差距越明显。

不是说它不好。是"够不够"这件事,取决于你站在哪里。


便宜的另一面

然后是价格。第二层需要拆开。

表面看,GLM 5.2便宜得离谱。API定价:输入每百万token 1.40美元,输出4.40美元。对比Anthropic Claude Opus 4.8的输出25美元,OpenAI GPT 5.5的30美元。智谱的编码订阅计划最低每月12.60美元。

编码订阅分三档:Lite版每月12.60美元,面向小型代码库的轻量迭代;Pro版每月50.40美元,5倍于Lite的额度,面向中型代码库日常开发;Max版每月112.00美元,20倍额度,面向重度工作负载,高峰期享有专属资源。

硅谷AI观察者Lisan al Gaib在X上直接开火:"前沿实验室在API定价上绝对在宰你。"他列了一组数字:7440亿参数的GLM 5.2收4.40美元,1.6万亿参数的DeepSeek V4 Pro收0.87美元,而闭源模型收15到30美元。"开源开发者没有最新Blackwell芯片也能盈利,说明闭源厂商的利润率可能在90%以上。"


这个估算只看推理成本。如果把训练投入、研发人员和基础设施一起算进去,利润率会低得多。但即便如此,定价空间确实远大于边际成本。

已经有人在用钱包投票了。根据发票管理平台Ramp的数据,6月向DeepSeek支付服务费用的美国企业数量急剧增加。据报道,微软正在考虑在其旗舰Copilot聊天机器人中使用DeepSeek的模型,一家美国科技巨头,可能要把自己最重要的AI产品交给一家中国实验室的模型来驱动。

听着很颠覆。

但佐治亚理工的杜正(Du Zheng)和合作者6月更新的一项研究,给了一个更复杂的数字:给定相同任务,DeepSeek模型使用了OpenAI竞品23倍的token数量,来达到基本相同的结果。

23倍。

杜正测的是DeepSeek,不是GLM 5.2。但指向的是同一个结构性问题:中国模型倾向于用更多token来思考和输出。这意味着比价不能看"每个token多少钱",而要看"完成一件事总共花了多少token"。 《经济学人》按这个算法对GLM 5.2做了测算,在一项软件工程benchmark上,GLM 5.2的总花费超过了Anthropic和OpenAI的竞品。

中国模型的能力在提升,但效率没有同步提升。

听起来是白菜价。也可以理解成:模型得多干23道工序才能交卷,按token计价的便宜不一定是真便宜。便宜不便宜,取决于你用得多深。

轻量使用,问几个问题、写一段代码,GLM 5.2确实省钱。重度使用,长时间自主编程、复杂多步骤推理,总成本可能反过来。

公平地说,智谱提供了一个缓解方案:缓存输入token的定价降到每百万0.26美元,而且目前免费提供缓存存储。对于反复调用相同上下文的场景,这能大幅压缩成本。关键看你的工作模式。


不设锁

GLM 5.2发布的时机,巧合也好,有意也好,时间线上的戏剧性是真实的。

6月12日,特朗普政府通知Anthropic,禁止非美国公民使用Fable 5。Anthropic的回应是把模型全面下线。 一个闭源模型,前一天还是开发者手中最好的工具之一,第二天就没法用了。

24小时后,6月13日下午5点21分,北京时间,GLM 5.2发布。 MIT开源许可证。无区域限制。无使用限制。可以下载、修改、商用,不需要付版税,不需要同意任何"可接受使用"政策。

智谱联合创始人唐杰(Tang Jie)在发布会上说了一句:"我们的态度是激进开放。"他接着炮轰"外部封锁",指的就是Anthropic和美国政府联手制造的那种局面,说这让AI系统"随时可以被撤销"。

这不是技术比拼。这是商业模式、用户信任和外部政策的三重交叉点。

一个企业CTO面对的选择变成了这样:这边是Anthropic,模型很强,但美国政府一句话就能让你的团队断供。那边是GLM 5.2,模型够用,你可以部署在自己的服务器上,谁也断不了你的供。

对于美国以外的企业,欧洲、东南亚、拉美,这道选择题没有那么难做。

Anthropic自己最近在一份报告中警告,中国AI正逼近美国。报告说美国及其盟友还有机会"锁定12到24个月的前沿领先优势"。但报告的潜台词是:"这个窗口不会一直开着。"

一边在拉刹车,另一边在踩油门。

Anthropic说的是"我们领先但不多",做的是把模型下线让用户无路可走。智谱说的是"激进开放",做的是把模型权重直接扔到Hugging Face上,MIT许可证。

凯文·辛巴克(Kevin Simback)在X上指出了一个冷峻的问题:"模型好不等于收入好。西方企业,真正的AI金主,可能在本地部署,钱根本到不了智谱手里。编码订阅计划的定价跟Anthropic和OpenAI差不多,未必有多少人转投。"

翻译一下:MIT许可证让模型无处不在,但也让钱很难流回开发者口袋。对用户是礼物,对智谱的财务报表未必。

当然,那是资本市场的逻辑。对用户来说,多一个不受美国开关控制的选择,本身就是价值。


那道线

回到戈兰那句话:"够近"就是颠覆开始的地方。

GLM 5.2不是最强的模型。它在一些维度上赶不上Anthropic和OpenAI的旗舰,在私下基准测试上的差距或许比公开数据更大,token效率还有明显短板。

但它跨过了一条线。

这条线之前,开源模型是"尝鲜",开发者下载试试,第二天换回闭源模型干活。这条线之后,开源模型可以当"日常用车",你可以在它上面真正工作了。

这条线的名字叫够用线。一旦跨过,游戏规则就变了。

不是开源会取代闭源。是闭源不能再仅凭"我们最好"来定价,因为"第二好"已经够好了。当够用线和最好之间的差距,小于价签上的差距,预算表会替开发者做选择。

马斯克在X上说,他预计中国在明年初赶上当前前沿水平。唐杰回了一句:"用不了那么久。"


那场硅谷排队点赞发生在6月的第二个周末。到了周一,一切看起来还是老样子,开发者写代码,公司审预算,美国政府发禁令。

但维罗索说的那句话,挂在X的时间线上,被转了又转:

"事情不会一样了。"

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美伊谈判“各说各话”:特朗普说伊朗在核查问题上做出让步,伊朗称120亿美元资金将执行解冻

美伊谈判“各说各话”:特朗普说伊朗在核查问题上做出让步,伊朗称120亿美元资金将执行解冻

华尔街见闻官方
2026-06-23 20:46:02
国台办回应郑丽文访美表态

国台办回应郑丽文访美表态

中国网
2026-06-24 13:52:23
空调“铝代铜”争议持续发酵 格力、松下、海尔三家立场清晰

空调“铝代铜”争议持续发酵 格力、松下、海尔三家立场清晰

鳌头财经
2026-06-23 17:41:39
603001:四天两板后停牌筹划收购,实控人质押率高达99%

603001:四天两板后停牌筹划收购,实控人质押率高达99%

大众证券报
2026-06-25 00:38:14
事态再升级!一句话蒸发3000万票房,韩红晚节不保,冯小刚遭牵连

事态再升级!一句话蒸发3000万票房,韩红晚节不保,冯小刚遭牵连

秋姐居
2026-06-23 19:28:52
演员张卫健:被父亲打到窒息,两度丧子后,他做出了最正确的决定

演员张卫健:被父亲打到窒息,两度丧子后,他做出了最正确的决定

飘飘然的娱乐汇
2026-06-24 09:05:09
独家对话“纸尿裤风波”第一爆料人王东鉴:如果我错了,道歉、赔偿甚至坐牢,都接受

独家对话“纸尿裤风波”第一爆料人王东鉴:如果我错了,道歉、赔偿甚至坐牢,都接受

每日经济新闻
2026-06-24 00:49:27
C罗进球找曼联铁闸庆祝原因曝光!天字第1号罗粉,爱队长胜过妻子

C罗进球找曼联铁闸庆祝原因曝光!天字第1号罗粉,爱队长胜过妻子

罗米的曼联博客
2026-06-24 09:46:34
世界杯诡局:赢球反陷地狱半区?小组第三或成最优解

世界杯诡局:赢球反陷地狱半区?小组第三或成最优解

星河漫山野
2026-06-24 01:32:56
郑钦文遭逆转无缘巴堡赛八强,新科法网冠军安德列娃被赐一轮游

郑钦文遭逆转无缘巴堡赛八强,新科法网冠军安德列娃被赐一轮游

网球之家
2026-06-24 22:21:27
2026高考450-560分,推荐报考这8所宝藏大学,就业极强!

2026高考450-560分,推荐报考这8所宝藏大学,就业极强!

高三倒计时
2026-06-23 18:18:49
"骗"了我们30年,韩红父亲竟是家喻户晓的他,难怪都不敢得罪她

"骗"了我们30年,韩红父亲竟是家喻户晓的他,难怪都不敢得罪她

探源历史
2026-06-04 09:50:59
俄媒女主持人曾言:若中国愿出兵300万,俄军很快就能打败乌克兰

俄媒女主持人曾言:若中国愿出兵300万,俄军很快就能打败乌克兰

南宗历史
2026-03-17 16:53:10
罗永浩曾痛批iPhone设计属于二流 苹果新CEO调转方向:将设计视为第一优先级

罗永浩曾痛批iPhone设计属于二流 苹果新CEO调转方向:将设计视为第一优先级

快科技
2026-06-22 23:04:05
向佐亲口认了:弟弟被父母封杀结不起婚,姐姐靠自己杀出一条路

向佐亲口认了:弟弟被父母封杀结不起婚,姐姐靠自己杀出一条路

手工制作阿歼
2026-06-25 00:31:59
最新:俄军夏季攻势被曝失败!乌克兰国产航弹首次出击

最新:俄军夏季攻势被曝失败!乌克兰国产航弹首次出击

项鹏飞
2026-06-24 21:07:41
国内50后还剩多少人?真实数据曝光,活到80岁的比例太意外!

国内50后还剩多少人?真实数据曝光,活到80岁的比例太意外!

华庭讲美食
2026-06-10 17:04:25
巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆红,愿为赢球裸奔

巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆红,愿为赢球裸奔

深析古今
2026-06-14 15:32:00
吸取俄罗斯血的教训,台海之战可能成为人类史上第一场零伤亡战争

吸取俄罗斯血的教训,台海之战可能成为人类史上第一场零伤亡战争

精彩一网打尽
2026-06-24 23:59:05
生肖猪:6月28号后家中有要事发生,家族人物不是你,是你家子女

生肖猪:6月28号后家中有要事发生,家族人物不是你,是你家子女

阿龙美食记
2026-06-23 08:28:44
2026-06-25 01:44:49
星海情报局 incentive-icons
星海情报局
关注“中国制造”的星辰大海
1327文章数 2028关注度
往期回顾 全部

科技要闻

豆包专业版上线:定价68-500元每月

头条要闻

15岁男孩肥胖诱发糖尿病 抢救无效离世

头条要闻

15岁男孩肥胖诱发糖尿病 抢救无效离世

体育要闻

字母哥,会把凯尔特人拆了吗?

娱乐要闻

向佐向佑兄弟合体直播!母子终于和解

财经要闻

逃税23亿:审计署年报直指七家机构

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

时尚
手机
亲子
公开课
军事航空

一夜之间,全网对向佐路转粉

手机要闻

iQOO Neo 11S现身!天玑9500芯+2K/144Hz直屏

亲子要闻

当儿子一大早来跟我道歉

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗代表:霍尔木兹海峡已免费开放

无障碍浏览 进入关怀版