网易首页 > 网易科技 > 网易科技 > 正文

DeepSeek那次让硅谷失眠,这一次,中国模型让硅谷排队点赞

0
分享至

出品 | 网易智能

作者 | 辰辰

编辑 | 王凤枝

硅谷技术圈在排队夸一个中国AI模型。

GLM 5.2发布后的48小时内,fast.ai创始人、Vercel CEO、前DeepMind高管,这群人平时不轻易夸对手,更不会夸中国模型,在X上排着队说它好。

没有PR安排。没有"但我们也有优势"。就是好用,所以说了。

上一次硅谷被中国模型震到,是DeepSeek R1。那次的核心词是便宜。这一次不是便宜,是够用。

资本市场也在讲同一个故事。6月22日,智谱港股盘中突破1万亿港元,涨近20%。DeepSeek那次让纳斯达克一天蒸发了1万亿美元。这一次,智谱自己的市值在港股盘中突破了1万亿港元。

一、排队点赞的人

先看排队的人都有谁。

马特·维罗索(Mat Velloso),先后在Meta、谷歌DeepMind和微软担任过高管,见过所有顶级模型。他在X上写了一句话:

"用了一整天GLM 5.2。没觉得缺什么。第一个能当日常用车(daily driver)的开源模型。事情不会一样了。"

"日常用车"在技术圈有精确含义。 不是展台上的概念车,不是纽博格林赛道上的圈速王,是你每天上班、接送孩子、跑高速都不需要想第二下的那辆车。维罗索说一个中国开源模型达到了这个标准。这是他职业生涯里第一次这么说。


然后是吉列尔莫·劳赫(Guillermo Rauch),Vercel的CEO,旗下一家服务数百万开发者的云平台公司。他写的是:

"真心佩服,几乎可以说是震惊。GLM-5.2的编程能力太强了。这会改变格局。"

注意措辞。不是"有意思",不是"有潜力",是"almost shocked"。一个每天看技术发布会的人,被震到了。

fast.ai创始人杰里米·霍华德(Jeremy Howard),开源AI社区最有影响力的声音之一,用词更满:

"它至少跟Opus 4.8和GPT 5.5一样好。我从未见过这样的开源权重模型。它超级快,不贵,也不啰嗦。回应带有分寸和判断力,处理长上下文非常好。"

"至少一样好",从fast.ai创始人口中说出来,不是轻飘飘的客套。

Redis创始人antirez夸了。深度学习技术作家塞巴斯蒂安·拉什卡(Sebastian Raschka)把它评为"今天最好的开源模型"。甚至连技术圈最挑剔的那批独立开发者,拿着基准测试一条条抠毛病的,说辞这次也出奇一致。

伊塔马尔·戈兰(Itamar Golan)的总结最有概括性:

"大多数开源模型是这样的:Demo惊艳,benchmark漂亮,实际用起来让人失望。GLM 5.2是第一个感觉不一样的。不是说它打败了Opus或GPT。不是说它完美。但它够近了,够近到能改变格局。'够近'就是颠覆开始的地方。"

一个叫Scott的开发者用了更传神的说法:"第一个不像是benchmaxxing(刷榜优化)的开放模型。实际使用中很拼,有一股'我能干'的劲儿。很多时候,你可能根本注意不到它跟闭源前沿模型的性能差距。"

这些话放在一起,信号很清楚:中国开源模型第一次跨过了一道心理门槛,开发者不再觉得在"将就"。

曾在谷歌DeepMind工作过的布兰登·卡尔(Brandon Carl)列了一份名单:维罗索、霍华德、拉什卡、劳赫。"这些都是重量级人物。"他的判断是:闭源模型的定价权从此有了天花板。

当然,任何新模型发布后都有蜜月期。这些评价多来自48小时内的初步使用,长期表现还需要时间验证。

二、"够用"有多够

但"够用"是模糊的。让我们把它拆开来。

先看硬数据。独立评测机构Artificial Analysis把GLM 5.2排在全部模型的第四位,仅次于OpenAI ChatGPT 5.5和Anthropic Claude Opus 4.8,排在谷歌Gemini之前。 开源模型里的历史最高排名。

在长周期编程任务上,GLM 5.2压过了GPT 5.5:SWE-bench Pro得分62.1对58.6,FrontierSWE得分74.4%对72.6%。在工具调用评测MCP-Atlas上,77.0对75.3,同样压过。在一个叫Design Arena的设计任务众测评测中,GLM 5.2拿了第一,甚至超过了Anthropic刚发布的Fable 5,那个强到被美国政府下令禁止外国人使用的模型。


这些不是运气。GLM 5.2在架构底层做了一项叫IndexShare(索引共享)的关键改动:每四个稀疏注意力层复用同一个索引器,在100万token上下文窗口下,单token计算量压低了2.9倍。加上升级版多Token预测层带来的20%推理效率提升,长周期编程上的领先有结构性的原因。拉什卡在技术解读中特别指出了这一点。

但基准测试的世界有一条暗线,叫教考分离。

挪威国防研究所的哈瓦德·特维特·伊勒(Havard Tveit Ihle)做了一项关键研究。他把中国模型放在公开benchmark和私下benchmark上分别测试。公开测试中,中国模型落后美国4到6个月。私下测试中,题目从未公开,模型不可能提前"见过",差距拉到8到10个月。几乎翻倍。

他的措辞很谨慎:中国实验室可能在"无意中"让模型学会应试。

GLM 5.2在两项私下benchmark上也遵循这个模式:在WeirdML(需要仔细推理的不寻常机器学习任务)上落后约7个月,在SimpleBench(用陷阱题测常识推理)上落后整整一年。

但还有另一个数据点。 6月19日,Artificial Analysis发布了一项全新评测,模拟办公室白领的真实工作:从杂乱文件中提取信息、评估互相矛盾的数据。GLM 5.2不可能提前训练过这套题。结果呢?它压过了4月才发布的ChatGPT 5.5。

"教考分离"的规律不是铁板一块。

有些类型的任务,中国模型在追;有些,差距比公开数据看起来大得多。美国政府的5月报告也得出了类似的结论:差距没有在扩大,但也没有在缩小。

听起来是追平了。也可以理解成:追上来的速度没有看起来那么快,但也没有停下来。

关键问题是:你看重哪类任务?

如果你是一个每天写代码的开发者,SWE-bench上的表现对你是真实的,GLM 5.2在这个维度上立得住。如果你需要一个理解微妙语境、处理开放式判断的助手,它可能在某些时刻让你觉得"差一口气"。

一个可能的解释是:GLM 5.2在结构化、流程化的工作任务上已经追平甚至超越,但在需要即兴判断、非常规推理的任务上仍有短板。 它的"够用"有一个边界,越接近标准化工作流,越够用;越偏离常规,差距越明显。

不是说它不好。是"够不够"这件事,取决于你站在哪里。

三、便宜的另一面

然后是价格。第二层需要拆开。

表面看,GLM 5.2便宜得离谱。API定价:输入每百万token 1.40美元,输出4.40美元。对比Anthropic Claude Opus 4.8的输出25美元,OpenAI GPT 5.5的30美元。智谱的编码订阅计划最低每月12.60美元。

编码订阅分三档:Lite版每月12.60美元,面向小型代码库的轻量迭代;Pro版每月50.40美元,5倍于Lite的额度,面向中型代码库日常开发;Max版每月112.00美元,20倍额度,面向重度工作负载,高峰期享有专属资源。

硅谷AI观察者Lisan al Gaib在X上直接开火:"前沿实验室在API定价上绝对在宰你。"他列了一组数字:7440亿参数的GLM 5.2收4.40美元,1.6万亿参数的DeepSeek V4 Pro收0.87美元,而闭源模型收15到30美元。"开源开发者没有最新Blackwell芯片也能盈利,说明闭源厂商的利润率可能在90%以上。"

这个估算只看推理成本。如果把训练投入、研发人员和基础设施一起算进去,利润率会低得多。但即便如此,定价空间确实远大于边际成本。

已经有人在用钱包投票了。根据发票管理平台Ramp的数据,6月向DeepSeek支付服务费用的美国企业数量急剧增加。据报道,微软正在考虑在其旗舰Copilot聊天机器人中使用DeepSeek的模型,一家美国科技巨头,可能要把自己最重要的AI产品交给一家中国实验室的模型来驱动。

听着很颠覆。

但佐治亚理工的杜正(Du Zheng)和合作者6月更新的一项研究,给了一个更复杂的数字:给定相同任务,DeepSeek模型使用了OpenAI竞品23倍的token数量,来达到基本相同的结果。

23倍。

杜正测的是DeepSeek,不是GLM 5.2。但指向的是同一个结构性问题:中国模型倾向于用更多token来思考和输出。这意味着比价不能看"每个token多少钱",而要看"完成一件事总共花了多少token"。 《经济学人》按这个算法对GLM 5.2做了测算,在一项软件工程benchmark上,GLM 5.2的总花费超过了Anthropic和OpenAI的竞品。

中国模型的能力在提升,但效率没有同步提升。

听起来是白菜价。也可以理解成:模型得多干23道工序才能交卷,按token计价的便宜不一定是真便宜。便宜不便宜,取决于你用得多深。

轻量使用,问几个问题、写一段代码,GLM 5.2确实省钱。重度使用,长时间自主编程、复杂多步骤推理,总成本可能反过来。

公平地说,智谱提供了一个缓解方案:缓存输入token的定价降到每百万0.26美元,而且目前免费提供缓存存储。对于反复调用相同上下文的场景,这能大幅压缩成本。关键看你的工作模式。

四、不设锁

GLM 5.2发布的时机,巧合也好,有意也好,时间线上的戏剧性是真实的。

6月12日,特朗普政府通知Anthropic,禁止非美国公民使用Fable 5。Anthropic的回应是把模型全面下线。 一个闭源模型,前一天还是开发者手中最好的工具之一,第二天就没法用了。

24小时后,6月13日下午5点21分,北京时间,GLM 5.2发布。 MIT开源许可证。无区域限制。无使用限制。可以下载、修改、商用,不需要付版税,不需要同意任何"可接受使用"政策。

智谱联合创始人唐杰(Tang Jie)在发布会上说了一句:"我们的态度是激进开放。"他接着炮轰"外部封锁",指的就是Anthropic和美国政府联手制造的那种局面,说这让AI系统"随时可以被撤销"。

这不是技术比拼。这是商业模式、用户信任和外部政策的三重交叉点。

一个企业CTO面对的选择变成了这样:这边是Anthropic,模型很强,但美国政府一句话就能让你的团队断供。那边是GLM 5.2,模型够用,你可以部署在自己的服务器上,谁也断不了你的供。

对于美国以外的企业,欧洲、东南亚、拉美,这道选择题没有那么难做。

Anthropic自己最近在一份报告中警告,中国AI正逼近美国。报告说美国及其盟友还有机会"锁定12到24个月的前沿领先优势"。但报告的潜台词是:"这个窗口不会一直开着。"

一边在拉刹车,另一边在踩油门。

Anthropic说的是"我们领先但不多",做的是把模型下线让用户无路可走。智谱说的是"激进开放",做的是把模型权重直接扔到Hugging Face上,MIT许可证。

凯文·辛巴克(Kevin Simback)在X上指出了一个冷峻的问题:"模型好不等于收入好。西方企业,真正的AI金主,可能在本地部署,钱根本到不了智谱手里。编码订阅计划的定价跟Anthropic和OpenAI差不多,未必有多少人转投。"

翻译一下:MIT许可证让模型无处不在,但也让钱很难流回开发者口袋。对用户是礼物,对智谱的财务报表未必。

当然,那是资本市场的逻辑。对用户来说,多一个不受美国开关控制的选择,本身就是价值。

五、那道线

回到戈兰那句话:"够近"就是颠覆开始的地方。

GLM 5.2不是最强的模型。它在一些维度上赶不上Anthropic和OpenAI的旗舰,在私下基准测试上的差距或许比公开数据更大,token效率还有明显短板。

但它跨过了一条线。

这条线之前,开源模型是"尝鲜",开发者下载试试,第二天换回闭源模型干活。这条线之后,开源模型可以当"日常用车",你可以在它上面真正工作了。

这条线的名字叫够用线。一旦跨过,游戏规则就变了。

不是开源会取代闭源。是闭源不能再仅凭"我们最好"来定价,因为"第二好"已经够好了。当够用线和最好之间的差距,小于价签上的差距,预算表会替开发者做选择。

马斯克在X上说,他预计中国在明年初赶上当前前沿水平。唐杰回了一句:"用不了那么久。"

那场硅谷排队点赞发生在6月的第二个周末。到了周一,一切看起来还是老样子,开发者写代码,公司审预算,美国政府发禁令。

但维罗索说的那句话,挂在X的时间线上,被转了又转:

"事情不会一样了。"

相关推荐
热点推荐
纪委已明确!党员干部这10种行为将从重或加重处分,碰不得!

纪委已明确!党员干部这10种行为将从重或加重处分,碰不得!

细说职场
2026-06-22 16:43:32
德德玛病逝3年了,两个儿子用3年的时间,给了继父最暖的晚年

德德玛病逝3年了,两个儿子用3年的时间,给了继父最暖的晚年

飘飘然的娱乐汇
2026-06-21 20:10:08
打死也不能放冰箱10种食物,回家立刻拿出来,别拿家人健康开玩笑

打死也不能放冰箱10种食物,回家立刻拿出来,别拿家人健康开玩笑

小柱解说游戏
2026-06-16 07:38:45
死亡之组大乱!日本 4-0 血洗对手,出线形势一夜之间全变了

死亡之组大乱!日本 4-0 血洗对手,出线形势一夜之间全变了

十点体坛
2026-06-22 21:44:48
军事 | 难道,波兰与乌克兰开战?

军事 | 难道,波兰与乌克兰开战?

新民周刊
2026-06-22 12:05:10
千架无人机血洗俄本土,普京座机被锁定!俄方醒悟:斩首或成选项

千架无人机血洗俄本土,普京座机被锁定!俄方醒悟:斩首或成选项

赵或是个热血青年
2026-06-21 18:42:20
不知悔改!被中方制裁的菲防长,又大放厥词

不知悔改!被中方制裁的菲防长,又大放厥词

观察者网
2026-06-22 17:17:36
狂轰47分15板22助!男篮20岁天才后卫杀疯了:这2战让他媲美徐杰

狂轰47分15板22助!男篮20岁天才后卫杀疯了:这2战让他媲美徐杰

篮球快餐车
2026-06-22 02:25:17
老板娘问我她屁股翘不翘?我该怎么回答?

老板娘问我她屁股翘不翘?我该怎么回答?

太急张三疯
2026-06-22 11:04:30
这么丑也能当明星?顺产头、大饼脸,简直颠覆我对演员的认知

这么丑也能当明星?顺产头、大饼脸,简直颠覆我对演员的认知

翰飞观事
2026-06-22 22:08:29
事态升级!娜然被曝辱华,霍启刚评论区沦陷,郭晶晶态度说明一切

事态升级!娜然被曝辱华,霍启刚评论区沦陷,郭晶晶态度说明一切

翰飞观事
2026-06-22 16:53:50
2026年,结婚人数又破纪录了!

2026年,结婚人数又破纪录了!

巢客HOME
2026-06-21 07:20:07
湖人正式锁定顶级3D球员,对方刚淘汰掉湖人,双方已完成初步接洽

湖人正式锁定顶级3D球员,对方刚淘汰掉湖人,双方已完成初步接洽

史料布籍
2026-06-22 17:10:23
英国首相斯塔默宣布辞职!上任不到两年,英国10年内将迎来第7位首相

英国首相斯塔默宣布辞职!上任不到两年,英国10年内将迎来第7位首相

极目新闻
2026-06-22 17:14:12
红十七军军长张涛战场叛变投敌,建国后自首认错最终结局如何

红十七军军长张涛战场叛变投敌,建国后自首认错最终结局如何

磊子讲史
2026-06-18 17:11:27
出大事了!马科斯突遭晴天霹雳,菲律宾后院失火,解放军要出手了

出大事了!马科斯突遭晴天霹雳,菲律宾后院失火,解放军要出手了

酒话醉人
2026-06-22 12:24:54
辽宁省930万退休人员养老金将迎2026年调整,看一看三年来的变化

辽宁省930万退休人员养老金将迎2026年调整,看一看三年来的变化

虎哥闲聊
2026-06-21 18:41:46
美加墨世界杯西班牙与沙特小组赛开打,全网都在找“开球嘉宾”李现在哪,网友的视频来了

美加墨世界杯西班牙与沙特小组赛开打,全网都在找“开球嘉宾”李现在哪,网友的视频来了

极目新闻
2026-06-22 00:49:37
心理学上有个词叫:恐惧诉求(拿捏一个人,最有效的方式,不是谈条件,也不是画大饼,而是利用恐惧诉求)

心理学上有个词叫:恐惧诉求(拿捏一个人,最有效的方式,不是谈条件,也不是画大饼,而是利用恐惧诉求)

德鲁克博雅管理
2026-06-22 17:38:59
美联储,加息大消息!“大空头”,突发警告!

美联储,加息大消息!“大空头”,突发警告!

证券时报
2026-06-22 09:22:26
2026-06-22 22:35:00

科技要闻

智谱盘中狂飙超40%,市值破万亿港元

头条要闻

成都2.3亿"天价"别墅流拍 原房主身份披露

头条要闻

成都2.3亿"天价"别墅流拍 原房主身份披露

体育要闻

法国球星祝中国队下届世界杯取得好成绩

娱乐要闻

陪睡陪玩是皮毛,向佐揭内娱暗规则

财经要闻

前美联储主席格林斯潘去世 享年100岁

汽车要闻

华为智驾ADS限时优惠月底结束 7月1日前下订立省3000元

态度原创

家居
房产
健康
亲子
数码

家居要闻

绿意盎然 自然之境

房产要闻

一年时间,36个盘“消失”!海口楼市,罕见“大收缩”!

粽子还没吃完?专家教你“清库存”

亲子要闻

新生儿纸尿裤哪品牌好?2026真实口碑榜揭晓,好奇小森林优选推荐

数码要闻

酷冷至尊2026年中新品发布会定档6月26日

无障碍浏览 进入关怀版
×