网易首页 > 网易号 > 正文 申请入驻

一份编程跑分,测出了中国AI模型的成本杀招

0
分享至

同样跑完103个编程任务,一个模型要花你近三倍的价格,另一个只要零头。但问题在于,便宜的那个得多跑19次、多烧一倍的token才能追上对手。Snowflake的CEO Sridhar Ramaswamy最近做了件实在事——把中国的GLM-5.2和Anthropic的Opus 4.7拉出来打了一场实战 Benchmark,结果让人不得不重新审视编程AI的性价比棋局。

测试规则很直接:让两个模型写同时兼容DuckDB和Snowflake的代码,每个任务给三次机会。三次之内能跑通就算解决。结果显示双方咬得很紧——GLM-5.2解决了66%的任务,Opus 4.7解决了67%。乍看之下,一个点位的差距完全可以忽略不计。Ramaswamy本人也承认,GLM的强项在于能够可靠地同时在两个平台上验证代码正确性,有些任务只有GLM能啃下来。而GLM的核心弱点同样刺眼:它太容易放弃,又太爱纠缠错误的检查方向。有一条任务里,GLM在24分钟内发起了411次工具调用,反复验行数、验分布、验空值、验列类型,三次尝试全部折戟。Opus只用了49次调用、9分钟就干净利落地搞定。


如果用“首次尝试就做对”这个更严格的标准来看,差距才真正拉开。Opus的首次准确率是53.7%,GLM只有47.6%,差了6个点有余。这意味着GLM的输出一致性明显不如对手。效率方面的问题更大:GLM平均每个任务要跑99次迭代,Opus只需要80次;token消耗方面,GLM烧掉了8.6亿个,几乎是Opus 4.39亿的两倍。Ramaswamy也直言,所谓“GLM生成的代码更干净”的说法在这轮测试里没站住脚。更多的检查并没有导向更正确的结果,反而让模型在错误的方向上越陷越深。

一边是接近的性能,一边是多出近一倍的迭代次数和token消耗,GLM-5.2拿什么跟Opus 4.7打?答案藏在价格表里。智谱官方给出的定价是:输入token每百万1.40美元,输出token每百万4.40美元。部分第三方供应商的报价甚至比官价更低。相比之下,Claude Opus 4.7每百万输出token要价25美元,GPT-5.5更是高达30美元。即便把GLM多烧掉的那一倍token算进去,综合成本依然只是对手的一个零头。Ramaswamy的团队已经被GLM-5.2的表现吊起了胃口,打算将它开放给Snowflake的客户使用。

真正让硅谷感到脊背发凉的,不是GLM能不能追平Opus,而是这个价格差对估值体系的冲击力。编程任务恰恰是西方AI实验室重注押宝的旗舰应用场景,Anthropic和OpenAI都指望着靠编码能力撑起营收增速。如果中国模型用几分之一的价格就能提供相近的战斗力,那些基于“营收会持续高速攀升”这一假设搭起来的估值模型,就要面对现实的应力测试了。OpenAI和Anthropic的天价估值,背后连着的是从数据中心到芯片预订单的几百亿美元基础设施赌注。一旦价格压力开始传导,营收增速放缓甚至收缩,整条AI基建链条都得跟着抖三抖。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为什么我不会看电影《抓特务》?

为什么我不会看电影《抓特务》?

十柱
2026-06-23 16:07:19
不到48小时,出动千架无人机,32国收到通知,泽连斯基当众下通牒

不到48小时,出动千架无人机,32国收到通知,泽连斯基当众下通牒

黑鹰观军事
2026-06-24 15:30:26
昔日当红女星盖丽丽,早年的复古造型写真

昔日当红女星盖丽丽,早年的复古造型写真

娱你同欢
2026-06-24 20:40:59
商务部:对具备条件的领域如二手车交易、皮卡车进城等,将加快推动放宽限制

商务部:对具备条件的领域如二手车交易、皮卡车进城等,将加快推动放宽限制

红星新闻
2026-06-23 16:11:20
字母哥交易评级:热火B+获希腊怪兽,雄鹿延迟决策代价惨重

字母哥交易评级:热火B+获希腊怪兽,雄鹿延迟决策代价惨重

甜份超标的我
2026-06-24 01:27:55
前有张镇麟!后有王俊杰!伤病+不受重用,23岁锋线或淡出国家队

前有张镇麟!后有王俊杰!伤病+不受重用,23岁锋线或淡出国家队

篮球圈里的那些事
2026-06-24 21:34:29
全新宝马X5要来了,或6月30日首发,国产依旧加长

全新宝马X5要来了,或6月30日首发,国产依旧加长

汽车公告板
2026-06-23 17:47:34
一女子划龙舟被颠翻,外衣滑落表情销魂,身份曝光,很难评!

一女子划龙舟被颠翻,外衣滑落表情销魂,身份曝光,很难评!

皮蛋儿电影
2026-06-24 10:15:29
个税飙升12%,收入只增4.2%,反差信号背后的促消费难点|商业微史记

个税飙升12%,收入只增4.2%,反差信号背后的促消费难点|商业微史记

界面新闻
2026-06-24 14:09:58
山西沁源县委原书记李丁夫主动投案,此前煤矿爆炸事故致82死

山西沁源县委原书记李丁夫主动投案,此前煤矿爆炸事故致82死

上观新闻
2026-06-24 20:56:11
美财长:伊朗石油将用美元结算,委内瑞拉和俄罗斯也…

美财长:伊朗石油将用美元结算,委内瑞拉和俄罗斯也…

观察者网
2026-06-24 23:18:20
6月1日起,新西兰投资移民新政正式实施

6月1日起,新西兰投资移民新政正式实施

看鉴商业官网
2026-06-22 20:57:06
外媒预测世界杯:苏格兰1-2巴西,捷克1-1墨西哥,摩洛哥令人意外

外媒预测世界杯:苏格兰1-2巴西,捷克1-1墨西哥,摩洛哥令人意外

削桐作琴
2026-06-24 22:10:43
A股股王再创新高,上市2个月股价狂飙超3000%

A股股王再创新高,上市2个月股价狂飙超3000%

21世纪经济报道
2026-06-24 13:52:47
山东省水利厅严正声明

山东省水利厅严正声明

齐鲁壹点
2026-06-24 17:23:33
日本经济走向崩溃,特朗普隔岸观火,高市早苗已陷入绝境

日本经济走向崩溃,特朗普隔岸观火,高市早苗已陷入绝境

闻识
2026-06-24 10:10:53
涉太子集团案,新加坡警方调查两中国男子,查封总资产已超30亿元

涉太子集团案,新加坡警方调查两中国男子,查封总资产已超30亿元

大风新闻
2026-06-24 11:54:24
立陶宛新任总理现身,上来就对台当局喊话,又一个狠角色登上台面

立陶宛新任总理现身,上来就对台当局喊话,又一个狠角色登上台面

一口娱乐
2026-06-24 16:33:45
大V发文质疑:国内就业这么差,怎么还有钱补贴印度人开飞饼店?

大V发文质疑:国内就业这么差,怎么还有钱补贴印度人开飞饼店?

小徐讲八卦
2026-06-24 07:37:29
高考屏蔽生流出!这些学校,真给广州长脸

高考屏蔽生流出!这些学校,真给广州长脸

广州楼市发布
2026-06-24 23:13:10
2026-06-25 03:39:00
薛定谔的BUG
薛定谔的BUG
有态度网友ytd
241文章数 61关注度
往期回顾 全部

科技要闻

豆包专业版上线:定价68-500元每月

头条要闻

15岁男孩肥胖诱发糖尿病 抢救无效离世

头条要闻

15岁男孩肥胖诱发糖尿病 抢救无效离世

体育要闻

字母哥,会把凯尔特人拆了吗?

娱乐要闻

向佐向佑兄弟合体直播!母子终于和解

财经要闻

逃税23亿:审计署年报直指七家机构

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

手机
艺术
家居
数码
军事航空

手机要闻

iQOO Neo 11S现身!天玑9500芯+2K/144Hz直屏

艺术要闻

疯狂大楼!俄罗斯富豪想改变上海香港天际线?

家居要闻

绿意盎然 自然之境

数码要闻

三星电子公众号注销!家电业务已官宣退出中国大陆市场

军事要闻

伊朗代表:霍尔木兹海峡已免费开放

无障碍浏览 进入关怀版