网易首页 > 网易号 > 正文 申请入驻

太卷了!专属Coding的新一代Arena榜单来了,有国产模型登上榜首

0
分享至




机器之心报道

编辑:冷猫、+0

大模型编程最近太猛了。

自从编码成了大模型的核心能力后,各大模型厂商都卷得要命,从卷模型参数和性能,到卷开发工具链,编码能力的提升,简直是一场军备竞赛。

近几个月以来,以 Claude 4.5、GLM-4.6、kimi-k2 等为代表的编码模型,都具备了执行复杂项目开发,构建真实应用程序的能力。

卷模型能力只是个开始,各大厂商也已全面进军智能编码产品,各类 IDE 产品层出不穷。就连服务套餐也开始卷出「和 AI 砍价」的新花样,智能编程领域逐渐成为了新的红海。

在模型能力飞涨的情况下,业界知名的大模型公共基准测试平台 LMArena 也敏锐地意识到,「问题已经不再是模型能否编写代码,而是它如何端到端构建真实应用程序。」

这个汇集了全球数百万用户真实反馈的「盲测」竞技场,其榜单排名已成为各大 AI 公司新模型宣发时彰显实力的「标配」。

就在今天,LMArena 做出了今年最大的更新,发布了新世代大模型编码评估系统:Code Arena,这可以说是编程大模型能力评估领域的重大事件。



曾经大模型编码的「黄金标准」WebDev Arena 是首个引入大规模、人机协同的 AI 编码基准测试的榜单。开发者可以观察模型构建真实应用程序、与输出交互并对性能进行投票,使评估过程更具参与性和透明度。

相比于旧时代的 WebDev Arena 编码榜单,Code Arena 从底层重构而成,它不仅评估代码是否能运行,更评估其性能表现、交互自然度,以及对设计意图的忠实程度。

最重要的是,这个新系统测量的是「代码的动态过程」—— 捕捉模型在真实开发条件下如何思考、规划与构建的全过程。这不是静态基准测试。这是在真实世界中由真实 Arena 用户进行的实际评估

Code Arena 的发布,标志着大模型编码评估标准的又一次进化,重塑了大模型评估的标杆。

在这个全新的榜单里,我们惊喜地发现,国产大模型智谱 GLM-4.6 赫然列于榜首,超越了 Gemini 和 Grok,与 Claude、GPT-5 并列排名第一



智谱 GLM-4.6 于9 月 30 日发布,一登场便以媲美 Claude Sonnet 4 的卓越编码能力,成为彼时的「国内最强 Coding 模型」。



时隔一个半月,GLM-4.6 的 Coding 能力仍能在最新发布的编程评估榜单中,与 Claude、GPT-5 并列第一,持续领跑全球第一梯队,足见其稳定,超前的编码能力。

事实上,其实力早已得到验证。

10 月初,就在 GLM 4.6 发布几天后,编程智能体 Cline 的产品经理 Nick Baumann 发帖表示,根据 Cline 遥测数据对数百万次「diff edits」(代码修改)操作的分析,zAI 的 GLM-4.6 模型达到了 94.9% 的成功率,而 Anthropic 的 Claude Sonnet 4.5 成功率为 96.2%。



他认为,这一数据意义重大,因为就在三个月前,(开放)开源模型与顶尖闭源模型在同类任务上的性能差距还高达 5 到 10 个百分点。而现在,这个差距已经缩小到了「基点」(basis points),表明两者在最困难的编码任务之一上的能力正在迅速趋同。

此外,Baumann 提到 Cline 的社区用户中已经出现了转向使用 GLM-4.6 完成日常工作的热潮。

有趣的是,AI 编程独角兽 Cognition 近期推出的最新 AI 模型 SWE-1.5,被质疑是基于 GLM 4.6 模型进行定制(精调 / 强化学习),并运行在全球最大的 AI 推理芯片公司 Cerebras 的硬件上。



有人对 SWE 1.5 进行了大模型「越狱」,结果模型直接回答自己是智谱 AI 开发的 GLM 大模型。

而值得一提的是,Cerebras 决定将 GLM-4.6 作为默认推荐模型,其在给所有用户的邮件中表示:qwen-3-coder-480b 将于 2025 年 11 月 5 日被停止使用,同时推出 GLM-4.6 作为新的基座模型。



以上 GLM-4.6 的光辉战绩,不仅证明了其作为开源世界「最强 Coding 模型」受到广泛认可,更让业界再次见证了国产大模型的硬核实力。

正如 Cline 产品经理所观察到的,从几个月前的「5 到 10 个百分点」差距,到如今的「基点」之差,这背后是国产力量从「追赶」到「并跑」乃至「领跑」的惊人加速度。

在过去由 Llama 系列主导的开源开放生态中,以 DeepSeek、Qwen、GLM、Kimi 等为代表的中国开源模型,正凭借其卓越的性能和极高的成本效益,成为全球 AI 开发者的新选择。

这,正是国产大模型力量崛起的最佳注脚。

https://x.com/nickbaumann_/status/1973846157886697771

https://x.com/arena/status/1988665199000498369

https://news.lmarena.ai/code-arena/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女教师骑电动车“撞树枝”身亡,为啥面部未受伤?头盔去哪了?兴平乡道蹊跷交通事故案调查

女教师骑电动车“撞树枝”身亡,为啥面部未受伤?头盔去哪了?兴平乡道蹊跷交通事故案调查

大风新闻
2025-11-17 20:18:05
“橙子姐姐”下落不明:网传被卖175万,疑遭遇“杀猪盘”!

“橙子姐姐”下落不明:网传被卖175万,疑遭遇“杀猪盘”!

小李睡不醒了
2025-11-17 07:06:43
刚刚,阿里宣战ChatGPT!

刚刚,阿里宣战ChatGPT!

智东西
2025-11-17 12:41:22
女排4强出炉!河南无缘晋级,朱婷处境尴尬,输球后的表现很感人

女排4强出炉!河南无缘晋级,朱婷处境尴尬,输球后的表现很感人

甜柠聊史
2025-11-17 16:20:32
美媒公开中国轰炸计划:日本若敢走错半步,将被万枚导弹轰炸成渣

美媒公开中国轰炸计划:日本若敢走错半步,将被万枚导弹轰炸成渣

标体
2025-11-14 19:47:19
清北断层领先,西湖大学第8,武大第20,三大顶刊论文排名出炉

清北断层领先,西湖大学第8,武大第20,三大顶刊论文排名出炉

史海流年号
2025-11-01 22:29:30
中国的战争底层逻辑变了?美专家称:中国武器研发已超脱西方体系

中国的战争底层逻辑变了?美专家称:中国武器研发已超脱西方体系

盒子里的密探
2025-11-17 16:42:19
难顶!南京芳草园,从9.2万/平跌到2.7万/平!

难顶!南京芳草园,从9.2万/平跌到2.7万/平!

黯泉
2025-11-12 12:19:33
2-0,拉什福德精确制导,凯恩无敌双响炮,英格兰豪取世预赛8连胜

2-0,拉什福德精确制导,凯恩无敌双响炮,英格兰豪取世预赛8连胜

侧身凌空斩
2025-11-17 06:32:22
炸锅了!中方甩出“琉球大牌”,日本直接被“打懵”?

炸锅了!中方甩出“琉球大牌”,日本直接被“打懵”?

呼呼历史论
2025-11-18 00:01:02
挪威黄金一代!哈兰德本届世预赛16球2助攻,厄德高1球7助攻

挪威黄金一代!哈兰德本届世预赛16球2助攻,厄德高1球7助攻

懂球帝
2025-11-18 01:30:08
为何说做过夜场的女人不能娶?网友:只要你不嫌脏可以娶的

为何说做过夜场的女人不能娶?网友:只要你不嫌脏可以娶的

带你感受人间冷暖
2025-09-14 00:10:07
朱芳雨指出广东队3大争冠对手!无山西队,也无辽宁队

朱芳雨指出广东队3大争冠对手!无山西队,也无辽宁队

体育哲人
2025-11-18 00:24:40
这些电器“再降价也不要买”,已逐渐淡出中国家庭,建议及时止损

这些电器“再降价也不要买”,已逐渐淡出中国家庭,建议及时止损

装修秀
2025-10-18 11:30:03
段永平,大幅度加仓!

段永平,大幅度加仓!

证券之星
2025-11-17 14:43:15
黑龙江省佳木斯市人大常委会原党组书记、主任刘臣被开除党籍

黑龙江省佳木斯市人大常委会原党组书记、主任刘臣被开除党籍

界面新闻
2025-11-17 16:03:57
美国称:中国不可怕,可怕的是,中国淘汰4000年的东西他们还在用

美国称:中国不可怕,可怕的是,中国淘汰4000年的东西他们还在用

南宫一二
2025-11-04 16:14:07
惊天大瓜!原来川普和希拉里不止是政敌,同时还是情敌。

惊天大瓜!原来川普和希拉里不止是政敌,同时还是情敌。

电动猫
2025-11-18 00:18:26
英媒:吉拉西夏窗可能加盟顶级俱乐部,其合同中有特殊解约金

英媒:吉拉西夏窗可能加盟顶级俱乐部,其合同中有特殊解约金

懂球帝
2025-11-18 00:17:05
编译|共同社民调:高市早苗内阁支持率攀升至 69.9%

编译|共同社民调:高市早苗内阁支持率攀升至 69.9%

日本评论
2025-11-16 23:35:21
2025-11-18 02:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11737文章数 142506关注度
往期回顾 全部

科技要闻

京东外卖要“独立” 刘强东还宣战“点评”

头条要闻

韩国向日本表示强烈抗议 中方表态

头条要闻

韩国向日本表示强烈抗议 中方表态

体育要闻

当家球星受伤后,球迷乐翻了天?

娱乐要闻

金鸡奖是“照妖镜”,揭露人情冷暖?

财经要闻

高市早苗的算计,将让日本割肉5000亿

汽车要闻

新增CDC后变化大吗? 试驾特斯拉model Y L

态度原创

旅游
游戏
房产
本地
艺术

旅游要闻

三亚发布“四张清单” 全场景守护旅游旺季玩海安全

魔坛节奏丨魔兽操作之神,Happy 4-3力克浪漫夺得少帅杯冠军

房产要闻

首开狂卖6.68亿!海口这个顶级教育红盘,引爆海口楼市!

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

艺术要闻

惊艳!全球百大美女变身顶级辣妈,居然在中国!

无障碍浏览 进入关怀版