网易首页 > 网易号 > 正文 申请入驻

太卷了!专属Coding的新一代Arena榜单来了,有国产模型登上榜首

0
分享至




机器之心报道

编辑:冷猫、+0

大模型编程最近太猛了。

自从编码成了大模型的核心能力后,各大模型厂商都卷得要命,从卷模型参数和性能,到卷开发工具链,编码能力的提升,简直是一场军备竞赛。

近几个月以来,以 Claude 4.5、GLM-4.6、kimi-k2 等为代表的编码模型,都具备了执行复杂项目开发,构建真实应用程序的能力。

卷模型能力只是个开始,各大厂商也已全面进军智能编码产品,各类 IDE 产品层出不穷。就连服务套餐也开始卷出「和 AI 砍价」的新花样,智能编程领域逐渐成为了新的红海。

在模型能力飞涨的情况下,业界知名的大模型公共基准测试平台 LMArena 也敏锐地意识到,「问题已经不再是模型能否编写代码,而是它如何端到端构建真实应用程序。」

这个汇集了全球数百万用户真实反馈的「盲测」竞技场,其榜单排名已成为各大 AI 公司新模型宣发时彰显实力的「标配」。

就在今天,LMArena 做出了今年最大的更新,发布了新世代大模型编码评估系统:Code Arena,这可以说是编程大模型能力评估领域的重大事件。



曾经大模型编码的「黄金标准」WebDev Arena 是首个引入大规模、人机协同的 AI 编码基准测试的榜单。开发者可以观察模型构建真实应用程序、与输出交互并对性能进行投票,使评估过程更具参与性和透明度。

相比于旧时代的 WebDev Arena 编码榜单,Code Arena 从底层重构而成,它不仅评估代码是否能运行,更评估其性能表现、交互自然度,以及对设计意图的忠实程度。

最重要的是,这个新系统测量的是「代码的动态过程」—— 捕捉模型在真实开发条件下如何思考、规划与构建的全过程。这不是静态基准测试。这是在真实世界中由真实 Arena 用户进行的实际评估

Code Arena 的发布,标志着大模型编码评估标准的又一次进化,重塑了大模型评估的标杆。

在这个全新的榜单里,我们惊喜地发现,国产大模型智谱 GLM-4.6 赫然列于榜首,超越了 Gemini 和 Grok,与 Claude、GPT-5 并列排名第一



智谱 GLM-4.6 于9 月 30 日发布,一登场便以媲美 Claude Sonnet 4 的卓越编码能力,成为彼时的「国内最强 Coding 模型」。



时隔一个半月,GLM-4.6 的 Coding 能力仍能在最新发布的编程评估榜单中,与 Claude、GPT-5 并列第一,持续领跑全球第一梯队,足见其稳定,超前的编码能力。

事实上,其实力早已得到验证。

10 月初,就在 GLM 4.6 发布几天后,编程智能体 Cline 的产品经理 Nick Baumann 发帖表示,根据 Cline 遥测数据对数百万次「diff edits」(代码修改)操作的分析,zAI 的 GLM-4.6 模型达到了 94.9% 的成功率,而 Anthropic 的 Claude Sonnet 4.5 成功率为 96.2%。



他认为,这一数据意义重大,因为就在三个月前,(开放)开源模型与顶尖闭源模型在同类任务上的性能差距还高达 5 到 10 个百分点。而现在,这个差距已经缩小到了「基点」(basis points),表明两者在最困难的编码任务之一上的能力正在迅速趋同。

此外,Baumann 提到 Cline 的社区用户中已经出现了转向使用 GLM-4.6 完成日常工作的热潮。

有趣的是,AI 编程独角兽 Cognition 近期推出的最新 AI 模型 SWE-1.5,被质疑是基于 GLM 4.6 模型进行定制(精调 / 强化学习),并运行在全球最大的 AI 推理芯片公司 Cerebras 的硬件上。



有人对 SWE 1.5 进行了大模型「越狱」,结果模型直接回答自己是智谱 AI 开发的 GLM 大模型。

而值得一提的是,Cerebras 决定将 GLM-4.6 作为默认推荐模型,其在给所有用户的邮件中表示:qwen-3-coder-480b 将于 2025 年 11 月 5 日被停止使用,同时推出 GLM-4.6 作为新的基座模型。



以上 GLM-4.6 的光辉战绩,不仅证明了其作为开源世界「最强 Coding 模型」受到广泛认可,更让业界再次见证了国产大模型的硬核实力。

正如 Cline 产品经理所观察到的,从几个月前的「5 到 10 个百分点」差距,到如今的「基点」之差,这背后是国产力量从「追赶」到「并跑」乃至「领跑」的惊人加速度。

在过去由 Llama 系列主导的开源开放生态中,以 DeepSeek、Qwen、GLM、Kimi 等为代表的中国开源模型,正凭借其卓越的性能和极高的成本效益,成为全球 AI 开发者的新选择。

这,正是国产大模型力量崛起的最佳注脚。

https://x.com/nickbaumann_/status/1973846157886697771

https://x.com/arena/status/1988665199000498369

https://news.lmarena.ai/code-arena/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
资金用完!全国多地已暂停汽车报废更新补贴

资金用完!全国多地已暂停汽车报废更新补贴

极目新闻
2025-11-12 22:48:27
想不通,一个堂堂正正的五常居然被一个二战的战败国所威胁

想不通,一个堂堂正正的五常居然被一个二战的战败国所威胁

忠于法纪
2025-11-15 09:31:14
东契奇24+12湖人大胜送鹈鹕4连败,里夫斯31+7艾顿20+16

东契奇24+12湖人大胜送鹈鹕4连败,里夫斯31+7艾顿20+16

湖人崛起
2025-11-15 11:29:11
韩美同盟或介入台海事态?中方:不要玩火!

韩美同盟或介入台海事态?中方:不要玩火!

新京报政事儿
2025-11-15 07:12:07
赵薇49岁突传逝世消息,胃癌去世传闻5个月前已证实

赵薇49岁突传逝世消息,胃癌去世传闻5个月前已证实

领悟看世界
2025-11-15 01:44:47
副院长与曾主任合照被挖出,网友:果然有缘

副院长与曾主任合照被挖出,网友:果然有缘

深度报
2025-11-11 21:42:52
大反转!狗主人上门打砸遭反杀续:重要证据出现,谁杀了谁不好说

大反转!狗主人上门打砸遭反杀续:重要证据出现,谁杀了谁不好说

吭哧有力
2025-11-14 10:22:35
突传死讯!香港知名演员老公在家中离世,坐在轮椅上没了呼吸

突传死讯!香港知名演员老公在家中离世,坐在轮椅上没了呼吸

胡一舸南游y
2025-11-15 13:04:14
中国向全球郑重通告,对日反击已划下红线,越线必遭迎头痛击

中国向全球郑重通告,对日反击已划下红线,越线必遭迎头痛击

娱乐圈的笔娱君
2025-11-14 05:38:40
中国最大央企领导调整!

中国最大央企领导调整!

新浪财经
2025-11-15 10:41:02
高市死不悔改,国防部上场,日本急忙灭火,官员恳请中国坐下谈

高市死不悔改,国防部上场,日本急忙灭火,官员恳请中国坐下谈

时时有聊
2025-11-14 20:35:36
一旦开战中国必败?我国著名院士批主战派,要懂得甲午战争的惨败

一旦开战中国必败?我国著名院士批主战派,要懂得甲午战争的惨败

文史旺旺旺
2025-11-14 20:30:09
今年各行各业惨到什么程度?网友:穷的越穷,富的越富!

今年各行各业惨到什么程度?网友:穷的越穷,富的越富!

解读热点事件
2025-11-15 00:15:03
41+14+11!哈登打满51分钟连续军训新状元 双加时豪取10分止连败

41+14+11!哈登打满51分钟连续军训新状元 双加时豪取10分止连败

狍子歪解体坛
2025-11-15 12:51:35
G联赛:杨瀚森首发30分钟首秀8+13+4 混音22分逆转获3连胜

G联赛:杨瀚森首发30分钟首秀8+13+4 混音22分逆转获3连胜

醉卧浮生
2025-11-15 12:19:09
中国领事遭围攻,日本记者:要100多年前,我们就直接打过去了!

中国领事遭围攻,日本记者:要100多年前,我们就直接打过去了!

浅深说
2025-11-13 10:34:33
快报!快报日本突然宣布了

快报!快报日本突然宣布了

忠于法纪
2025-11-15 09:22:48
洪秀柱痛批高市早苗涉台谬论:台海的事,关你日本人什么事?

洪秀柱痛批高市早苗涉台谬论:台海的事,关你日本人什么事?

环球网资讯
2025-11-15 14:34:38
北京市公安局副局长董亦军突发疾病去世,中央政法委发文号召学习

北京市公安局副局长董亦军突发疾病去世,中央政法委发文号召学习

澎湃新闻
2025-11-15 10:34:28
1万助攻+205次三双!威少刷8纪录成历史首控 国王360万真签到宝

1万助攻+205次三双!威少刷8纪录成历史首控 国王360万真签到宝

颜小白的篮球梦
2025-11-15 11:54:02
2025-11-15 16:04:50
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11720文章数 142505关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

专家:我们对日本必须丢掉幻想 做好斗争准备

头条要闻

专家:我们对日本必须丢掉幻想 做好斗争准备

体育要闻

樊振东和他的尖子班 勇闯地表最强乒乓球赛

娱乐要闻

争议!评委张艺谋被质疑保送易烊千玺

财经要闻

小米之“惑”

汽车要闻

限时10.59万起 新款星海S9将11月19日上市

态度原创

教育
亲子
家居
数码
军事航空

教育要闻

来上课了——高一下核心词汇讲解(四)第3段

亲子要闻

为什么孕妇情绪不稳定?这就是原因,大家来看一看

家居要闻

现代简逸 寻找生活的光

数码要闻

曝疑似小米Watch S5将支持UWB技术 采用表冠设计

军事要闻

解密福建舰电磁弹射背后的硬核支撑

无障碍浏览 进入关怀版