网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

Artificial Analysis发布全新基准：GLM-5.1取得全球开源SOTA

2026-05-12 21:14:05　来源: 澎湃新闻

北京举报

0

分享至

5月12日，澎湃新闻记者获悉，全球权威评测机构Artificial Analysis发布全新Coding Agent基准Artificial Analysis Coding Agent Index，用于衡量Agent harnesses与模型的组合在SWE-Bench-Pro-Hard-AA、Terminal-Benchv2和SWE-Atlas-QnA主流基准上的表现。其中，闭源模型Opus4.7（在CursorCLI中运行）全球第一，GLM-5.1（在ClaudeCode运行）取得开源第一。从评测结果上来看，GLM-5.1代表了国产大模型在实际编程Agent场景下的SOTA级别能力。（澎湃新闻记者范佳来）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

一颗芯片，改写激光雷达的下一个十年

华商韬略 2026-05-12 11:24:35
2 跟贴 2
5月13日开幕！MDDC 2026提前剧透：全域智能体、50+大厂齐聚

雷科技 2026-05-11 20:29:14
0 跟贴 0

1美元Token撬动4800美元收益!百万美元级基准,最赚钱Agent出现了

机器之心Pro 2026-03-10 10:06:03
0 跟贴 0

无畏帅得好权威这鼻梁真的可以滑滑梯

娱乐战斗姬 2026-05-09 11:16:23
0 跟贴 0
【AI大模型安全与评测】从DeepSeek-V4拆解真实评估逻辑，90%的人都搞错了！企业级大模型评

卢菁老师 2026-05-09 09:07:47
0 跟贴 0

960万人围观！Claude Code工程师谈HTML“复兴”：Agent时代，Markdown不够用了

智东西 2026-05-12 12:41:12
10 跟贴 10

奥特曼预言与现实相差几何？12个顶级模型“创业”一年，仅3个存活

钛媒体APP 2026-04-03 17:11:08
0 跟贴 0
姚来英已任中国烟草总公司总经理

界面新闻 2026-05-12 11:12:28
7791 跟贴 7791

Claude Code终于长出调度台：一个屏幕盯住所有AI会话，无需多开

新智元 2026-05-12 12:35:45
0 跟贴 0
日本走投无路，低调找俄求援，美国发现，中方已悄悄拿下全球第一

消费侠 2026-05-12 13:43:30
0 跟贴 0
今天，Claude Code的智能体“监工屏”上线

智东西 2026-05-12 15:07:25
0 跟贴 0
基准10年期日本国债期货早盘下跌0.11点

每日经济新闻 2026-05-12 08:02:05
0 跟贴 0
单Agent时代正式结束：一个干不过，就上300个-3

机器之心Pro 2026-04-22 00:08:00
0 跟贴 0
海外研选 | 大摩：2030年服务器CPU市场规模或达2830亿美元

财联社 2026-05-12 20:07:11
0 跟贴 0
卡帕西都整破防了：AI Coding没门槛，可部署环节真嗯啊的难

量子位 2026-03-27 12:12:46
29 跟贴 29
2002年作品《不可撤销》全球第一美女莫妮卡贝鲁奇，巅峰之作

军迷科普 2026-05-09 16:42:42
1 跟贴 1
老马秒羊腿，吃羊肉老马真权威，看一个馋一个，太香了

彗星看世界 2026-05-11 00:00:00
0 跟贴 0
九寨沟将实行“双向检票”？工作人员：出园检票并非新政策，一直严禁沟内住宿

上游新闻 2026-05-11 15:40:24
3114 跟贴 3114
AI组织坍缩效应：中层管理者正在失去的，不是职位，是“信息税”

钛媒体APP 2026-05-12 15:25:23
14 跟贴 14
《怪物王冠》DLC评测：这个"罪噬者"改对了什么

山月不知2 2026-05-12 03:15:39
0 跟贴 0
AutoLab将独立启动“白泽奖”评选，与J.D.Power不再合作

Autolab 2026-05-12 00:25:04
0 跟贴 0
《指令8020》评测：太空恐怖片好看，但玩起来太累

野生运营 2026-05-12 08:13:24
0 跟贴 0
多名车主感叹"停车位缩水"：停车像在参加"极限挑战"

都市快报橙柿互动 2026-05-12 15:26:35
1664 跟贴 1664
托管机构被曝给孩子吃臭肉烂菜，山东滕州通报：立案调查

究竟视频 2026-05-10 14:03:19
0 跟贴 0
重塑软件工程：从Vibe Coding走向Spec Coding

钛媒体APP 2026-02-11 09:37:53
73 跟贴 73
大模型最难的AI Infra，用Vibe Coding搞定

机器之心Pro 2026-01-07 15:33:06
0 跟贴 0
突然爆火！湖北37岁小伙吹气球，半个月赚了60万！

大风新闻 2026-05-12 21:05:08
1 跟贴 1
辉煌难再现，穆里尼奥离开皇马后胜率从71.91%降至55.57%

懂球帝 2026-05-12 23:03:07
42 跟贴 42
男子结婚六七年不会做饭，为了匹配媳妇那么好的厨艺，家务这块儿整的相当权威

河南都市频道 2026-05-11 11:24:39
16 跟贴 16
广州中考名额分配：约11.6万名考生竞争3.2万个名额

南方都市报 2026-05-12 15:40:10
73 跟贴 73
法国新法落地：归还 “260万被抢文物”有多艰难？｜重建现场

新京报动新闻 2026-05-11 01:46:32
837 跟贴 837
海军新型末端防空反导系统现身指挥屏满屏打上马赛克

环球网资讯 2026-05-12 14:31:32
1183 跟贴 1183
13岁女孩沉迷“二次元”，花光父亲18万积蓄买画稿，最贵一张5400元，画稿师：不知对方是未成年人，愿退费

环球网资讯 2026-05-12 19:26:13
366 跟贴 366
温州一企业在芜湖拿地二十年陷困局：区划调整后，原招商承诺难兑现

澎湃新闻 2026-05-12 17:36:28
33 跟贴 33
一组汽车出口数据，戳破了日本制造业最后的底气

荆楚寰宇文枢 2026-05-12 23:27:06
0 跟贴 0
从字节、腾讯出走后，他们做起视频Agent，融资千万美元

智东西 2026-05-12 18:16:15
0 跟贴 0
去年进口激增近150%：中国茶叶产量全球第一，为何大量进口印度茶

小曙说娱 2026-05-12 10:04:30
0 跟贴 0
马瑞新书《意象之象》发布，新华社等多家权威媒体集中报道

鲁中晨报 2026-05-12 17:19:39
0 跟贴 0
智元杀进香港！2026成为部署态元年，机器人不再只会跳舞了

雷科技 2026-05-12 21:59:45
0 跟贴 0
OpenAI前CTO创业的模型首秀，与面壁智能「撞车」了

智东西 2026-05-12 20:09:32
0 跟贴 0

奶奶骑台铃电动车接6岁孙子，NFC解锁后方向突然锁死两人摔伤；家属：不到一年发生七八次事故；台铃回应

奶奶骑台铃电动车接6岁孙子，NFC解锁后方向突然锁死两人摔伤；家属：不到一年发生七八次事故；台铃回应

大象新闻

2026-05-12 19:46:06

人没到先点名！特朗普还没落地，内塔尼亚胡竟提前对中国发出警告

人没到先点名！特朗普还没落地，内塔尼亚胡竟提前对中国发出警告

小叨娱乐

2026-05-12 13:39:10

白宫公布名单，16位美国商界领袖将随特朗普访华

白宫公布名单，16位美国商界领袖将随特朗普访华

界面新闻

2026-05-12 21:23:09

为见女儿最后一面，老人第一次坐高铁买不到票崩溃大哭，紧急求助，民警全程护航

为见女儿最后一面，老人第一次坐高铁买不到票崩溃大哭，紧急求助，民警全程护航

环球网资讯

2026-05-12 16:52:39

黄仁勋真是被白宫彻底封杀了

大猫财经Pro

2026-05-12 14:04:28

下降6%！一季度结婚数再创新低，同比减少11万对，离婚数也少了

下降6%！一季度结婚数再创新低，同比减少11万对，离婚数也少了

网易新闻出品

2026-05-12 15:45:59

虽遭横扫！但41岁詹姆斯赛后仍霸气发声：我已做到联盟所有！

虽遭横扫！但41岁詹姆斯赛后仍霸气发声：我已做到联盟所有！

田先生篮球

2026-05-12 15:00:22

前脚刚考上公务员获公示，他转身就将摄像头伸进女生裙底！这一次真的该感谢举报者

前脚刚考上公务员获公示，他转身就将摄像头伸进女生裙底！这一次真的该感谢举报者

潇拾亿郎

2026-05-12 18:03:02

越来越多的小城市和县城，只剩下体制内经济了！

越来越多的小城市和县城，只剩下体制内经济了！

灯锦年

2026-05-12 21:06:47

CBA首组半决赛：历史第7次京沪大战时隔25年再争总决赛名额

CBA首组半决赛：历史第7次京沪大战时隔25年再争总决赛名额

醉卧浮生

2026-05-12 22:06:15

出乎众人预料，中方提前48小时官宣特朗普访华，高市早苗心愿落空

出乎众人预料，中方提前48小时官宣特朗普访华，高市早苗心愿落空

策前论

2026-05-11 18:13:56

追觅CEO俞浩：听说某知名科技新贵喜欢看美女，来，满足你

追觅CEO俞浩：听说某知名科技新贵喜欢看美女，来，满足你

财闻

2026-05-12 14:53:07

张本美和态度变了！日媒采访放狠话：后年在日本主场要复仇孙颖莎

张本美和态度变了！日媒采访放狠话：后年在日本主场要复仇孙颖莎

小徐讲八卦

2026-05-12 10:07:29

突发！韩国股市闪崩，瞬间暴跌超500点！SK海力士、三星电子跳水

突发！韩国股市闪崩，瞬间暴跌超500点！SK海力士、三星电子跳水

每日经济新闻

2026-05-12 17:45:51

女子退礼服被商家曝光后续：女方长相扒出，主动退演，称情绪低落

女子退礼服被商家曝光后续：女方长相扒出，主动退演，称情绪低落

李晚书

2026-05-12 18:54:35

一个东北人，在远东承包了1200亩地，种植来自东北的大豆

一个东北人，在远东承包了1200亩地，种植来自东北的大豆

正面连接

2026-05-12 17:55:48

12岁男孩确诊癌症晚期！研究证实：这5种添加剂正在升高癌症风险……

12岁男孩确诊癌症晚期！研究证实：这5种添加剂正在升高癌症风险……

环球网资讯

2026-05-11 14:21:45

苹果AI眼镜官宣：40克超轻，戴上自动调度数

苹果AI眼镜官宣：40克超轻，戴上自动调度数

呼呼历史论

2026-05-11 00:22:15

上海地铁打人爆火！两老人施暴女孩，官方怒批倚老卖老，追责难逃

上海地铁打人爆火！两老人施暴女孩，官方怒批倚老卖老，追责难逃

奇思妙想草叶君

2026-05-12 02:14:56

以前叫人家强哥，现在请叫植物

阿亮评论

2026-05-12 12:18:33

专注时政与思想的新闻平台。

895457文章数 5090959关注度

往期回顾全部

科技要闻

宇树发布载人变形机甲，定价390万元起

头条要闻

特朗普称将同中方讨论对台军售和黎智英案外交部回应

头条要闻

特朗普称将同中方讨论对台军售和黎智英案外交部回应

体育要闻

骑士终于玩明白了？

娱乐要闻

白鹿风波升级！掉粉20万评论区沦陷

财经要闻

利润再腰斩京东干外卖后就没过过好日子

汽车要闻

吉利银河“TT”申报图曝光电动尾翼+激光雷达

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

艺术

家居

教育

手机

本地新闻

用苏绣的方式，打开江西婺源

艺术要闻

震惊！他竟用镜头看透了所有女人的秘密！

家居要闻

极简主义下的居住场域与空间

教育要闻

求求你试试「5+1+1」学习法!!!

手机要闻

WWDC前最后一次大更新！iOS 26.5正式版已发布，升不升看完再说

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版