网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

没有"最强模型"：AI评测正在失效

2026-05-13 07:13:30　来源: 字节漫游指南

北京举报

0

分享至

一个月前，我们发布了2026年第一季度的前沿模型报告。结论很直接：不存在所谓的"最强模型"。

从1月到3月的Stratix评测中，没有任何一家厂商能在五项基准测试中的两项以上领先。

Claude Opus 4.6在SWE-bench Lite上拔得头筹，却在MATH-500上跌出前25名。Grok 4 Fast以89.0%的得分统治LiveCodeBench，却在Terminal-Bench上只拿到25.0%。Gemini 3 Pro拿下Terminal-Bench第一，却连LiveCodeBench前十都没进。

这意味着什么？如果你只看一张排行榜选模型，至少会在一个关键场景上栽跟头。

更麻烦的是AI给AI打分这件事。

我们让六个前沿模型用同一套评分标准，评判同一段智能体执行记录。最终得分差距在10分以内，表面看达成了共识。

但翻开推理过程，完全是另一回事：Claude Opus 4.6扣分是因为审批文档不完整；Gemini 3.1 Pro揪出了前置步骤的排序漏洞；GPT-5.4只关心工具调用是否完整。四个裁判，四种失败理论，四种对"好"的定义。

单裁判流水线里，所有这些细微差别都被压缩成一个数字。

对开发团队来说，现状已经很清楚。模型发布节奏越来越快，依赖单一排行榜或单一裁判评测不再可行。持续的多模型评测，加上完整的推理透明度，正迅速成为生产级AI系统的入场券。

你们现在怎么处理模型选型？有没有在流水线里用多模型评判或陪审团机制？发布周期加快后，哪些评测实践最靠得住？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

神经计算机横空出世：AI不再调用软件，而是直接长成一台计算机

DeepTech深科技 2026-05-03 18:24:37
30 跟贴 30
字节砍掉30%的AI项目？背后的真假与焦虑

钛媒体APP 2026-05-11 18:15:28
82 跟贴 82

DECS从源头消除冗余思考，实现推理token减半且性能不降反升

机器之心Pro 2026-05-12 12:58:05
0 跟贴 0

绝杀！OpenAI正式接管人类耳朵，首个GPT-5级推理音频模型来了

新智元 2026-05-12 19:36:49
9 跟贴 9
谷歌首度证实：黑客已开始用AI发动真实网络攻击！

新智元 2026-05-13 08:08:09
0 跟贴 0

黄仁勋的“五层蛋糕”：AI的底层战争，是能源战争（附全文）

钛媒体APP 2026-03-11 21:03:21
0 跟贴 0

1元钱285万Token的陷阱！起底“AI中转站”：封号跑路，模型降智，倒卖用户数据

每日经济新闻 2026-05-12 13:11:21
0 跟贴 0
Auto Research最后一块拼图,Frontier-Eng Bench,工程闭环里最优

机器之心Pro 2026-05-12 12:14:39
0 跟贴 0

一线调研｜“9.9元跑30多公里”，青岛成无人车角力场：从低价抢客到基建卡位，新石器、九识、滴滴、货拉拉谁在抢跑？

每日经济新闻 2026-05-13 09:00:04
1 跟贴 1
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
200亿美元押注量子计算“iPhone时刻”：复刻AI，还是重演SPAC？

钛媒体APP 2026-05-13 09:23:10
0 跟贴 0
手上带劳力士，却被父亲安排在工厂做流水线工人？

阿鱼吃什么 2026-05-09 06:54:52
0 跟贴 0
假山假景假脸？张艺谋《主角》的爆火，打脸内娱多少流水线年代剧

阿郎娱乐 2026-05-12 05:28:43
5 跟贴 5
日常流水线作业，动作干脆麻利

焦点视讯 2026-05-11 16:46:14
0 跟贴 0
明明是同一个流水线，差距太明显了

欢乐笑料站 2026-05-12 09:51:35
1 跟贴 1
以为纸袋子很高端，原来也是机械流水线，一小时就大几千！

搞笑小石头 2026-05-10 13:30:37
1 跟贴 1
国外工厂流水线，你还敢来吗？我骄傲的小公主

宇宙暖阳静待花开 2026-05-12 09:45:02
1 跟贴 1
规则漏洞被利用，杜卡迪优势惨遭终结

暖阳喵 2026-05-09 10:36:31
39 跟贴 39
中国现代化无人机生产线，流水线批量制造

装甲铲史官 2026-01-10 10:45:06
0 跟贴 0
普惠XA103自适应发动机达成关键就绪节点

看航空 2026-05-11 17:11:19
1 跟贴 1
数据湖面试的四个底层模型：别急着报厂商名字

Ping值焦虑 2026-05-11 11:46:50
0 跟贴 0
开发者薪酬悖论：谁在拿"泡沫工资"，谁又被低估？

硅屿手记 2026-05-10 08:39:09
2 跟贴 2
工厂大姨配合冲压，这个除非机器开关故障，不然很难搞到手！

旅游小达人看世界 2026-05-11 13:39:48
0 跟贴 0
流水线的岗位，还有存在的意义吗？

柒七电影解说 2026-05-10 17:06:57
1 跟贴 1
让跑者见证从一块车板到整车装备的过程

心闻故事 2026-05-11 06:35:22
0 跟贴 0
结婚前一晚打包喜糖，把包喜糖干成了流水线工作，网友：这效率比一个人包快不少

安全与法 2026-05-10 14:16:37
0 跟贴 0
男子干流水线搬砖，臂力简直惊人，手速不是一天练的！

大斌爱搞笑 2026-05-12 13:47:18
1 跟贴 1
机器清洗胡萝卜流水线！

君宝穷游中国 2026-05-11 17:21:40
1 跟贴 1
姚来英已任中国烟草总公司总经理

界面新闻 2026-05-12 11:12:28
9848 跟贴 9848
方便面流水线，都是自动化的！

德花影王 2026-05-11 13:31:09
4 跟贴 4
水泥厂装车，都是流水线！

小王影视剪辑 2026-05-11 13:34:21
1 跟贴 1
服装工厂最优车间布局应该是这样的

服装精益智能制造俱乐部 2026-05-12 06:30:19
0 跟贴 0
医疗软件工程师必须掌握的六大标准

爬虫饲养员 2026-05-11 09:50:50
0 跟贴 0
10年前表弟在深圳一家电子厂做暑假工

麦驼oat 2026-05-12 02:26:16
0 跟贴 0
德国突然跑到基辅签了十年合同，无人机这事变了味儿

心灵得以滋养 2026-05-12 19:28:59
0 跟贴 0
突然爆火！湖北37岁小伙吹气球，半个月赚了60万！

大风新闻 2026-05-12 21:05:08
119 跟贴 119
何恺明首个语言模型：105M参数，不走GPT自回归老路

量子位 2026-05-13 09:21:00
0 跟贴 0
剧本杀6小时，我算出了凶手是平行宇宙

菜但瘾大第一名 2026-05-12 16:32:14
0 跟贴 0
中国唱功最好的十位女歌手排行榜你知道她是谁吗？

心灵的创伤 2026-05-13 00:17:45
1 跟贴 1
广州中考名额分配详细结果出炉：谁家拿到9个二中名额？

南方都市报 2026-05-12 19:06:26
332 跟贴 332

市民在上海街边看到“好东西”售价仅35元，最后竟被迫支付了8700！还是假货！果断报警

市民在上海街边看到“好东西”售价仅35元，最后竟被迫支付了8700！还是假货！果断报警

环球网资讯

2026-05-12 14:30:58

奥迪 E7X 开启预售限时28.98万元起

奥迪 E7X 开启预售限时28.98万元起

华西都市报

2026-05-13 02:15:07

胖虎：有一次巴西队半场出现争执，安帅抽完烟后讲话平复众人

胖虎：有一次巴西队半场出现争执，安帅抽完烟后讲话平复众人

懂球帝

2026-05-13 08:57:18

75岁大爷与保姆生下儿子，做亲子鉴定后，大爷却被子女们气得心梗

75岁大爷与保姆生下儿子，做亲子鉴定后，大爷却被子女们气得心梗

黄家湖的忧伤

2025-03-06 09:30:21

中国政府奖学金留学人员抵达平壤，正式开启在朝留学生活

中国政府奖学金留学人员抵达平壤，正式开启在朝留学生活

大风新闻

2026-05-11 08:36:09

A·史密斯认为尼克斯队，是勒布朗·詹姆斯5亿美元合同的最佳选择

A·史密斯认为尼克斯队，是勒布朗·詹姆斯5亿美元合同的最佳选择

好火子

2026-05-13 00:41:17

今天上海局部有雨，最高31℃

鲁中晨报

2026-05-13 07:26:05

“不签20%分成协议，就不让招生、不给宣传”，深圳红立方被曝向商户索要利润分成

“不签20%分成协议，就不让招生、不给宣传”，深圳红立方被曝向商户索要利润分成

小陆搞笑日常

2026-05-13 00:12:34

1980年钟伟直呼毛主席大名，黄克诚举拐怒斥：你老小子真是忘了本

1980年钟伟直呼毛主席大名，黄克诚举拐怒斥：你老小子真是忘了本

史之铭

2026-05-12 20:53:20

死里逃生！U17国足时隔21年重返世界大赛，圆满晋级世少赛！

死里逃生！U17国足时隔21年重返世界大赛，圆满晋级世少赛！

田先生篮球

2026-05-13 09:29:30

奥巴梅扬拿灭火器狂喷高层遭弃用！马赛封闭集训变派对

奥巴梅扬拿灭火器狂喷高层遭弃用！马赛封闭集训变派对

仰卧撑FTUer

2026-05-12 18:18:06

伊朗北部发生地震德黑兰震感明显

伊朗北部发生地震德黑兰震感明显

财联社

2026-05-13 04:35:10

曾发涉港不当言论！NBA名记Shams：76人队解雇总经理莫雷

曾发涉港不当言论！NBA名记Shams：76人队解雇总经理莫雷

全景体育V

2026-05-13 08:14:35

法总统候选人梅朗雄放话：如果成功当选总统，法国将退出北约

法总统候选人梅朗雄放话：如果成功当选总统，法国将退出北约

上观新闻

2026-05-12 13:58:15

真怕黑色3分钟！国少最后阶段踢得太乱了球迷：日本教练非蠢即坏

真怕黑色3分钟！国少最后阶段踢得太乱了球迷：日本教练非蠢即坏

刀锋体育

2026-05-13 09:02:55

谁，在为俞浩的“表演”埋单？

小蜜情感说

2026-05-12 16:06:53

皇马内乱不断，曼联酝酿重磅挖角巴尔韦德，夏窗强势出手

皇马内乱不断，曼联酝酿重磅挖角巴尔韦德，夏窗强势出手

夜白侃球

2026-05-13 09:35:03

手机号要变了：中国移动开了个头

手机号要变了：中国移动开了个头

林子说事

2026-05-12 18:37:55

看是御姐，脸还能打，肉却 “软趴趴” 了

看是御姐，脸还能打，肉却 “软趴趴” 了

飛娱日记

2026-03-13 11:31:29

十年前，易建联花1000万在洛杉矶买下豪宅，如今出售市值多少？

十年前，易建联花1000万在洛杉矶买下豪宅，如今出售市值多少？

小兰聊历史

2026-04-26 08:44:22

字节漫游指南

有态度网友ytd

3787文章数 40关注度

往期回顾全部

科技要闻

谷歌剧透安卓重大升级 Gemini深度集成底层

头条要闻

牛弹琴：印度的大麻烦来了 CNN的报道更是触目惊心

头条要闻

牛弹琴：印度的大麻烦来了 CNN的报道更是触目惊心

体育要闻

骑士终于玩明白了？

娱乐要闻

白鹿风波升级！掉粉20万评论区沦陷

财经要闻

深圳夫妻囤芯片，身家飙涨320亿

汽车要闻

吉利银河“TT”申报图曝光电动尾翼+激光雷达

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房产

健康

游戏

旅游

公开课

房产要闻

穗八条引爆楼市！万博宝藏红盘，五一劲销出圈

干细胞能让人“返老还童”吗

《深海迷航2》也在发售前两天泄露完整版本

旅游要闻

5月15日嗨玩节来袭蚌埠本土文创邀您带走珠城韵味

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版