网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

这个AI评分系统，为什么越用越让人困惑？

2026-05-06 00:11:33　来源: 赛博兰博

北京举报

0

分享至

当你看到"某模型在综合榜单排名第一"时，有没有想过——这个分数到底怎么算出来的？

一个"方便但危险"的评分工具

人工分析指数（Artificial Analysis Index）把多个基准测试的分数归一化处理，捏成一个数字。初衷很简单：让外行也能快速比较不同模型。

但问题就出在这个"方便"上。

两次踩坑：版本变更与趋势误判

这个指数的算法历史上变过好几次。今天看到的85分和去年的85分，底层含义可能完全不同。

更麻烦的是趋势分析。指数设计初衷就是横向对比，拿来追踪某个模型的进步曲线，数据会骗人。

核心盲区：我们不知道它在测什么

原文最尖锐的批评留到了最后——这个指数究竟在衡量什么能力，至今没有清晰定义。是推理？是知识？还是指令遵循？

一个连测量目标都模糊的尺子，量出来的"第一"有多大参考价值？

当行业越来越依赖这类综合评分做采购决策时，这个设计缺陷的影响会被放大。或许该回到具体任务的具体表现，而不是追逐一个漂亮的总分。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

1美元Token撬动4800美元收益!百万美元级基准,最赚钱Agent出现了

机器之心Pro 2026-03-10 10:06:03
0 跟贴 0
英伟达13倍涨幅不过尔尔？自ChatGPT问世以来的AI疯牛榜正发生巨变！

财联社 2026-05-09 10:42:25
0 跟贴 0

00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0

CDN服务商挤上AI牌桌：这家公司与Anthropic签七年长约边缘推理成合作重点

财联社 2026-05-09 11:03:04
0 跟贴 0
港科大联手社区开源StarVLA：一个框架揭秘所有主流VLA

机器之心Pro 2026-05-09 11:30:18
0 跟贴 0

这个时代必须以Agent为中心：三个趋势回顾

量子位 2026-04-05 02:14:15
0 跟贴 0

AI开始接管年轻人的「精神自留地」

36氪 2026-05-09 11:03:21
0 跟贴 0
特斯拉Model Y通过美国新辅助驾驶基准全球首款！

CNMO科技 2026-05-08 08:06:07
18 跟贴 18

MoE路由拥有「记忆」：RMS-MoE用检索记忆协同实现更高效专家调度

机器之心Pro 2026-05-09 09:37:42
0 跟贴 0
业绩不达标要“动刀”了！12家公募排队整改，谁在瑟瑟发抖？

独角金融 2026-05-08 16:06:26
0 跟贴 0
500个好友0个倾听者：越连接越孤独的现代悖论

时光慢邮啊 2026-05-09 06:15:41
0 跟贴 0
广东省2026年专升本分数线公布

潮TV 2026-05-08 09:38:41
2 跟贴 2
女子拿爱心冰箱的免费水洗脚，下一秒“现世报”滑倒跪地，网友：善有善报，恶有恶报

BRTV新闻 2026-05-08 21:12:25
312 跟贴 312
专家观点 | “城乡建设用地基准地价与土地价值管理”专题研讨咨询会专家发言摘录（五）

上观新闻 2026-05-06 17:14:04
0 跟贴 0
帅化民：大陆这个无人化的趋势，已经开始蔓延了

果妈聊娱乐 2026-05-05 15:54:25
0 跟贴 0
车主开车驶进小巷子里，下一秒男子骑车逆行过来直接撞上，网友:有盲区一定要提前按一下喇叭

小白社会观察站 2026-05-09 10:54:10
0 跟贴 0
国产新能源故意设计缺陷，让消费者多花钱的行为真的很让人气愤

大嘴日记 2026-05-07 16:31:23
3 跟贴 3
俄罗斯宣布“胜利日”莫斯科等地暂时断网！近一年来俄固定电话需求飙升

红星新闻 2026-05-08 12:51:17
5304 跟贴 5304
自己录音不让游客录，上海迪士尼被指“双标”！客服：介意录音可以不来电

北京商报 2026-05-08 16:09:22
2414 跟贴 2414
天舟飞船为什么不回收而是坠入大海？专家：增加返回功能会挤占运货空间，飞船大部分结构烧蚀气化，少量残骸不会造成威胁

极目新闻 2026-05-08 21:58:00
3215 跟贴 3215
男人内心很简单，让他不出门找小三，满足他这六个要求就好！

嗡嗡生活说 2026-05-07 08:57:37
0 跟贴 0
Excel双层总分图来了

Excel从零到一 2026-05-08 20:44:29
5 跟贴 5
晋级决赛！巴黎总分6-5拜仁将战阿森纳，禁区内明显手球未判点

小叶子侃球FM 2026-05-07 12:30:50
3 跟贴 3
“排队3小时，打卡1分钟”，多景区迎“泼天流量”

澎湃新闻 2026-05-06 00:04:10
3855 跟贴 3855
金包银当黄金，卖日本人骗400多万，这算不算曲线复仇？

好汉笑场 2026-05-08 14:23:08
1 跟贴 1
开车的安全意识盲区非常可怕，无知者真的会无畏

老萧说车 2026-05-08 13:09:38
6 跟贴 6
驻非人员青睐非洲妻子：揭秘跨国婚姻趋势

玫瑰进化出獠牙h 2026-05-06 11:14:30
0 跟贴 0
鲁比奥：如果俄乌谈判再无进展美方不愿再“浪费时间”

财联社 2026-05-09 04:47:18
14 跟贴 14
榴莲仅退款商家回应买方被行拘

现代快报 2026-05-08 17:39:41
459 跟贴 459
茶颜悦色，装不下去了

中国新闻周刊 2026-05-07 22:15:57
299 跟贴 299
30条中日航线，4月取消全部航班

都市快报橙柿互动 2026-05-08 13:42:34
1812 跟贴 1812
问界M9零重力座椅夹人事件：一场由"信仰测试"引发的安全争议

可达鸭面面观 2026-05-08 18:42:02
0 跟贴 0
坐高铁01C座被过往乘客腿脚、行李箱磕碰，“8小时被踢了10次”！网友：很憋屈很无语！12306回应

扬子晚报 2026-05-08 20:44:19
38 跟贴 38
晋级欧冠决赛！巴黎总分6-5淘汰拜仁，登贝莱3分钟闪击凯恩破门

体坛最前言 2026-05-07 06:18:20
4 跟贴 4
升温提速，连续30℃要来了！

上观新闻 2026-05-09 10:24:10
0 跟贴 0
2026世界旅游小姐冠军惊艳亮相，完美曲线惊艳全场！

挖掘笑点坊 2026-05-07 10:25:16
1 跟贴 1
iOS 26.5下周正式推送，一口气上线五大新功能

环球网资讯 2026-05-08 10:49:06
533 跟贴 533
八年级指数幂运算，你用几秒？

郎老师趣味数学课堂 2026-05-05 08:03:06
0 跟贴 0
小黑车见缝插针，下秒大货车盲区教他做人，这教训能让他记一辈子

宁宁的旅行 2026-05-09 09:20:19
3 跟贴 3
美股三大指数集体收涨，道指收涨0.02%，纳指涨1.71%，标普500涨0.84%

每日经济新闻 2026-05-09 06:13:04
214 跟贴 214

日本布下反华包围圈后，越南做出明确表态，东南亚风向彻底变了

日本布下反华包围圈后，越南做出明确表态，东南亚风向彻底变了

霁寒飘雪

2026-05-06 14:38:27

41岁C罗遭暴击？沙特巨头2-1夺沙王冠+4年3冠 4天后与胜利大决战

41岁C罗遭暴击？沙特巨头2-1夺沙王冠+4年3冠 4天后与胜利大决战

风过乡

2026-05-09 05:56:30

太阳报：卡塞米罗将生涯下一站交给一直支持他的妻子决定

太阳报：卡塞米罗将生涯下一站交给一直支持他的妻子决定

懂球帝

2026-05-08 22:09:49

下周，40℃要来了！气象专家回应“史上最热夏天”

下周，40℃要来了！气象专家回应“史上最热夏天”

新浪财经

2026-05-09 10:09:55

世界正在发生一个极其恶心的变化！印度最终可能会成为地球大患

世界正在发生一个极其恶心的变化！印度最终可能会成为地球大患

世界圈

2026-05-04 16:42:27

美议员：特朗普和梅拉尼娅都同意我的观点，爱泼斯坦不是单独行动

美议员：特朗普和梅拉尼娅都同意我的观点，爱泼斯坦不是单独行动

究竟谁主沉浮

2026-05-09 08:08:25

王励勤马龙许昕三人同步握拳那一幕眼泪直接下来了！樊振东心酸了

王励勤马龙许昕三人同步握拳那一幕眼泪直接下来了！樊振东心酸了

乐悠悠娱乐

2026-05-09 10:41:34

活塞超级奇兵，邓罗三分爆发，从热火弃子强势逆袭

活塞超级奇兵，邓罗三分爆发，从热火弃子强势逆袭

秋姐居

2026-05-09 10:43:47

鲁比奥大概率永远来不了北京！

安安说

2026-05-09 10:56:46

中指研究院：4月重点城市二手房成交量增长明显百城新房均价同比上涨2.18%

中指研究院：4月重点城市二手房成交量增长明显百城新房均价同比上涨2.18%

智通财经

2026-05-06 17:23:33

比安德森还强！罗马诺曝光曼联梦想目标，谈判即将开启

比安德森还强！罗马诺曝光曼联梦想目标，谈判即将开启

澜归序

2026-05-09 06:20:24

叶珂终于摊牌！生女两年无名分，分手真相扯出黄晓明私生活

叶珂终于摊牌！生女两年无名分，分手真相扯出黄晓明私生活

橙星文娱

2026-05-08 09:06:29

央媒点名、观众唾弃！这四个臭名昭著的相声演员，各个都难以原谅

央媒点名、观众唾弃！这四个臭名昭著的相声演员，各个都难以原谅

晓帝爱八卦

2026-05-09 04:52:53

工作群突然解散！网传武汉一外包公司大量裁员，3000元打发走人

工作群突然解散！网传武汉一外包公司大量裁员，3000元打发走人

火山詩话

2026-05-09 06:03:43

一句凡尔赛震惊29队老板，未入联盟引爆风波，詹皇牵动整个NBA

一句凡尔赛震惊29队老板，未入联盟引爆风波，詹皇牵动整个NBA

不似少年游

2026-05-09 10:43:34

47岁韩国影后西湖夜跑！独自逛超市，没戴帽子口罩，全程无人认出

47岁韩国影后西湖夜跑！独自逛超市，没戴帽子口罩，全程无人认出

趣味八卦

2026-05-09 00:53:03

女学霸发明“咯噔字体”，老师低分警告：别用个性挑战考试底线

女学霸发明“咯噔字体”，老师低分警告：别用个性挑战考试底线

蝴蝶花雨话教育

2026-05-07 00:05:04

演员张瑜离婚单身30年，68岁再见前夫仍心动

演员张瑜离婚单身30年，68岁再见前夫仍心动

看尽落尘花q

2026-05-08 21:15:59

去山姆最适合孩子吃的6种美食，全是高口碑，遇到了可别错过

去山姆最适合孩子吃的6种美食，全是高口碑，遇到了可别错过

餐饮新纪元

2026-05-09 07:11:10

iPhone 17 Pro Max拍电影节入围片，苹果生态秀肌肉

iPhone 17 Pro Max拍电影节入围片，苹果生态秀肌肉

闪存猎手

2026-05-08 08:13:09

专注捣鼓AI效率工具，试图在这个时代留下数字分身的探索者。

2374文章数 26关注度

往期回顾全部

科技要闻

美国政府强力下场苹果英特尔达成代工协议

头条要闻

年轻女子190元买榴莲仅退款被拘留代收点离家3公里

头条要闻

年轻女子190元买榴莲仅退款被拘留代收点离家3公里

体育要闻

成立128年后，这支升班马首夺顶级联赛冠军

娱乐要闻

张艺谋《印象刘三姐》全裸镜头引争议

财经要闻

Meta疯狂拥抱人工智能：员工苦不堪言

汽车要闻

全系智能泊车铂智3X年款升级限时权益价9.48万起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房产

家居

艺术

本地

手机

房产要闻

豪掷6.8亿拿地！何猷君大手笔投资三亚！

家居要闻

菁英人居全能豪宅

艺术要闻

齐白石紫藤蜜蜂

本地新闻

用苏绣的方式，打开江西婺源

手机要闻

涵盖“人车家”生态全品类，小米上半年未发布产品盘点

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版