当你看到"某模型在综合榜单排名第一"时,有没有想过——这个分数到底怎么算出来的?
一个"方便但危险"的评分工具
![]()
人工分析指数(Artificial Analysis Index)把多个基准测试的分数归一化处理,捏成一个数字。初衷很简单:让外行也能快速比较不同模型。
但问题就出在这个"方便"上。
两次踩坑:版本变更与趋势误判
这个指数的算法历史上变过好几次。今天看到的85分和去年的85分,底层含义可能完全不同。
更麻烦的是趋势分析。指数设计初衷就是横向对比,拿来追踪某个模型的进步曲线,数据会骗人。
核心盲区:我们不知道它在测什么
原文最尖锐的批评留到了最后——这个指数究竟在衡量什么能力,至今没有清晰定义。是推理?是知识?还是指令遵循?
一个连测量目标都模糊的尺子,量出来的"第一"有多大参考价值?
当行业越来越依赖这类综合评分做采购决策时,这个设计缺陷的影响会被放大。或许该回到具体任务的具体表现,而不是追逐一个漂亮的总分。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.