网易首页 > 网易号 > 正文 申请入驻

牛津大学研究:当前基准测试普遍夸大了 AI 模型的性能

0
分享至

IT之家 11 月 6 日消息,一项新研究称,当前用于评估人工智能(AI)系统能力的方法普遍存在夸大 AI 性能的问题,且缺乏科学严谨性。


据IT之家了解,该研究由牛津大学互联网研究所(Oxford Internet Institute)牵头,并联合来自其他机构的 30 多位研究人员共同完成。研究团队对 445 项主流 AI 测试(即“基准测试”,benchmarks)进行了系统分析,这些测试通常用于衡量 AI 模型在各种主题领域的表现。

AI 开发者和研究人员常借助这些基准测试来评估模型能力,并以此宣称技术进步,从软件工程能力到抽象推理能力等。然而,本周二发布的这篇论文指出,这些被视为基础的测试可能并不可靠,并对大量基准测试结果的有效性提出质疑。

根据研究,大量顶级基准测试未能明确定义其测试目标,且重复使用已有基准的数据和测试方法,并且很少采用可靠的统计方法来比较不同模型之间的结果。

牛津大学互联网研究所高级研究员、该研究的共同第一作者亚当・马赫迪(Adam Mahdi)表示,这些基准测试可能具有惊人的误导性。他告诉 NBC 新闻:“当我们要求 AI 模型执行某些任务时,实际上往往测量的是完全不同于我们最初意图测量的概念。”

另一位共同第一作者、牛津大学互联网研究所研究员安德鲁・比恩(Andrew Bean)也表示,即便是声誉良好的基准测试也常常被盲目信任,理应接受更严格的审视。他表示:“当你听到‘某个模型达到博士水平的智能’这类说法时,一定要持保留态度。我们并不确定这些测量是否真的做得很好。”

研究中分析的部分基准测试衡量特定技能,如俄语或阿拉伯语能力;另一些则衡量更通用的能力,如空间推理或持续学习能力。

作者们关注的核心问题在于:某一基准测试是否真正有效衡量了其所声称要测量的现实世界现象 —— 研究者称之为“构念效度”(construct validity)。例如,一项被研究审查的基准测试并非通过无休止的问题来评估模型的俄语表达能力,而是通过九项不同任务(如利用俄语维基百科信息回答是非题)来衡量模型表现。

然而,研究发现,约一半的基准测试未能清晰界定其所声称要测量的概念,这使其能否提供关于 AI 模型的有用信息受到严重质疑。

研究以“小学数学 8K”(Grade School Math 8K,简称 GSM8K)这一常见 AI 基准测试为例。该测试通过一组基础数学题评估模型表现。外界常引用 GSM8K 排行榜来证明 AI 模型在基础数学推理方面能力出众,其官方文档也称其“有助于探查大语言模型的非形式化推理能力”。

但研究作者马赫迪指出,在 GSM8K 等基准测试中答对问题,并不一定意味着模型真正进行了数学推理。他表示:“当你问一年级学生 2 加 5 等于几,他们回答 7,没错,这是正确答案。但你能据此断定五年级学生仅凭会做加法就掌握了数学推理或算术推理吗?或许可以,但我认为答案很可能是否定的。”

比恩承认,像“推理”这类模糊概念的测量必然依赖对任务子集的评估,而这种选择不可避免地存在缺陷。他说道:“这些评估包含许多动态因素,要兼顾所有方面需要平衡。但本研究呼吁基准测试必须清晰界定其测量目标。”

他补充道:“对于‘无害性’或‘推理’这类概念,人们常常只是随便选一个接近该范畴、便于测量的东西,就说‘好了,我已经测出来了’。”

在这篇新论文中,作者提出了八项具体建议,并提供了一份检查清单,旨在使基准测试标准系统化,提升其透明度与可信度。建议的改进措施包括:明确界定所评估行为的具体范围;构建更能代表整体能力的任务组合;以及通过统计分析比较模型表现。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
换帅!市委副书记,出任高校党委书记

换帅!市委副书记,出任高校党委书记

双一流高校
2026-01-14 21:12:04
西班牙记者:老佛爷的最终目标是迎回穆里尼奥

西班牙记者:老佛爷的最终目标是迎回穆里尼奥

油泼辣不辣
2026-01-14 17:51:12
你们可能被特朗普骗了,特朗普有可能真的是美国最伟大的总统

你们可能被特朗普骗了,特朗普有可能真的是美国最伟大的总统

流苏晚晴
2026-01-10 16:24:45
缅北医疗船揭秘!比电诈区园区还可怕,1万条鲨鱼在船下徘徊

缅北医疗船揭秘!比电诈区园区还可怕,1万条鲨鱼在船下徘徊

狗仔故事会
2024-09-04 22:27:36
中戏辟谣后,闫学晶儿子又被举报了,如今央媒下场,这下麻烦大了

中戏辟谣后,闫学晶儿子又被举报了,如今央媒下场,这下麻烦大了

叨唠
2026-01-14 04:47:42
王钰栋:大家能走到这因为团结,没进球所以对自己不满意

王钰栋:大家能走到这因为团结,没进球所以对自己不满意

懂球帝
2026-01-14 23:43:25
吓出冷汗!一批致癌物洗发水被曝光,霸王强生都踩雷

吓出冷汗!一批致癌物洗发水被曝光,霸王强生都踩雷

老特有话说
2026-01-14 22:08:59
吉林省副省长杨安娣获增补为省政协委员

吉林省副省长杨安娣获增补为省政协委员

澎湃新闻
2026-01-14 17:58:27
轰32+10+7!詹姆斯就是领袖,艾顿赛后摊牌了,东契奇也说出优点

轰32+10+7!詹姆斯就是领袖,艾顿赛后摊牌了,东契奇也说出优点

巴叔GO聊体育
2026-01-14 16:43:05
涉嫌严重违纪违法,教育部教育督导局副局长杨宇接受审查调查

涉嫌严重违纪违法,教育部教育督导局副局长杨宇接受审查调查

上观新闻
2026-01-14 16:34:03
为什么熬过低谷的人,都会断绝很多关系?

为什么熬过低谷的人,都会断绝很多关系?

洞见
2026-01-05 21:10:36
化身叹息之墙!U23亚洲杯小组赛扑救榜:李昊16次大幅领先

化身叹息之墙!U23亚洲杯小组赛扑救榜:李昊16次大幅领先

懂球帝
2026-01-15 00:27:09
中组部、人社部发布通知

中组部、人社部发布通知

政知新媒体
2026-01-11 14:24:03
78:18!石破茂力挺高市:无需道歉,中日关系已恶化,在野党亮剑

78:18!石破茂力挺高市:无需道歉,中日关系已恶化,在野党亮剑

潮鹿逐梦
2026-01-13 21:08:50
官宣!300111,被立案调查

官宣!300111,被立案调查

中国基金报
2026-01-14 21:56:21
委内政部长表示美国袭击致超过100人死亡,“爆炸威力巨大无法进行DNA鉴定”

委内政部长表示美国袭击致超过100人死亡,“爆炸威力巨大无法进行DNA鉴定”

大风新闻
2026-01-14 10:15:03
2026年还买油车的人,是“聪明”还是“愚蠢”?专家撕开遮羞布

2026年还买油车的人,是“聪明”还是“愚蠢”?专家撕开遮羞布

老特有话说
2026-01-12 17:42:25
隐忍24年,陈婷终于撕下完美伪装,她给所有“已婚女人”上了一课

隐忍24年,陈婷终于撕下完美伪装,她给所有“已婚女人”上了一课

近史谈
2025-12-27 13:49:49
1975年,基辛格给毛主席下了一道命令,主席写了张纸条回击,尼克松看后直摇头:这气魄谁能比?

1975年,基辛格给毛主席下了一道命令,主席写了张纸条回击,尼克松看后直摇头:这气魄谁能比?

老杉说历史
2026-01-12 22:07:15
原来大佬写的推荐信都这么短啊 ​​!网友:有用不在于字多

原来大佬写的推荐信都这么短啊 ​​!网友:有用不在于字多

夜深爱杂谈
2026-01-10 22:24:02
2026-01-15 02:47:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
324586文章数 606879关注度
往期回顾 全部

科技要闻

携程因涉嫌垄断被市场监管总局调查

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

网红彭十六偷税被封杀 曾成功转型明星

财经要闻

携程被立案调查,最高或被罚超50亿

汽车要闻

曝Model Y或降到20万以内!

态度原创

健康
数码
本地
公开课
军事航空

血常规3项异常,是身体警报!

数码要闻

存储涨价冲击DIY市场,DDR3主板销量意外逆势倍增

本地新闻

邵阳公益诉讼检察主题曲:《守望星》

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

中东气氛愈发紧张 伊朗处于最高战备状态

无障碍浏览 进入关怀版