网易首页 > 网易号 > 正文 申请入驻

牛津大学研究:当前基准测试普遍夸大了 AI 模型的性能

0
分享至

IT之家 11 月 6 日消息,一项新研究称,当前用于评估人工智能(AI)系统能力的方法普遍存在夸大 AI 性能的问题,且缺乏科学严谨性。


据IT之家了解,该研究由牛津大学互联网研究所(Oxford Internet Institute)牵头,并联合来自其他机构的 30 多位研究人员共同完成。研究团队对 445 项主流 AI 测试(即“基准测试”,benchmarks)进行了系统分析,这些测试通常用于衡量 AI 模型在各种主题领域的表现。

AI 开发者和研究人员常借助这些基准测试来评估模型能力,并以此宣称技术进步,从软件工程能力到抽象推理能力等。然而,本周二发布的这篇论文指出,这些被视为基础的测试可能并不可靠,并对大量基准测试结果的有效性提出质疑。

根据研究,大量顶级基准测试未能明确定义其测试目标,且重复使用已有基准的数据和测试方法,并且很少采用可靠的统计方法来比较不同模型之间的结果。

牛津大学互联网研究所高级研究员、该研究的共同第一作者亚当・马赫迪(Adam Mahdi)表示,这些基准测试可能具有惊人的误导性。他告诉 NBC 新闻:“当我们要求 AI 模型执行某些任务时,实际上往往测量的是完全不同于我们最初意图测量的概念。”

另一位共同第一作者、牛津大学互联网研究所研究员安德鲁・比恩(Andrew Bean)也表示,即便是声誉良好的基准测试也常常被盲目信任,理应接受更严格的审视。他表示:“当你听到‘某个模型达到博士水平的智能’这类说法时,一定要持保留态度。我们并不确定这些测量是否真的做得很好。”

研究中分析的部分基准测试衡量特定技能,如俄语或阿拉伯语能力;另一些则衡量更通用的能力,如空间推理或持续学习能力。

作者们关注的核心问题在于:某一基准测试是否真正有效衡量了其所声称要测量的现实世界现象 —— 研究者称之为“构念效度”(construct validity)。例如,一项被研究审查的基准测试并非通过无休止的问题来评估模型的俄语表达能力,而是通过九项不同任务(如利用俄语维基百科信息回答是非题)来衡量模型表现。

然而,研究发现,约一半的基准测试未能清晰界定其所声称要测量的概念,这使其能否提供关于 AI 模型的有用信息受到严重质疑。

研究以“小学数学 8K”(Grade School Math 8K,简称 GSM8K)这一常见 AI 基准测试为例。该测试通过一组基础数学题评估模型表现。外界常引用 GSM8K 排行榜来证明 AI 模型在基础数学推理方面能力出众,其官方文档也称其“有助于探查大语言模型的非形式化推理能力”。

但研究作者马赫迪指出,在 GSM8K 等基准测试中答对问题,并不一定意味着模型真正进行了数学推理。他表示:“当你问一年级学生 2 加 5 等于几,他们回答 7,没错,这是正确答案。但你能据此断定五年级学生仅凭会做加法就掌握了数学推理或算术推理吗?或许可以,但我认为答案很可能是否定的。”

比恩承认,像“推理”这类模糊概念的测量必然依赖对任务子集的评估,而这种选择不可避免地存在缺陷。他说道:“这些评估包含许多动态因素,要兼顾所有方面需要平衡。但本研究呼吁基准测试必须清晰界定其测量目标。”

他补充道:“对于‘无害性’或‘推理’这类概念,人们常常只是随便选一个接近该范畴、便于测量的东西,就说‘好了,我已经测出来了’。”

在这篇新论文中,作者提出了八项具体建议,并提供了一份检查清单,旨在使基准测试标准系统化,提升其透明度与可信度。建议的改进措施包括:明确界定所评估行为的具体范围;构建更能代表整体能力的任务组合;以及通过统计分析比较模型表现。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
米舒斯京一回国,普京召所有重要部门,一起听从中国带来的好消息

米舒斯京一回国,普京召所有重要部门,一起听从中国带来的好消息

剑哥的思政课
2025-11-10 10:02:41
一年违规罚款近两千亿元,交警的工资又由国家发放,罚款都去哪了

一年违规罚款近两千亿元,交警的工资又由国家发放,罚款都去哪了

闻识
2025-11-05 16:51:21
医院回应、卫健委通报!当事人已报警,副院长和女医生难逃处分

医院回应、卫健委通报!当事人已报警,副院长和女医生难逃处分

奇思妙想草叶君
2025-11-08 21:27:03
4个老婆,全家移民,享受正师级待遇,潘长江身上哪个标签是真的

4个老婆,全家移民,享受正师级待遇,潘长江身上哪个标签是真的

往史过眼云烟
2025-10-11 11:56:09
深绿网民发起2028“大选”支持率调查,赖清德竟惨输“路人甲”

深绿网民发起2028“大选”支持率调查,赖清德竟惨输“路人甲”

海峡导报社
2025-11-10 07:11:10
博主模仿李湘冲上热搜,李湘发文晒瘦身照回击,看来她也坐不住了

博主模仿李湘冲上热搜,李湘发文晒瘦身照回击,看来她也坐不住了

嘴角上翘的弧度
2025-11-07 17:44:19
在山东,算不算富裕家庭?三个条件满足其一就算,看你家达标没

在山东,算不算富裕家庭?三个条件满足其一就算,看你家达标没

慧眼看世界哈哈
2025-11-10 05:47:48
在岛国上过课的超级甜妹—Laney Grey

在岛国上过课的超级甜妹—Laney Grey

吃瓜党二号头目
2025-11-10 09:42:50
“最帅展昭”离世,享年58岁!

“最帅展昭”离世,享年58岁!

黎兜兜
2025-11-08 21:22:56
松岛枫:昔日女神的低调生活

松岛枫:昔日女神的低调生活

素然追光
2025-11-09 00:51:23
40岁女医生曾琦的日常工作被披露!一天“精准卡点”的战斗模式…

40岁女医生曾琦的日常工作被披露!一天“精准卡点”的战斗模式…

火山诗话
2025-11-07 11:46:47
全面反华开始?日本政府连开3枪,出兵威胁已发,解放军别无选择

全面反华开始?日本政府连开3枪,出兵威胁已发,解放军别无选择

军机Talk
2025-11-07 14:51:42
想不到这么漂亮的美女能当上领导,她肯定会为人民服务的

想不到这么漂亮的美女能当上领导,她肯定会为人民服务的

情感大头说说
2025-11-10 10:30:33
中年夫妻的婚姻都是怎样的?网友:我俩都是41,为啥他体力那么好

中年夫妻的婚姻都是怎样的?网友:我俩都是41,为啥他体力那么好

带你感受人间冷暖
2025-09-24 00:15:08
日产宣布横滨总部大楼售出 以970亿日元转让中国汽车零组件大厂

日产宣布横滨总部大楼售出 以970亿日元转让中国汽车零组件大厂

卡奇拉的派
2025-11-09 19:00:48
差距一目了然!旅美四名NCAA小将的表现完全不在一个档次!

差距一目了然!旅美四名NCAA小将的表现完全不在一个档次!

田先生篮球
2025-11-09 20:20:34
最新世界排名公布:吴宜泽夺冠,丁俊晖下滑,赵心童升至中国第一

最新世界排名公布:吴宜泽夺冠,丁俊晖下滑,赵心童升至中国第一

稗官青史
2025-11-09 22:40:02
先礼后兵?1天内,中国对美连退三步,这不是妥协,而是最终警告

先礼后兵?1天内,中国对美连退三步,这不是妥协,而是最终警告

忠诚TALK
2025-11-10 09:51:58
1200人挤在大海中央生活一辈子:没有法律、没有婚姻,人均活90岁

1200人挤在大海中央生活一辈子:没有法律、没有婚姻,人均活90岁

历史有些冷
2025-10-30 21:35:03
有人问安世破产谁损失大?损失的只有中企,荷兰能有什么损失呢

有人问安世破产谁损失大?损失的只有中企,荷兰能有什么损失呢

南权先生
2025-10-23 12:11:28
2025-11-10 11:15:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
314304文章数 606727关注度
往期回顾 全部

科技要闻

存储芯片大厂涨价50%!华强北一天一个价

头条要闻

媒体:高市早苗疯言台湾问题 中方对她没什么好客气的

头条要闻

媒体:高市早苗疯言台湾问题 中方对她没什么好客气的

体育要闻

他只想默默地拿走最后一亿美元

娱乐要闻

郝蕾风波升级?

财经要闻

俄罗斯大幅加税 中国汽车出口骤降58%

汽车要闻

纯电续航325km 小鹏P7+增程版申报信息曝光

态度原创

旅游
房产
数码
家居
公开课

旅游要闻

韩媒:中韩关系回暖为韩旅游业注入活力

房产要闻

封关倒计时!三亚主城 2.3 万 /㎡+ 即买即住,手慢无!

数码要闻

三季度中国智能平板销量达796万台 苹果稳居线上第一

家居要闻

现代自由 功能美学居所

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版