网易首页 > 网易号 > 正文 申请入驻

牛津大学研究:当前基准测试普遍夸大了 AI 模型的性能

0
分享至

IT之家 11 月 6 日消息,一项新研究称,当前用于评估人工智能(AI)系统能力的方法普遍存在夸大 AI 性能的问题,且缺乏科学严谨性。


据IT之家了解,该研究由牛津大学互联网研究所(Oxford Internet Institute)牵头,并联合来自其他机构的 30 多位研究人员共同完成。研究团队对 445 项主流 AI 测试(即“基准测试”,benchmarks)进行了系统分析,这些测试通常用于衡量 AI 模型在各种主题领域的表现。

AI 开发者和研究人员常借助这些基准测试来评估模型能力,并以此宣称技术进步,从软件工程能力到抽象推理能力等。然而,本周二发布的这篇论文指出,这些被视为基础的测试可能并不可靠,并对大量基准测试结果的有效性提出质疑。

根据研究,大量顶级基准测试未能明确定义其测试目标,且重复使用已有基准的数据和测试方法,并且很少采用可靠的统计方法来比较不同模型之间的结果。

牛津大学互联网研究所高级研究员、该研究的共同第一作者亚当・马赫迪(Adam Mahdi)表示,这些基准测试可能具有惊人的误导性。他告诉 NBC 新闻:“当我们要求 AI 模型执行某些任务时,实际上往往测量的是完全不同于我们最初意图测量的概念。”

另一位共同第一作者、牛津大学互联网研究所研究员安德鲁・比恩(Andrew Bean)也表示,即便是声誉良好的基准测试也常常被盲目信任,理应接受更严格的审视。他表示:“当你听到‘某个模型达到博士水平的智能’这类说法时,一定要持保留态度。我们并不确定这些测量是否真的做得很好。”

研究中分析的部分基准测试衡量特定技能,如俄语或阿拉伯语能力;另一些则衡量更通用的能力,如空间推理或持续学习能力。

作者们关注的核心问题在于:某一基准测试是否真正有效衡量了其所声称要测量的现实世界现象 —— 研究者称之为“构念效度”(construct validity)。例如,一项被研究审查的基准测试并非通过无休止的问题来评估模型的俄语表达能力,而是通过九项不同任务(如利用俄语维基百科信息回答是非题)来衡量模型表现。

然而,研究发现,约一半的基准测试未能清晰界定其所声称要测量的概念,这使其能否提供关于 AI 模型的有用信息受到严重质疑。

研究以“小学数学 8K”(Grade School Math 8K,简称 GSM8K)这一常见 AI 基准测试为例。该测试通过一组基础数学题评估模型表现。外界常引用 GSM8K 排行榜来证明 AI 模型在基础数学推理方面能力出众,其官方文档也称其“有助于探查大语言模型的非形式化推理能力”。

但研究作者马赫迪指出,在 GSM8K 等基准测试中答对问题,并不一定意味着模型真正进行了数学推理。他表示:“当你问一年级学生 2 加 5 等于几,他们回答 7,没错,这是正确答案。但你能据此断定五年级学生仅凭会做加法就掌握了数学推理或算术推理吗?或许可以,但我认为答案很可能是否定的。”

比恩承认,像“推理”这类模糊概念的测量必然依赖对任务子集的评估,而这种选择不可避免地存在缺陷。他说道:“这些评估包含许多动态因素,要兼顾所有方面需要平衡。但本研究呼吁基准测试必须清晰界定其测量目标。”

他补充道:“对于‘无害性’或‘推理’这类概念,人们常常只是随便选一个接近该范畴、便于测量的东西,就说‘好了,我已经测出来了’。”

在这篇新论文中,作者提出了八项具体建议,并提供了一份检查清单,旨在使基准测试标准系统化,提升其透明度与可信度。建议的改进措施包括:明确界定所评估行为的具体范围;构建更能代表整体能力的任务组合;以及通过统计分析比较模型表现。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗最高领袖哈梅内伊将很快发表讲话

伊朗最高领袖哈梅内伊将很快发表讲话

新华社
2026-02-28 23:06:25
伊朗唯一的反击手段恐遭破解!面对美以联合打击,如何绝境逢生?

伊朗唯一的反击手段恐遭破解!面对美以联合打击,如何绝境逢生?

儒雅随和老泰勒
2026-02-28 15:41:41
18岁230天!亚马尔首次戴帽,巴萨史上第一人,将破92年神纪录

18岁230天!亚马尔首次戴帽,巴萨史上第一人,将破92年神纪录

奥拜尔
2026-03-01 01:22:54
阿里的复仇:一场迟到了十年的清算

阿里的复仇:一场迟到了十年的清算

快消经纬
2026-02-28 18:58:05
怎么也想不通,她长这么漂亮,演技那么好,为啥一直火不起来呢

怎么也想不通,她长这么漂亮,演技那么好,为啥一直火不起来呢

草莓解说体育
2026-03-01 00:47:24
死了白死?俄方绝口不提贝加尔湖惨剧赔偿 中日美此类案例都有赔款

死了白死?俄方绝口不提贝加尔湖惨剧赔偿 中日美此类案例都有赔款

劲爆体坛
2026-02-28 18:30:13
伊朗媒体公布反击美军军事行动结果

伊朗媒体公布反击美军军事行动结果

新华社
2026-03-01 00:03:30
外交部发言人就美国和以色列军事打击伊朗答记者问

外交部发言人就美国和以色列军事打击伊朗答记者问

界面新闻
2026-02-28 21:45:34
伊朗第10轮导弹射向以色列

伊朗第10轮导弹射向以色列

财联社
2026-03-01 01:28:09
马斯克藏太深!美星链离不开7家中国公司,每一家都是全球顶尖!

马斯克藏太深!美星链离不开7家中国公司,每一家都是全球顶尖!

爱吃醋的猫咪
2026-02-27 17:56:07
特朗普称哈梅内伊死亡

特朗普称哈梅内伊死亡

财联社
2026-03-01 05:50:07
伊朗别慌,三招反击美以联军,实用管用

伊朗别慌,三招反击美以联军,实用管用

今日马说
2026-02-28 20:01:39
绞杀开始!荷兰科技专家:当初中国囤的1000台ASML光刻机,起作用了

绞杀开始!荷兰科技专家:当初中国囤的1000台ASML光刻机,起作用了

刘旷
2026-02-28 15:48:42
伊朗紧急致电沙特、阿联酋、卡塔尔、科威特、巴林、伊拉克

伊朗紧急致电沙特、阿联酋、卡塔尔、科威特、巴林、伊拉克

财联社
2026-02-28 21:40:35
A股:紧急提醒2.5亿股民!从下周起,或许牛市历史总是惊人的相似

A股:紧急提醒2.5亿股民!从下周起,或许牛市历史总是惊人的相似

夜深爱杂谈
2026-02-28 20:31:02
央视直播3月1日新加坡大满贯,王曼昱对温特,王楚钦战勒布伦

央视直播3月1日新加坡大满贯,王曼昱对温特,王楚钦战勒布伦

乒乓球球
2026-02-28 23:24:39
特朗普应该想不到:他对伊朗的灭国之战,让中俄欧看清了一个真相

特朗普应该想不到:他对伊朗的灭国之战,让中俄欧看清了一个真相

头条爆料007
2026-02-28 18:49:20
“史诗怒火”,美以正式开打

“史诗怒火”,美以正式开打

难得君
2026-02-28 17:42:42
“重大作战”,要打多久?

“重大作战”,要打多久?

中国新闻周刊
2026-02-28 20:19:57
脱口秀演员小帕被禁言!平台公布原因与违规样本

脱口秀演员小帕被禁言!平台公布原因与违规样本

看看新闻Knews
2026-02-28 12:59:03
2026-03-01 06:24:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
331608文章数 607030关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

以官员称哈梅内伊身亡 遗体在其官邸废墟中被找到

头条要闻

以官员称哈梅内伊身亡 遗体在其官邸废墟中被找到

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

周杰伦儿子正面照曝光,与父亲好像

财经要闻

冲突爆发 市场变天?

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

时尚
旅游
游戏
艺术
健康

这6款发色居然这么火?50张图可以直接给tony

旅游要闻

3大亮点!石柱黎场油菜花,承包整个春天的浪漫

所有人保持嘴角不变!生化危机:安魂曲里昂骚话大盘点

艺术要闻

惊艳!这位天使般的女子与油画让人心动不已!

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版