网易首页 > 网易号 > 正文 申请入驻

牛津大学研究:当前基准测试普遍夸大了 AI 模型的性能

0
分享至

IT之家 11 月 6 日消息,一项新研究称,当前用于评估人工智能(AI)系统能力的方法普遍存在夸大 AI 性能的问题,且缺乏科学严谨性。


据IT之家了解,该研究由牛津大学互联网研究所(Oxford Internet Institute)牵头,并联合来自其他机构的 30 多位研究人员共同完成。研究团队对 445 项主流 AI 测试(即“基准测试”,benchmarks)进行了系统分析,这些测试通常用于衡量 AI 模型在各种主题领域的表现。

AI 开发者和研究人员常借助这些基准测试来评估模型能力,并以此宣称技术进步,从软件工程能力到抽象推理能力等。然而,本周二发布的这篇论文指出,这些被视为基础的测试可能并不可靠,并对大量基准测试结果的有效性提出质疑。

根据研究,大量顶级基准测试未能明确定义其测试目标,且重复使用已有基准的数据和测试方法,并且很少采用可靠的统计方法来比较不同模型之间的结果。

牛津大学互联网研究所高级研究员、该研究的共同第一作者亚当・马赫迪(Adam Mahdi)表示,这些基准测试可能具有惊人的误导性。他告诉 NBC 新闻:“当我们要求 AI 模型执行某些任务时,实际上往往测量的是完全不同于我们最初意图测量的概念。”

另一位共同第一作者、牛津大学互联网研究所研究员安德鲁・比恩(Andrew Bean)也表示,即便是声誉良好的基准测试也常常被盲目信任,理应接受更严格的审视。他表示:“当你听到‘某个模型达到博士水平的智能’这类说法时,一定要持保留态度。我们并不确定这些测量是否真的做得很好。”

研究中分析的部分基准测试衡量特定技能,如俄语或阿拉伯语能力;另一些则衡量更通用的能力,如空间推理或持续学习能力。

作者们关注的核心问题在于:某一基准测试是否真正有效衡量了其所声称要测量的现实世界现象 —— 研究者称之为“构念效度”(construct validity)。例如,一项被研究审查的基准测试并非通过无休止的问题来评估模型的俄语表达能力,而是通过九项不同任务(如利用俄语维基百科信息回答是非题)来衡量模型表现。

然而,研究发现,约一半的基准测试未能清晰界定其所声称要测量的概念,这使其能否提供关于 AI 模型的有用信息受到严重质疑。

研究以“小学数学 8K”(Grade School Math 8K,简称 GSM8K)这一常见 AI 基准测试为例。该测试通过一组基础数学题评估模型表现。外界常引用 GSM8K 排行榜来证明 AI 模型在基础数学推理方面能力出众,其官方文档也称其“有助于探查大语言模型的非形式化推理能力”。

但研究作者马赫迪指出,在 GSM8K 等基准测试中答对问题,并不一定意味着模型真正进行了数学推理。他表示:“当你问一年级学生 2 加 5 等于几,他们回答 7,没错,这是正确答案。但你能据此断定五年级学生仅凭会做加法就掌握了数学推理或算术推理吗?或许可以,但我认为答案很可能是否定的。”

比恩承认,像“推理”这类模糊概念的测量必然依赖对任务子集的评估,而这种选择不可避免地存在缺陷。他说道:“这些评估包含许多动态因素,要兼顾所有方面需要平衡。但本研究呼吁基准测试必须清晰界定其测量目标。”

他补充道:“对于‘无害性’或‘推理’这类概念,人们常常只是随便选一个接近该范畴、便于测量的东西,就说‘好了,我已经测出来了’。”

在这篇新论文中,作者提出了八项具体建议,并提供了一份检查清单,旨在使基准测试标准系统化,提升其透明度与可信度。建议的改进措施包括:明确界定所评估行为的具体范围;构建更能代表整体能力的任务组合;以及通过统计分析比较模型表现。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杀猪宴结束,央视被堵门外,涨粉179万的她却哭着说 :再也不搞了

杀猪宴结束,央视被堵门外,涨粉179万的她却哭着说 :再也不搞了

古装影视解说阿凶
2026-01-14 01:25:34
目标小组第一!U23国足踢泰国前瞻,安东尼奥表态,两人缺席

目标小组第一!U23国足踢泰国前瞻,安东尼奥表态,两人缺席

祥谈体育
2026-01-13 20:02:27
东方卫视首播!57集谍战大作,仅播2天,收视率直接破2,生死角逐

东方卫视首播!57集谍战大作,仅播2天,收视率直接破2,生死角逐

乐枫电影
2026-01-14 14:30:50
马卡:根据规定,阿隆索本赛季不能执教其他西班牙球队

马卡:根据规定,阿隆索本赛季不能执教其他西班牙球队

懂球帝
2026-01-14 14:22:17
独家:贺娇龙为何会坠马出事?

独家:贺娇龙为何会坠马出事?

仕道
2026-01-14 13:03:16
儿童近视防控迈入精准时代!阿托品“阶梯浓度”落地

儿童近视防控迈入精准时代!阿托品“阶梯浓度”落地

孟大夫之家1
2026-01-13 18:02:05
保洁阿姨坦言:酒店最脏的东西有8个,有的从未清理,最好别用!

保洁阿姨坦言:酒店最脏的东西有8个,有的从未清理,最好别用!

室内设计师有料儿
2026-01-08 20:15:49
冲上热搜!皇马内讧爆发,阿隆索矛头直指三大巨星,错怪了姆巴佩

冲上热搜!皇马内讧爆发,阿隆索矛头直指三大巨星,错怪了姆巴佩

阿泰希特
2026-01-14 11:24:25
强势碾压!湖人141-116大胜老鹰,这三人就是赢球的绝对功臣!

强势碾压!湖人141-116大胜老鹰,这三人就是赢球的绝对功臣!

田先生篮球
2026-01-14 15:22:22
2026央视春晚彩排!看完到场明星,网友哭了:今年的电费又省了

2026央视春晚彩排!看完到场明星,网友哭了:今年的电费又省了

黔乡小姊妹
2026-01-14 08:25:18
皇马新帅声称被穆帅执教,是荣幸,但是驾驭不了穆帅执教的风格

皇马新帅声称被穆帅执教,是荣幸,但是驾驭不了穆帅执教的风格

福酱的小时光
2026-01-14 17:48:13
深度揭秘 | 航空“老色虎”谭瑞松,搞权色交易、“靠军工吃军工”

深度揭秘 | 航空“老色虎”谭瑞松,搞权色交易、“靠军工吃军工”

一分为三看人生
2026-01-12 00:09:36
浪子回头1:山哥的情义

浪子回头1:山哥的情义

金昔说故事
2026-01-14 15:38:44
胰腺癌去世的人越来越多!专家:牢记饭后4不做,饭前3不吃

胰腺癌去世的人越来越多!专家:牢记饭后4不做,饭前3不吃

岐黄传人孙大夫
2025-12-20 11:45:03
澳网最新战报!中国金花凋零,0-2无缘正赛,朱琳吴易昺随后登场

澳网最新战报!中国金花凋零,0-2无缘正赛,朱琳吴易昺随后登场

刘姚尧的文字城堡
2026-01-14 09:23:10
印度想空手套白狼,拿钱换取中国锂电技术,中国政府及时出手叫停

印度想空手套白狼,拿钱换取中国锂电技术,中国政府及时出手叫停

云上乌托邦
2026-01-14 00:37:05
记者:皇马从未真正信任阿隆索;多家豪门有意邀请阿隆索执教

记者:皇马从未真正信任阿隆索;多家豪门有意邀请阿隆索执教

懂球帝
2026-01-13 14:43:01
6000 万欧!维拉锁定巴萨 21 万周薪大将,埃梅里要抢人

6000 万欧!维拉锁定巴萨 21 万周薪大将,埃梅里要抢人

奶盖熊本熊
2026-01-14 02:51:38
马斯克收心了?官宣了39岁印度裔伴侣:相貌普通为他生了4个孩子

马斯克收心了?官宣了39岁印度裔伴侣:相貌普通为他生了4个孩子

丰谭笔录
2025-12-12 11:16:23
和讯投顾陈炜:接下来将会迎来接回和低吸的机会

和讯投顾陈炜:接下来将会迎来接回和低吸的机会

和讯网
2026-01-14 17:28:11
2026-01-14 18:23:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
324492文章数 606879关注度
往期回顾 全部

科技要闻

携程因涉嫌垄断被市场监管总局调查

头条要闻

哈马斯领导人空缺15个月后重组在即 2人成为热门人选

头条要闻

哈马斯领导人空缺15个月后重组在即 2人成为热门人选

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

何晴去世30天,许亚军终于发声

财经要闻

姚振华举报:观致汽车资产被低价拍卖

汽车要闻

曝Model Y或降到20万以内!

态度原创

艺术
本地
数码
健康
公开课

艺术要闻

八大山人『山水花鸟册』

本地新闻

穿越鳌太线,怎么就成了户外人的致命诱惑?

数码要闻

苹果推送AirPods Pro 3新固件升级 修复部分已知漏洞

血常规3项异常,是身体警报!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版