网易首页 > 网易号 > 正文 申请入驻

牛津大学研究:当前基准测试普遍夸大了 AI 模型的性能

0
分享至

来源:市场资讯

(来源:IT之家)

IT之家 11 月 6 日消息,一项新研究称,当前用于评估人工智能(AI)系统能力的方法普遍存在夸大 AI 性能的问题,且缺乏科学严谨性。


据IT之家了解,该研究由牛津大学互联网研究所(Oxford Internet Institute)牵头,并联合来自其他机构的 30 多位研究人员共同完成。研究团队对 445 项主流 AI 测试(即“基准测试”,benchmarks)进行了系统分析,这些测试通常用于衡量 AI 模型在各种主题领域的表现。

AI 开发者和研究人员常借助这些基准测试来评估模型能力,并以此宣称技术进步,从软件工程能力到抽象推理能力等。然而,本周二发布的这篇论文指出,这些被视为基础的测试可能并不可靠,并对大量基准测试结果的有效性提出质疑。

根据研究,大量顶级基准测试未能明确定义其测试目标,且重复使用已有基准的数据和测试方法,并且很少采用可靠的统计方法来比较不同模型之间的结果。

牛津大学互联网研究所高级研究员、该研究的共同第一作者亚当・马赫迪(Adam Mahdi)表示,这些基准测试可能具有惊人的误导性。他告诉 NBC 新闻:“当我们要求 AI 模型执行某些任务时,实际上往往测量的是完全不同于我们最初意图测量的概念。”

另一位共同第一作者、牛津大学互联网研究所研究员安德鲁・比恩(Andrew Bean)也表示,即便是声誉良好的基准测试也常常被盲目信任,理应接受更严格的审视。他表示:“当你听到‘某个模型达到博士水平的智能’这类说法时,一定要持保留态度。我们并不确定这些测量是否真的做得很好。”

研究中分析的部分基准测试衡量特定技能,如俄语或阿拉伯语能力;另一些则衡量更通用的能力,如空间推理或持续学习能力。

作者们关注的核心问题在于:某一基准测试是否真正有效衡量了其所声称要测量的现实世界现象 —— 研究者称之为“构念效度”(construct validity)。例如,一项被研究审查的基准测试并非通过无休止的问题来评估模型的俄语表达能力,而是通过九项不同任务(如利用俄语维基百科信息回答是非题)来衡量模型表现。

然而,研究发现,约一半的基准测试未能清晰界定其所声称要测量的概念,这使其能否提供关于 AI 模型的有用信息受到严重质疑。

研究以“小学数学 8K”(Grade School Math 8K,简称 GSM8K)这一常见 AI 基准测试为例。该测试通过一组基础数学题评估模型表现。外界常引用 GSM8K 排行榜来证明 AI 模型在基础数学推理方面能力出众,其官方文档也称其“有助于探查大语言模型的非形式化推理能力”。

但研究作者马赫迪指出,在 GSM8K 等基准测试中答对问题,并不一定意味着模型真正进行了数学推理。他表示:“当你问一年级学生 2 加 5 等于几,他们回答 7,没错,这是正确答案。但你能据此断定五年级学生仅凭会做加法就掌握了数学推理或算术推理吗?或许可以,但我认为答案很可能是否定的。”

比恩承认,像“推理”这类模糊概念的测量必然依赖对任务子集的评估,而这种选择不可避免地存在缺陷。他说道:“这些评估包含许多动态因素,要兼顾所有方面需要平衡。但本研究呼吁基准测试必须清晰界定其测量目标。”

他补充道:“对于‘无害性’或‘推理’这类概念,人们常常只是随便选一个接近该范畴、便于测量的东西,就说‘好了,我已经测出来了’。”

在这篇新论文中,作者提出了八项具体建议,并提供了一份检查清单,旨在使基准测试标准系统化,提升其透明度与可信度。建议的改进措施包括:明确界定所评估行为的具体范围;构建更能代表整体能力的任务组合;以及通过统计分析比较模型表现。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
比肩纳达尔德约!阿卡第10次跻身大师赛决赛,再战辛纳争冠

比肩纳达尔德约!阿卡第10次跻身大师赛决赛,再战辛纳争冠

全景体育V
2026-04-12 06:59:10
日本改口:中日关系变了?

日本改口:中日关系变了?

陆弃
2026-04-11 08:50:03
女生的"高开叉泳衣"到底是啥?看完女模特沙滩展示视频你就懂了哈哈

女生的"高开叉泳衣"到底是啥?看完女模特沙滩展示视频你就懂了哈哈

经典段子
2026-04-11 22:33:05
杭州某大型设计院,全员被裁!

杭州某大型设计院,全员被裁!

黯泉
2026-04-11 19:58:29
4月11日俄乌最新:俄罗斯的关键条件

4月11日俄乌最新:俄罗斯的关键条件

西楼饮月
2026-04-11 21:42:50
浙江保驰捷逆行哥社死!正脸被扒,罚钱还得坐牢,严重的还在后面

浙江保驰捷逆行哥社死!正脸被扒,罚钱还得坐牢,严重的还在后面

青橘罐头
2026-04-11 07:44:07
新中国十位国家级女领导人

新中国十位国家级女领导人

祁州校尉
2026-04-11 09:00:31
全球最大冰山A23a,没了

全球最大冰山A23a,没了

澎湃新闻
2026-04-12 01:01:07
雷暴周一!15股迎天量解禁,37股遭减持,这50家别碰

雷暴周一!15股迎天量解禁,37股遭减持,这50家别碰

慧眼看世界哈哈
2026-04-12 06:23:18
郑丽文到北京碧云寺!穿咖色风衣与蓝牛仔裤很减龄,还松弛感满满

郑丽文到北京碧云寺!穿咖色风衣与蓝牛仔裤很减龄,还松弛感满满

八八尚语
2026-04-11 12:39:16
印度:我们每家都有电视,中国行吗?法国:人家中国居民不用偷电

印度:我们每家都有电视,中国行吗?法国:人家中国居民不用偷电

离离言几许
2026-04-10 14:51:25
解锁单赛季2000分最高龄纪录!杜兰特:詹姆斯不在榜单上吗?

解锁单赛季2000分最高龄纪录!杜兰特:詹姆斯不在榜单上吗?

北青网-北京青年报
2026-04-11 15:44:18
现场打成一团!委内瑞拉爆发大示威,抗议人士:我们已经忍了四年

现场打成一团!委内瑞拉爆发大示威,抗议人士:我们已经忍了四年

小蔑谈事
2026-04-12 05:59:32
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
60141人见证历史,上海德比又刷新上座率、票房纪录,中超竟然吊打苏超?

60141人见证历史,上海德比又刷新上座率、票房纪录,中超竟然吊打苏超?

上观新闻
2026-04-12 04:34:08
换奥巴马,这两名美军F-15飞行员几乎必死

换奥巴马,这两名美军F-15飞行员几乎必死

民间胡扯老哥
2026-04-11 10:30:51
欧洲下达“逐客令”,C919下调15米标准破局!西方垄断要破了

欧洲下达“逐客令”,C919下调15米标准破局!西方垄断要破了

阿腩讲娱乐
2026-04-10 20:01:38
央行原统计司长盛松成:面对预期下行,做好资产价格大幅下降准备

央行原统计司长盛松成:面对预期下行,做好资产价格大幅下降准备

专业聊房君
2026-04-10 16:41:31
闹大了!“你不想毕业了,敢威胁我”,导师与学生的聊天炸开锅了

闹大了!“你不想毕业了,敢威胁我”,导师与学生的聊天炸开锅了

火山詩话
2026-04-11 08:55:49
五球狂胜刷新进球纪录,拜仁德甲稳了,皇马怕不怕?

五球狂胜刷新进球纪录,拜仁德甲稳了,皇马怕不怕?

体坛周报
2026-04-12 09:15:18
2026-04-12 09:24:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2834757文章数 6572关注度
往期回顾 全部

科技要闻

半夜被燃烧瓶砸醒,OpenAI CEO发文反思

头条要闻

男子自带茅台就餐饮用时感觉不对味 服务员还"消失"了

头条要闻

男子自带茅台就餐饮用时感觉不对味 服务员还"消失"了

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

郑钧回应儿子走路:会监督他挺直腰板

财经要闻

从日本翻身看:这次谁能扛住高油价?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

游戏
家居
本地
房产
教育

《永劫》女解说被批“穿着暴露” 官方解决方案来了

家居要闻

复古风格 自然简约

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

房产要闻

土地供应突然暴跌!2026海口楼市,格局大变!

教育要闻

“父亲的心已经死了”,10后女孩报到职高,父亲全程背对引人心疼

无障碍浏览 进入关怀版