网易首页 > 网易号 > 正文 申请入驻

牛津大学研究:当前基准测试普遍夸大了 AI 模型的性能

0
分享至

来源:市场资讯

(来源:IT之家)

IT之家 11 月 6 日消息,一项新研究称,当前用于评估人工智能(AI)系统能力的方法普遍存在夸大 AI 性能的问题,且缺乏科学严谨性。


据IT之家了解,该研究由牛津大学互联网研究所(Oxford Internet Institute)牵头,并联合来自其他机构的 30 多位研究人员共同完成。研究团队对 445 项主流 AI 测试(即“基准测试”,benchmarks)进行了系统分析,这些测试通常用于衡量 AI 模型在各种主题领域的表现。

AI 开发者和研究人员常借助这些基准测试来评估模型能力,并以此宣称技术进步,从软件工程能力到抽象推理能力等。然而,本周二发布的这篇论文指出,这些被视为基础的测试可能并不可靠,并对大量基准测试结果的有效性提出质疑。

根据研究,大量顶级基准测试未能明确定义其测试目标,且重复使用已有基准的数据和测试方法,并且很少采用可靠的统计方法来比较不同模型之间的结果。

牛津大学互联网研究所高级研究员、该研究的共同第一作者亚当・马赫迪(Adam Mahdi)表示,这些基准测试可能具有惊人的误导性。他告诉 NBC 新闻:“当我们要求 AI 模型执行某些任务时,实际上往往测量的是完全不同于我们最初意图测量的概念。”

另一位共同第一作者、牛津大学互联网研究所研究员安德鲁・比恩(Andrew Bean)也表示,即便是声誉良好的基准测试也常常被盲目信任,理应接受更严格的审视。他表示:“当你听到‘某个模型达到博士水平的智能’这类说法时,一定要持保留态度。我们并不确定这些测量是否真的做得很好。”

研究中分析的部分基准测试衡量特定技能,如俄语或阿拉伯语能力;另一些则衡量更通用的能力,如空间推理或持续学习能力。

作者们关注的核心问题在于:某一基准测试是否真正有效衡量了其所声称要测量的现实世界现象 —— 研究者称之为“构念效度”(construct validity)。例如,一项被研究审查的基准测试并非通过无休止的问题来评估模型的俄语表达能力,而是通过九项不同任务(如利用俄语维基百科信息回答是非题)来衡量模型表现。

然而,研究发现,约一半的基准测试未能清晰界定其所声称要测量的概念,这使其能否提供关于 AI 模型的有用信息受到严重质疑。

研究以“小学数学 8K”(Grade School Math 8K,简称 GSM8K)这一常见 AI 基准测试为例。该测试通过一组基础数学题评估模型表现。外界常引用 GSM8K 排行榜来证明 AI 模型在基础数学推理方面能力出众,其官方文档也称其“有助于探查大语言模型的非形式化推理能力”。

但研究作者马赫迪指出,在 GSM8K 等基准测试中答对问题,并不一定意味着模型真正进行了数学推理。他表示:“当你问一年级学生 2 加 5 等于几,他们回答 7,没错,这是正确答案。但你能据此断定五年级学生仅凭会做加法就掌握了数学推理或算术推理吗?或许可以,但我认为答案很可能是否定的。”

比恩承认,像“推理”这类模糊概念的测量必然依赖对任务子集的评估,而这种选择不可避免地存在缺陷。他说道:“这些评估包含许多动态因素,要兼顾所有方面需要平衡。但本研究呼吁基准测试必须清晰界定其测量目标。”

他补充道:“对于‘无害性’或‘推理’这类概念,人们常常只是随便选一个接近该范畴、便于测量的东西,就说‘好了,我已经测出来了’。”

在这篇新论文中,作者提出了八项具体建议,并提供了一份检查清单,旨在使基准测试标准系统化,提升其透明度与可信度。建议的改进措施包括:明确界定所评估行为的具体范围;构建更能代表整体能力的任务组合;以及通过统计分析比较模型表现。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
28万彩礼到手!女子哭诉闺蜜嫁给自己的相亲对象,开始羡慕嫉妒恨

28万彩礼到手!女子哭诉闺蜜嫁给自己的相亲对象,开始羡慕嫉妒恨

火山詩话
2026-04-03 05:47:58
突然发现一件事:凡是有公务员的家庭,父母都有这个软实力

突然发现一件事:凡是有公务员的家庭,父母都有这个软实力

风流女汉
2026-03-04 02:10:00
1986年陈永贵病逝,追悼会规格成难题,邓小平只说了一句话,全场安静

1986年陈永贵病逝,追悼会规格成难题,邓小平只说了一句话,全场安静

寄史言志
2026-01-04 16:34:31
温特表示输给孙颖莎太惨了,但想到要和她站上领奖台就没有遗憾了

温特表示输给孙颖莎太惨了,但想到要和她站上领奖台就没有遗憾了

凤幻洋
2026-04-05 14:57:31
意媒:意大利球员在战波黑前申请30万欧奖金,加图索劝阻后作罢

意媒:意大利球员在战波黑前申请30万欧奖金,加图索劝阻后作罢

懂球帝
2026-04-04 21:17:58
澳门世界杯男单决赛对阵表及女单决赛时间安排

澳门世界杯男单决赛对阵表及女单决赛时间安排

赫岝乡村摄影
2026-04-04 23:48:02
下跌未结束!黄金有望跌破4000美元/盎司,白银有望跌破60美元/盎司

下跌未结束!黄金有望跌破4000美元/盎司,白银有望跌破60美元/盎司

东方豪侠
2026-04-05 09:47:22
406773 公里!阿尔忒弥斯 2 号拍下人类最远视角的地球

406773 公里!阿尔忒弥斯 2 号拍下人类最远视角的地球

ALENG自媒体
2026-04-04 21:13:20
女篮4月下旬开启长集训!放弃3名国手,召回5名实力球员是上策

女篮4月下旬开启长集训!放弃3名国手,召回5名实力球员是上策

冷桂零落
2026-04-04 21:37:37
不邀请中国参加G7峰会 马克龙为何改主意了?

不邀请中国参加G7峰会 马克龙为何改主意了?

看看新闻Knews
2026-04-04 17:51:02
浙江本场控球70.2%,2012年来3次在黄龙中超控球超7成均未取胜

浙江本场控球70.2%,2012年来3次在黄龙中超控球超7成均未取胜

懂球帝
2026-04-05 18:19:06
中东铁路事件后,中共“保卫苏联”策略导致损失

中东铁路事件后,中共“保卫苏联”策略导致损失

小莜读史
2026-04-05 04:50:20
伊朗围着飞行员狩猎战机,美军第二次波黑救援失败,大批战机出事

伊朗围着飞行员狩猎战机,美军第二次波黑救援失败,大批战机出事

坚果甜瓜
2026-04-04 07:43:48
2万炒到2000万!“中国第一股民”杨百万临终遗言:股市诀窍就4字

2万炒到2000万!“中国第一股民”杨百万临终遗言:股市诀窍就4字

一方聊市
2026-04-02 19:35:03
空姐真的挺辛苦的

空姐真的挺辛苦的

微微热评
2026-04-05 10:10:26
成都“牵手门”事件女主现今状况曝光,太惨了......

成都“牵手门”事件女主现今状况曝光,太惨了......

许三岁
2026-03-17 07:34:05
4月1日起,建议在家备上至少6万元现金,4个原因很现实

4月1日起,建议在家备上至少6万元现金,4个原因很现实

猫叔东山再起
2026-04-04 12:35:08
美以霸权行径终将被历史无情碾碎

美以霸权行径终将被历史无情碾碎

烽火瞭望者
2026-04-05 11:36:56
重庆飞行器坠落致2伤,女孩伤势严重妈妈后悔不已

重庆飞行器坠落致2伤,女孩伤势严重妈妈后悔不已

九方鱼论
2026-04-05 12:48:53
跌落神坛的北极神话:少走一万公里的代价,是随时沉入冰海

跌落神坛的北极神话:少走一万公里的代价,是随时沉入冰海

环球格局观
2026-04-02 21:53:51
2026-04-05 19:08:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2761139文章数 6428关注度
往期回顾 全部

科技要闻

花200薅5千算力,Claude冷血断供“龙虾”

头条要闻

自称将劳斯莱斯变现 陈光标晒捐款图:张雪迟迟未提车

头条要闻

自称将劳斯莱斯变现 陈光标晒捐款图:张雪迟迟未提车

体育要闻

CBA最老球员,身价7500万美元

娱乐要闻

好用心!宋慧乔为好友庆生做一桌美食

财经要闻

谁造出了优思益这头“怪物”?

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

艺术
家居
房产
本地
公开课

艺术要闻

怀素的这件“临终绝笔”,彻底改写了书法史

家居要闻

温馨多元 爱的具象化

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

本地新闻

跟着歌声游安徽,听古村回响

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版