网易首页 > 网易号 > 正文 申请入驻

牛津大学研究:当前基准测试普遍夸大了 AI 模型的性能

0
分享至

来源:市场资讯

(来源:IT之家)

IT之家 11 月 6 日消息,一项新研究称,当前用于评估人工智能(AI)系统能力的方法普遍存在夸大 AI 性能的问题,且缺乏科学严谨性。


据IT之家了解,该研究由牛津大学互联网研究所(Oxford Internet Institute)牵头,并联合来自其他机构的 30 多位研究人员共同完成。研究团队对 445 项主流 AI 测试(即“基准测试”,benchmarks)进行了系统分析,这些测试通常用于衡量 AI 模型在各种主题领域的表现。

AI 开发者和研究人员常借助这些基准测试来评估模型能力,并以此宣称技术进步,从软件工程能力到抽象推理能力等。然而,本周二发布的这篇论文指出,这些被视为基础的测试可能并不可靠,并对大量基准测试结果的有效性提出质疑。

根据研究,大量顶级基准测试未能明确定义其测试目标,且重复使用已有基准的数据和测试方法,并且很少采用可靠的统计方法来比较不同模型之间的结果。

牛津大学互联网研究所高级研究员、该研究的共同第一作者亚当・马赫迪(Adam Mahdi)表示,这些基准测试可能具有惊人的误导性。他告诉 NBC 新闻:“当我们要求 AI 模型执行某些任务时,实际上往往测量的是完全不同于我们最初意图测量的概念。”

另一位共同第一作者、牛津大学互联网研究所研究员安德鲁・比恩(Andrew Bean)也表示,即便是声誉良好的基准测试也常常被盲目信任,理应接受更严格的审视。他表示:“当你听到‘某个模型达到博士水平的智能’这类说法时,一定要持保留态度。我们并不确定这些测量是否真的做得很好。”

研究中分析的部分基准测试衡量特定技能,如俄语或阿拉伯语能力;另一些则衡量更通用的能力,如空间推理或持续学习能力。

作者们关注的核心问题在于:某一基准测试是否真正有效衡量了其所声称要测量的现实世界现象 —— 研究者称之为“构念效度”(construct validity)。例如,一项被研究审查的基准测试并非通过无休止的问题来评估模型的俄语表达能力,而是通过九项不同任务(如利用俄语维基百科信息回答是非题)来衡量模型表现。

然而,研究发现,约一半的基准测试未能清晰界定其所声称要测量的概念,这使其能否提供关于 AI 模型的有用信息受到严重质疑。

研究以“小学数学 8K”(Grade School Math 8K,简称 GSM8K)这一常见 AI 基准测试为例。该测试通过一组基础数学题评估模型表现。外界常引用 GSM8K 排行榜来证明 AI 模型在基础数学推理方面能力出众,其官方文档也称其“有助于探查大语言模型的非形式化推理能力”。

但研究作者马赫迪指出,在 GSM8K 等基准测试中答对问题,并不一定意味着模型真正进行了数学推理。他表示:“当你问一年级学生 2 加 5 等于几,他们回答 7,没错,这是正确答案。但你能据此断定五年级学生仅凭会做加法就掌握了数学推理或算术推理吗?或许可以,但我认为答案很可能是否定的。”

比恩承认,像“推理”这类模糊概念的测量必然依赖对任务子集的评估,而这种选择不可避免地存在缺陷。他说道:“这些评估包含许多动态因素,要兼顾所有方面需要平衡。但本研究呼吁基准测试必须清晰界定其测量目标。”

他补充道:“对于‘无害性’或‘推理’这类概念,人们常常只是随便选一个接近该范畴、便于测量的东西,就说‘好了,我已经测出来了’。”

在这篇新论文中,作者提出了八项具体建议,并提供了一份检查清单,旨在使基准测试标准系统化,提升其透明度与可信度。建议的改进措施包括:明确界定所评估行为的具体范围;构建更能代表整体能力的任务组合;以及通过统计分析比较模型表现。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
当“蔚小理”跌出头部:2026车企淘汰赛全面加速

当“蔚小理”跌出头部:2026车企淘汰赛全面加速

首席商业评论
2026-01-01 12:12:00
震惊!网传特斯拉开除一产线组长,起因是他为提升产能提倡加班

震惊!网传特斯拉开除一产线组长,起因是他为提升产能提倡加班

火山詩话
2026-01-02 15:42:01
爆料:俄方深夜向美递交请求

爆料:俄方深夜向美递交请求

环球时报国际
2026-01-02 18:56:31
星链疯狂扩张后,马斯克SpaceX宣布史上最大卫星降轨行动

星链疯狂扩张后,马斯克SpaceX宣布史上最大卫星降轨行动

财联社
2026-01-02 13:19:27
夺冠送车送房?足坛真实案例又让国足汗颜:承诺时隔27年也要兑现

夺冠送车送房?足坛真实案例又让国足汗颜:承诺时隔27年也要兑现

念洲
2026-01-02 13:33:57
心脏装了6个支架的王石日本看病实录,值得深思

心脏装了6个支架的王石日本看病实录,值得深思

深度报
2026-01-01 23:17:29
今天,港股突然高开,恒生科技大涨近4%,原因是什么?

今天,港股突然高开,恒生科技大涨近4%,原因是什么?

萌生财经
2026-01-02 13:06:39
小卡末节20分细节:上篮时脸被抠出血 爵士竟挑战成功激出战神卡

小卡末节20分细节:上篮时脸被抠出血 爵士竟挑战成功激出战神卡

Emily说个球
2026-01-02 14:43:26
1949年美苏联手,毛主席看斯大林密电后,吸了一夜烟,仅回7个字

1949年美苏联手,毛主席看斯大林密电后,吸了一夜烟,仅回7个字

清澈之玹
2025-12-09 12:35:03
祝贺!中国男足21岁新星正式加盟英超,已签订合同,亚洲杯后官宣

祝贺!中国男足21岁新星正式加盟英超,已签订合同,亚洲杯后官宣

国足风云
2026-01-02 15:49:16
裤子没兜,屎意先到!大姐,凭着这事账粉18万

裤子没兜,屎意先到!大姐,凭着这事账粉18万

岁月有情1314
2026-01-02 05:29:12
两岸局势达到关键节点,中方向世界通报两件事,统一进入读秒阶段

两岸局势达到关键节点,中方向世界通报两件事,统一进入读秒阶段

梁讯
2026-01-01 21:55:58
浙江农林大学暨阳学院体育军训部原主任詹崇将逝世,年仅49岁

浙江农林大学暨阳学院体育军训部原主任詹崇将逝世,年仅49岁

澎湃新闻
2026-01-02 13:12:26
特朗普回应健康质疑:手背瘀青只因服用阿司匹林,打瞌睡是在“放松”

特朗普回应健康质疑:手背瘀青只因服用阿司匹林,打瞌睡是在“放松”

上观新闻
2026-01-02 17:10:07
网友称洛阳博物馆一唐代陶马倒下断裂,有导游称已更换展品,馆方工作人员:正调查,等官方回复

网友称洛阳博物馆一唐代陶马倒下断裂,有导游称已更换展品,馆方工作人员:正调查,等官方回复

极目新闻
2026-01-02 11:51:19
连续多年财务造假!002055,将被ST!下周一停牌

连续多年财务造假!002055,将被ST!下周一停牌

中国基金报
2026-01-02 11:39:30
蔡正元博士:待我出狱之日台湾已变成特别行政区了!

蔡正元博士:待我出狱之日台湾已变成特别行政区了!

达文西看世界
2026-01-02 17:54:56
江湖上都在传,三个妈妈要散伙了?

江湖上都在传,三个妈妈要散伙了?

三个妈妈六个娃
2025-12-31 22:21:55
佳兆业集团成功赖账601亿元

佳兆业集团成功赖账601亿元

地产微资讯
2026-01-01 21:45:45
国产香烟加了助燃剂?测试发现只能烧4分钟,而日本烟能烧7分钟

国产香烟加了助燃剂?测试发现只能烧4分钟,而日本烟能烧7分钟

回旋镖
2026-01-01 21:00:24
2026-01-02 20:19:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1896940文章数 5142关注度
往期回顾 全部

科技要闻

新势力年榜:零跑险胜华为,蔚来小鹏新高

头条要闻

媒体:赖清德叫嚣"中共不敢越雷池" 转头就被狠抽耳光

头条要闻

媒体:赖清德叫嚣"中共不敢越雷池" 转头就被狠抽耳光

体育要闻

英超离谱夜?4战全平3场0-0 曼城红军翻车

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

8200亿扩产潮下的锂电供应链之战

汽车要闻

奇瑞汽车12月销量超23万辆 全年超263万辆

态度原创

艺术
本地
教育
健康
公开课

艺术要闻

神似章子怡?这个越南模特火了,天生长了一张电影脸啊~

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

教育要闻

一年级数学思维题,在方框里填上合适的数

元旦举家出行,注意防流感

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版