网易首页 > 网易号 > 正文 申请入驻

牛津大学研究:当前基准测试普遍夸大了 AI 模型的性能

0
分享至

来源:市场资讯

(来源:IT之家)

IT之家 11 月 6 日消息,一项新研究称,当前用于评估人工智能(AI)系统能力的方法普遍存在夸大 AI 性能的问题,且缺乏科学严谨性。


据IT之家了解,该研究由牛津大学互联网研究所(Oxford Internet Institute)牵头,并联合来自其他机构的 30 多位研究人员共同完成。研究团队对 445 项主流 AI 测试(即“基准测试”,benchmarks)进行了系统分析,这些测试通常用于衡量 AI 模型在各种主题领域的表现。

AI 开发者和研究人员常借助这些基准测试来评估模型能力,并以此宣称技术进步,从软件工程能力到抽象推理能力等。然而,本周二发布的这篇论文指出,这些被视为基础的测试可能并不可靠,并对大量基准测试结果的有效性提出质疑。

根据研究,大量顶级基准测试未能明确定义其测试目标,且重复使用已有基准的数据和测试方法,并且很少采用可靠的统计方法来比较不同模型之间的结果。

牛津大学互联网研究所高级研究员、该研究的共同第一作者亚当・马赫迪(Adam Mahdi)表示,这些基准测试可能具有惊人的误导性。他告诉 NBC 新闻:“当我们要求 AI 模型执行某些任务时,实际上往往测量的是完全不同于我们最初意图测量的概念。”

另一位共同第一作者、牛津大学互联网研究所研究员安德鲁・比恩(Andrew Bean)也表示,即便是声誉良好的基准测试也常常被盲目信任,理应接受更严格的审视。他表示:“当你听到‘某个模型达到博士水平的智能’这类说法时,一定要持保留态度。我们并不确定这些测量是否真的做得很好。”

研究中分析的部分基准测试衡量特定技能,如俄语或阿拉伯语能力;另一些则衡量更通用的能力,如空间推理或持续学习能力。

作者们关注的核心问题在于:某一基准测试是否真正有效衡量了其所声称要测量的现实世界现象 —— 研究者称之为“构念效度”(construct validity)。例如,一项被研究审查的基准测试并非通过无休止的问题来评估模型的俄语表达能力,而是通过九项不同任务(如利用俄语维基百科信息回答是非题)来衡量模型表现。

然而,研究发现,约一半的基准测试未能清晰界定其所声称要测量的概念,这使其能否提供关于 AI 模型的有用信息受到严重质疑。

研究以“小学数学 8K”(Grade School Math 8K,简称 GSM8K)这一常见 AI 基准测试为例。该测试通过一组基础数学题评估模型表现。外界常引用 GSM8K 排行榜来证明 AI 模型在基础数学推理方面能力出众,其官方文档也称其“有助于探查大语言模型的非形式化推理能力”。

但研究作者马赫迪指出,在 GSM8K 等基准测试中答对问题,并不一定意味着模型真正进行了数学推理。他表示:“当你问一年级学生 2 加 5 等于几,他们回答 7,没错,这是正确答案。但你能据此断定五年级学生仅凭会做加法就掌握了数学推理或算术推理吗?或许可以,但我认为答案很可能是否定的。”

比恩承认,像“推理”这类模糊概念的测量必然依赖对任务子集的评估,而这种选择不可避免地存在缺陷。他说道:“这些评估包含许多动态因素,要兼顾所有方面需要平衡。但本研究呼吁基准测试必须清晰界定其测量目标。”

他补充道:“对于‘无害性’或‘推理’这类概念,人们常常只是随便选一个接近该范畴、便于测量的东西,就说‘好了,我已经测出来了’。”

在这篇新论文中,作者提出了八项具体建议,并提供了一份检查清单,旨在使基准测试标准系统化,提升其透明度与可信度。建议的改进措施包括:明确界定所评估行为的具体范围;构建更能代表整体能力的任务组合;以及通过统计分析比较模型表现。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曾主任抛媚眼照被挖出!明目皓齿很调皮,网友:真的好迷人

曾主任抛媚眼照被挖出!明目皓齿很调皮,网友:真的好迷人

阿纂看事
2025-11-12 15:42:36
男子中午鱼刺卡喉、上班后不舒服抢救无效身亡,家属工伤诉求再审遭驳回

男子中午鱼刺卡喉、上班后不舒服抢救无效身亡,家属工伤诉求再审遭驳回

极目新闻
2025-11-12 16:05:57
祖雄兵越扒越有:男方有前科,曾琦医德很好,偷拍者身份炸裂

祖雄兵越扒越有:男方有前科,曾琦医德很好,偷拍者身份炸裂

寒士之言本尊
2025-11-10 22:51:59
“南朝四百八十寺之一”张家港永庆寺起火!当地文旅局:失火主体文昌阁系2008年新建仿古建筑,损失正在统计

“南朝四百八十寺之一”张家港永庆寺起火!当地文旅局:失火主体文昌阁系2008年新建仿古建筑,损失正在统计

红星新闻
2025-11-12 18:31:11
认真刷完曾医生和祖院长的视频,谁看了不说一句窒息?

认真刷完曾医生和祖院长的视频,谁看了不说一句窒息?

诗意世界
2025-11-10 18:51:56
塞尔维亚总统:欧洲正准备与俄罗斯打仗!

塞尔维亚总统:欧洲正准备与俄罗斯打仗!

每日经济新闻
2025-11-12 16:34:09
震惊!某家族群里,侄子教训叔叔了,称其得到的爱最多,理应付出

震惊!某家族群里,侄子教训叔叔了,称其得到的爱最多,理应付出

火山诗话
2025-11-12 15:30:51
全运会00后“野球帝”国乒主力梁靖崑,其妻子赛前承诺,赢了就换带院房子

全运会00后“野球帝”国乒主力梁靖崑,其妻子赛前承诺,赢了就换带院房子

潇湘晨报
2025-11-12 15:17:10
新乡医保从限额到解封,给全国各地打开了思路

新乡医保从限额到解封,给全国各地打开了思路

基本常识
2025-11-11 23:25:40
停火协议生效后,190名哈马斯分子“琥珀”成型全记录

停火协议生效后,190名哈马斯分子“琥珀”成型全记录

李未熟擒话2
2025-11-12 10:53:32
47岁闺蜜和52岁丈夫偷情4年,转走超79万!女子怒告闺蜜还钱,二审改判:赠与行为无效,返还34万

47岁闺蜜和52岁丈夫偷情4年,转走超79万!女子怒告闺蜜还钱,二审改判:赠与行为无效,返还34万

鲁中晨报
2025-11-12 11:15:05
人民币被踢出局!刚刚,英国掀桌子死保美元!

人民币被踢出局!刚刚,英国掀桌子死保美元!

深度报
2025-11-11 21:43:58
尘埃落定!曾医生事件处理结果公布,“撤职留岗”引发舆论两极化

尘埃落定!曾医生事件处理结果公布,“撤职留岗”引发舆论两极化

史行途
2025-11-12 17:10:24
天呐!刘亦菲妈妈被偶遇,都65岁了,还是美得不像话!太让人羡慕

天呐!刘亦菲妈妈被偶遇,都65岁了,还是美得不像话!太让人羡慕

陈意小可爱
2025-11-12 11:17:31
江苏常州警方通报“男子殴打92岁母亲”:刑拘

江苏常州警方通报“男子殴打92岁母亲”:刑拘

界面新闻
2025-11-12 12:13:33
广东20岁瘫痪小伙绑氢气球将自己升入百米高空,降落时剪断绳子,残联回应

广东20岁瘫痪小伙绑氢气球将自己升入百米高空,降落时剪断绳子,残联回应

极目新闻
2025-11-12 15:14:22
高市支持率82%,薛领事被围攻,日防卫省称先发制人,特朗普发声

高市支持率82%,薛领事被围攻,日防卫省称先发制人,特朗普发声

科普100克克
2025-11-12 06:11:34
断货36天后,荷兰终于投降,管理权归还给中方,斯霍夫已通告全球

断货36天后,荷兰终于投降,管理权归还给中方,斯霍夫已通告全球

来科点谱
2025-11-12 08:55:20
刘道玉逝世:民间哀思如潮,体制内媒体为何却保持沉默?

刘道玉逝世:民间哀思如潮,体制内媒体为何却保持沉默?

娱乐的宅急便
2025-11-12 02:24:35
这两个新闻放一起看,讽刺得让人无话可说

这两个新闻放一起看,讽刺得让人无话可说

清书先生
2025-11-12 15:55:46
2025-11-12 19:55:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1361544文章数 4457关注度
往期回顾 全部

科技要闻

前阿里人亲述: “经济上行”期双11什么样

头条要闻

高志凯:幸好荷兰政府失败了 否则开此先例将极其危险

头条要闻

高志凯:幸好荷兰政府失败了 否则开此先例将极其危险

体育要闻

消磨你上千小时的足球游戏,走过第20年

娱乐要闻

再王珞丹和白百何 明白两人"差别"在哪

财经要闻

段永平最新访谈:聊企业经营 投资理念

汽车要闻

7座皆独立座椅/新增5座版 体验第三代吉利豪越L

态度原创

亲子
家居
艺术
本地
公开课

亲子要闻

何穗产后首晒照,网友:这是刚生完的人吗?

家居要闻

情感之所 生活教会设计

艺术要闻

毛主席珍贵签名照曝光,鲜为人知的历史瞬间!

本地新闻

云游安徽 | 凌滩玉魄淬千年,诗意钢城马鞍山

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版