网易首页 > 网易号 > 正文 申请入驻

科学家揭示大语言模型测试标准普遍缺陷,AI进步衡量遇挑战

0
分享至

来源:市场资讯

(来源:IT之家)

IT之家 11 月 8 日消息,据科技媒体 the decoder 今天报道,一项由牛津大学、华盛顿大学等机构发表的国际研究指出,目前大多数大语言模型(LLM)的测试标准存在严重方法论问题,使人们很难真正客观地衡量 AI 的进步。

科学家们翻阅了顶级 AI 学术会议(IT之家注:涵盖 ICML、ICLR、NeurIPS、ACL 等)从 2018 年到 2024 年间发表的 445 篇基准测试论文,并邀请 29 名专家进行评判,结果发现这些论文里都至少存在一个重大缺陷。

据研究报告所述,这其中的许多基准定义都含糊其辞或存在争议,虽然 78% 的基准能说明内容,但其中的一半都没有清晰定义“推理”、“对齐”、“安全性”等关键术语,从而使这些论文的结论缺乏可信度。


此外,大约 61% 的基准测试评估了复合技能,如“智能体行为”,这些测试通常同时涉猎意图、生成结构化输出等多个子集,而这些子集很少能被单独评估,因此结果往往难以解释。

同时数据采样也是基准测试的重灾区之一,约 93% 的论文使用了便利抽样,12% 的论文完全依赖便利抽样,不能代表真实使用场景,还有 38% 的测试复用了数据,许多研究甚至会直接使用其它测试集,这种做法很可能扭曲 LLM 的实际表现,无法反映模型在复杂数学推理的真实能力。

此外,超过 80% 的研究使用“完全匹配率”作为评分标准,但只有 16% 使用统计校验方法来比较不同模型差异,还有 13% 使用人工评判,大多数测试都没有提供不确定性统计、置信区间,使结果可信度大打折扣。

当然团队也提出了改进方向,他们建议后续测试中需明确定义测试目标和边界,确保不在过程中混入无关任务,需要防止数据污染,并使用严谨的统计与误差分析,从定量和定性两方面下手,让研究结果更准确。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
高市早苗不是口嗨,日本这步危险棋,中国已经亮明底牌

高市早苗不是口嗨,日本这步危险棋,中国已经亮明底牌

吕喆有话说
2025-11-18 13:27:56
气场强大!陈梦暂停时,教练和队员全都闭口不言,没有人敢指导

气场强大!陈梦暂停时,教练和队员全都闭口不言,没有人敢指导

凤幻洋
2025-11-18 16:23:49
越扒越深了!网传赵某晖“吞掉”人家装修款,有业主直言她坏良心

越扒越深了!网传赵某晖“吞掉”人家装修款,有业主直言她坏良心

火山诗话
2025-11-18 06:39:29
日本,断崖式下跌!

日本,断崖式下跌!

鲁中晨报
2025-11-18 09:45:03
86岁老人随口乱说代号,儿子上报后,国安领导:马上接通中央部委

86岁老人随口乱说代号,儿子上报后,国安领导:马上接通中央部委

知鉴明史
2025-10-23 14:01:49
小米集团:智能电动汽车及AI等创新业务分部首次实现单季度经营盈利

小米集团:智能电动汽车及AI等创新业务分部首次实现单季度经营盈利

界面新闻
2025-11-18 17:32:10
又一国产车“倒下”了,10月份仅卖了1辆,是国人不识货吗?

又一国产车“倒下”了,10月份仅卖了1辆,是国人不识货吗?

诗意世界
2025-11-16 20:00:36
喊了30年的广州东进,风向终于变了,西部这三地才是真未来

喊了30年的广州东进,风向终于变了,西部这三地才是真未来

我不叫阿哏
2025-11-18 13:16:17
泰王不懂妻美!和苏提达王后参观北京航天城,对其使眼神表情严肃

泰王不懂妻美!和苏提达王后参观北京航天城,对其使眼神表情严肃

夜深爱杂谈
2025-11-17 20:54:37
森林狼6人上双大胜独行侠 状元对决华子三分7中1弗拉格15分

森林狼6人上双大胜独行侠 状元对决华子三分7中1弗拉格15分

醉卧浮生
2025-11-18 11:27:06
月入18个亿,每天接诊超过4万人,全球最大的医院竟然在中国

月入18个亿,每天接诊超过4万人,全球最大的医院竟然在中国

探源历史
2025-10-25 10:16:29
59年彭德怀申请搬出中南海,毛主席指示邓小平:彭总一切待遇不变

59年彭德怀申请搬出中南海,毛主席指示邓小平:彭总一切待遇不变

鹤羽说个事
2025-11-18 11:41:54
NBA西部最新积分榜:雷霆6连胜排第1,掘金第2,快船第12

NBA西部最新积分榜:雷霆6连胜排第1,掘金第2,快船第12

薇说体育
2025-11-18 17:42:47
背刺中国,出卖孟晚舟的真凶被挖出来之后,如今遭到了哪些报应?

背刺中国,出卖孟晚舟的真凶被挖出来之后,如今遭到了哪些报应?

奥字侃剧
2025-11-18 17:05:57
偷梁换柱!女大学生买羽绒服退手机壳,还嫁祸快递员,丢人又道歉

偷梁换柱!女大学生买羽绒服退手机壳,还嫁祸快递员,丢人又道歉

深析古今
2025-11-17 17:55:15
发小当上公安局长后,竟把我调去守水库!三个月后他突然深夜到访

发小当上公安局长后,竟把我调去守水库!三个月后他突然深夜到访

呆子的故事
2025-11-14 16:18:57
郑丽文提“一国两区”,蓝营民调大涨;民进党没招了,再打抗中牌

郑丽文提“一国两区”,蓝营民调大涨;民进党没招了,再打抗中牌

前沿天地
2025-11-18 14:47:14
现在找工作已经不是工资的问题了。

现在找工作已经不是工资的问题了。

爱吃糖的猫cat
2025-11-17 20:37:54
腾讯独播!缉毒悬疑大剧,霍建华、黄宗泽两大男神合体,值得一看

腾讯独播!缉毒悬疑大剧,霍建华、黄宗泽两大男神合体,值得一看

阿乐乐电影v
2025-11-18 16:01:10
江苏女排决赛胜福建,张常宁状态佳,全运会前景看好。

江苏女排决赛胜福建,张常宁状态佳,全运会前景看好。

格斗联盟
2025-11-18 17:39:16
2025-11-18 18:40:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1419466文章数 4549关注度
往期回顾 全部

科技要闻

小米:汽车及AI等业务首次单季度经营盈利

头条要闻

22岁女生跳河轻生 生前因未请假离校与辅导员发生争执

头条要闻

22岁女生跳河轻生 生前因未请假离校与辅导员发生争执

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

搭载1.5T增程动力 吉利银河V900官图发布

态度原创

家居
亲子
本地
数码
公开课

家居要闻

彰显奢华 意式经典风格

亲子要闻

俄媳妇挑战用中文教宝宝

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

数码要闻

天马全球首发真610Hz无极电竞屏,还有108英寸4K巨幕Micro LED

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版