网易首页 > 网易号 > 正文 申请入驻

大语言模型排名并不可靠,三万分之一的数据变动即可左右结果

0
分享至


(来源:麻省理工科技评论)

企业若想使用大语言模型整理销售报告或分类处理客户咨询,可从数百款独立大语言模型中进行选择,每款模型的性能都存在细微差异。

为缩小选择范围,企业通常会参考大语言模型排名平台。这类平台会收集用户与模型交互的反馈,依据模型在特定任务中的表现,对最新的大语言模型进行排名。

但麻省理工学院的研究人员发现,少量用户交互数据就会导致结果出现偏差,让人们误判某款大语言模型是特定应用场景的理想选择。该研究表明,剔除极少一部分众包数据,就会改变模型的排名位次。

研究人员研发出一种快速检测方法,可测试排名平台是否容易受到这类问题影响。该评估方法能定位到对结果偏差影响最大的单条投票,方便用户核查这些高影响力投票。

研究人员表示,这项研究凸显了制定更严谨策略评估模型排名的必要性。他们在本次研究中并未重点研究解决方案,但提出了可提升平台稳定性的建议,例如收集更详细的反馈数据来生成排名。

该研究同时向依赖排名选择大语言模型的用户发出警示。这类决策可能会对企业或机构产生深远且高昂的代价。

麻省理工学院电气工程与计算机科学系副教授、信息与决策系统实验室及数据系统与社会研究所成员、计算机科学与人工智能实验室附属研究员、该研究资深作者塔玛拉・布罗德里克(Tamara Broderick)表示:“我们惊讶地发现,这类排名平台对该问题的敏感度极高。如果数万条用户反馈中,仅两三条就决定了排名第一的大语言模型,那么人们就不能认定,这款模型投入使用后会持续优于其他所有模型。”

该论文的第一作者为电气工程与计算机科学系研究生黄珍妮(Jenny Huang)、申云逸(Yunyi Shen),还有 IBM 研究院高级研究科学家丹尼斯・魏(Dennis Wei),他们与布罗德里克共同完成了这项研究。该研究成果将在国际学习表征大会上发布。

大语言模型排名平台的类型众多,最主流的模式是让用户向两款模型提交同一查询,再选择输出效果更好的模型。

平台会汇总这类对比结果生成排名,展示各款大语言模型在编程、视觉理解等特定任务中的最优表现。

用户选择排名靠前的大语言模型时,通常会认为该模型的优异排名具备泛化性。这意味着在全新数据集、相似但不完全相同的应用场景中,这款模型依旧能优于其他模型。

麻省理工学院的研究人员此前曾研究统计学、经济学等领域的泛化性问题。相关研究发现,部分场景中剔除小部分数据就会改变模型结果,这说明这类研究的结论可能无法适用于更广泛的场景。

研究人员希望验证,这类分析方法能否应用于大语言模型排名平台。

布罗德里克表示:“用户最终想知道的,是自己是否选到了最优的大语言模型。如果仅有少量提示词决定了排名,就说明这份排名并非绝对权威。”

但人工测试剔除数据的影响并不现实。例如,他们评估的一个排名平台拥有超 5.7 万条投票。测试剔除 0.1% 数据,需要从 5.7 万条投票中逐一剔除 57 条投票的子集,子集数量超 10 的 194 次方,再重新计算排名。

研究人员基于此前的研究成果,研发出一种高效的近似计算方法,并将其适配应用于大语言模型排名系统。

布罗德里克表示:“我们虽有理论证明该近似方法在特定假设下有效,但用户无需仅凭理论判断。我们的方法最终会为用户标注出问题数据点,用户只需剔除这些数据,重新运行分析,就能查看排名是否发生变化。”

研究人员将该方法应用于主流排名平台后,惊讶地发现,仅需剔除极少数据点,就会让头部大语言模型的排名发生显著变化。有案例显示,从 5.7 万余条投票中仅剔除 2 条,占比 0.0035%,就改变了排名第一的模型。

另一家使用专业标注人员、高质量提示词的排名平台,稳定性则更强。该平台需剔除 2575 条评估中的 83 条,占比约 3%,才会改变头部模型的排名。

布罗德里克表示,核查结果显示,许多高影响力投票可能源于用户操作失误。部分案例中,明明有明确的最优模型答案,用户却选择了另一款模型。

她补充道:“我们无法知晓用户当时的想法,可能是误点、注意力不集中,也可能是确实无法判断优劣。核心结论是,排名第一的大语言模型,不应由噪声数据、用户失误或异常值决定。”

研究人员建议,平台可收集用户的额外反馈,例如每条投票的信心程度,以此获取更丰富的信息,缓解该问题。排名平台也可安排人工审核人员,评估众包反馈的有效性。

研究人员计划继续探索其他场景下的泛化性问题,同时研发更优质的近似计算方法,捕捉更多不稳定性案例。

未参与此项研究的西北大学计算机科学系讲席教授杰西卡・赫尔曼(Jessica Hullman)表示:“布罗德里克及其学生的研究,解决了现代机器学习模型与数据集规模过大、无法穷尽计算的难题,展示了如何有效估算特定数据对下游流程的影响。”

赫尔曼补充道:“这项最新研究让我们看到,日常使用的人类偏好汇总与模型更新方法虽普遍应用,却十分脆弱,且高度依赖数据。极少的偏好数据就能改变微调模型的表现,这一发现有望推动更严谨的数据收集方法诞生。”

https://news.mit.edu/2026/study-platforms-rank-latest-llms-can-be-unreliable-0209

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
赵薇那场被中断的直播画面来了,来听十分钟里她说了什么

赵薇那场被中断的直播画面来了,来听十分钟里她说了什么

深度知局
2026-02-11 16:14:50
原来骆驼还能这么可怕的,看了网友的分享,又学到一个保命知识

原来骆驼还能这么可怕的,看了网友的分享,又学到一个保命知识

墙头草
2026-02-11 08:30:15
杨瀚森第22名!美媒公布NBA新秀赛球星排名:火箭队谢泼德高居第6

杨瀚森第22名!美媒公布NBA新秀赛球星排名:火箭队谢泼德高居第6

锅子篮球
2026-02-11 22:37:25
中国共产党中央军事委员会副主席张升民简历

中国共产党中央军事委员会副主席张升民简历

上观新闻
2025-10-23 18:17:07
快门:瞬间的自我对谈

快门:瞬间的自我对谈

疾跑的小蜗牛
2026-02-11 22:44:41
马斯克预测世界大战时间,大战最可能爆发在两地区

马斯克预测世界大战时间,大战最可能爆发在两地区

妙知
2025-12-29 00:08:32
彭德怀欲用4个师围歼陆战一师,毛泽东急电:人数不够,加上26军

彭德怀欲用4个师围歼陆战一师,毛泽东急电:人数不够,加上26军

历史龙元阁
2026-02-11 08:15:10
王晶谈万梓良晚年凄凉!称其不懂江湖规矩,演戏夸张对手很难接

王晶谈万梓良晚年凄凉!称其不懂江湖规矩,演戏夸张对手很难接

一盅情怀
2025-11-08 18:08:56
2月底向蒋万安请辞战新北,蓝营“小鸡”振奋,黄国昌也回应了

2月底向蒋万安请辞战新北,蓝营“小鸡”振奋,黄国昌也回应了

叮当当科技
2026-02-12 00:09:45
Travis Scott超级碗香奈儿棒球服售价惊人,精工表才是焦点!

Travis Scott超级碗香奈儿棒球服售价惊人,精工表才是焦点!

星Xin辰大海
2026-02-11 19:01:18
浙江队热身赛爆发激烈冲突!23分钟便腰斩 U23国足队长遭对手袭击

浙江队热身赛爆发激烈冲突!23分钟便腰斩 U23国足队长遭对手袭击

我爱英超
2026-02-11 22:25:30
当年轻人接管年货大权后,画风就变了!网友:一代人有一代人的年货

当年轻人接管年货大权后,画风就变了!网友:一代人有一代人的年货

另子维爱读史
2026-02-11 18:19:40
高德被交通部紧急约谈后续!知情人曝出三大核心原因,果然不简单

高德被交通部紧急约谈后续!知情人曝出三大核心原因,果然不简单

奇思妙想草叶君
2026-02-11 22:19:29
85花咖位大洗牌:杨幂跌出前三,赵丽颖表现意外,一人被骂

85花咖位大洗牌:杨幂跌出前三,赵丽颖表现意外,一人被骂

枫尘余往逝
2026-02-11 03:29:40
庞家后人硬刚新华社!七条质疑炸锅,香港媒体敢报的真相太炸裂

庞家后人硬刚新华社!七条质疑炸锅,香港媒体敢报的真相太炸裂

沧海一书客
2025-12-25 19:27:44
谷爱凌夺得米兰冬奥会自由式滑雪女子坡面障碍技巧银牌

谷爱凌夺得米兰冬奥会自由式滑雪女子坡面障碍技巧银牌

中国山东网
2026-02-11 15:44:20
梁安琪广州跳广场舞,小腹微凸显松弛美,富态感惊艳众人?

梁安琪广州跳广场舞,小腹微凸显松弛美,富态感惊艳众人?

娱乐领航家
2026-02-11 20:00:07
大风新闻调查:在小红书注册未成年人账号,被推送擦边内容,改年龄就能打赏直播间

大风新闻调查:在小红书注册未成年人账号,被推送擦边内容,改年龄就能打赏直播间

大风新闻
2026-02-11 18:53:18
香港屯门闷妻铁锅杀夫震惊街坊,死者女儿放学回家闻到臭味进屋吓到尖叫,警方透露谋杀缘由!

香港屯门闷妻铁锅杀夫震惊街坊,死者女儿放学回家闻到臭味进屋吓到尖叫,警方透露谋杀缘由!

澳门月刊
2026-02-11 10:21:43
卖房回日本?川大王竹卿这是把日本当“家”了?四川大学紧急通报

卖房回日本?川大王竹卿这是把日本当“家”了?四川大学紧急通报

手工制作阿爱
2026-02-12 02:42:10
2026-02-12 04:43:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16253文章数 514603关注度
往期回顾 全部

科技要闻

V4来了?DeepSeek 灰度测试新版本

头条要闻

遭特朗普威胁 卡尼一个电话打过去:47亿美元我们付的

头条要闻

遭特朗普威胁 卡尼一个电话打过去:47亿美元我们付的

体育要闻

搞垮一个冬奥选手,只需要一首歌?

娱乐要闻

大孤山风波愈演愈烈 超50位明星扎堆

财经要闻

广州前首富被判无期 200亿集资窟窿何偿

汽车要闻

比亚迪最美B级SUV? 宋Ultra这腰线美翻了

态度原创

本地
数码
亲子
时尚
公开课

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

数码要闻

英特尔Nova Lake处理器尺寸曝光:单芯片面积远超AMD

亲子要闻

一个五岁孩子的话,击碎了我的认知

3种美翻天的穿搭,换个方式过春天

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版