网易首页 > 网易号 > 正文 申请入驻

大语言模型排名并不可靠,三万分之一的数据变动即可左右结果

0
分享至


(来源:麻省理工科技评论)

企业若想使用大语言模型整理销售报告或分类处理客户咨询,可从数百款独立大语言模型中进行选择,每款模型的性能都存在细微差异。

为缩小选择范围,企业通常会参考大语言模型排名平台。这类平台会收集用户与模型交互的反馈,依据模型在特定任务中的表现,对最新的大语言模型进行排名。

但麻省理工学院的研究人员发现,少量用户交互数据就会导致结果出现偏差,让人们误判某款大语言模型是特定应用场景的理想选择。该研究表明,剔除极少一部分众包数据,就会改变模型的排名位次。

研究人员研发出一种快速检测方法,可测试排名平台是否容易受到这类问题影响。该评估方法能定位到对结果偏差影响最大的单条投票,方便用户核查这些高影响力投票。

研究人员表示,这项研究凸显了制定更严谨策略评估模型排名的必要性。他们在本次研究中并未重点研究解决方案,但提出了可提升平台稳定性的建议,例如收集更详细的反馈数据来生成排名。

该研究同时向依赖排名选择大语言模型的用户发出警示。这类决策可能会对企业或机构产生深远且高昂的代价。

麻省理工学院电气工程与计算机科学系副教授、信息与决策系统实验室及数据系统与社会研究所成员、计算机科学与人工智能实验室附属研究员、该研究资深作者塔玛拉・布罗德里克(Tamara Broderick)表示:“我们惊讶地发现,这类排名平台对该问题的敏感度极高。如果数万条用户反馈中,仅两三条就决定了排名第一的大语言模型,那么人们就不能认定,这款模型投入使用后会持续优于其他所有模型。”

该论文的第一作者为电气工程与计算机科学系研究生黄珍妮(Jenny Huang)、申云逸(Yunyi Shen),还有 IBM 研究院高级研究科学家丹尼斯・魏(Dennis Wei),他们与布罗德里克共同完成了这项研究。该研究成果将在国际学习表征大会上发布。

大语言模型排名平台的类型众多,最主流的模式是让用户向两款模型提交同一查询,再选择输出效果更好的模型。

平台会汇总这类对比结果生成排名,展示各款大语言模型在编程、视觉理解等特定任务中的最优表现。

用户选择排名靠前的大语言模型时,通常会认为该模型的优异排名具备泛化性。这意味着在全新数据集、相似但不完全相同的应用场景中,这款模型依旧能优于其他模型。

麻省理工学院的研究人员此前曾研究统计学、经济学等领域的泛化性问题。相关研究发现,部分场景中剔除小部分数据就会改变模型结果,这说明这类研究的结论可能无法适用于更广泛的场景。

研究人员希望验证,这类分析方法能否应用于大语言模型排名平台。

布罗德里克表示:“用户最终想知道的,是自己是否选到了最优的大语言模型。如果仅有少量提示词决定了排名,就说明这份排名并非绝对权威。”

但人工测试剔除数据的影响并不现实。例如,他们评估的一个排名平台拥有超 5.7 万条投票。测试剔除 0.1% 数据,需要从 5.7 万条投票中逐一剔除 57 条投票的子集,子集数量超 10 的 194 次方,再重新计算排名。

研究人员基于此前的研究成果,研发出一种高效的近似计算方法,并将其适配应用于大语言模型排名系统。

布罗德里克表示:“我们虽有理论证明该近似方法在特定假设下有效,但用户无需仅凭理论判断。我们的方法最终会为用户标注出问题数据点,用户只需剔除这些数据,重新运行分析,就能查看排名是否发生变化。”

研究人员将该方法应用于主流排名平台后,惊讶地发现,仅需剔除极少数据点,就会让头部大语言模型的排名发生显著变化。有案例显示,从 5.7 万余条投票中仅剔除 2 条,占比 0.0035%,就改变了排名第一的模型。

另一家使用专业标注人员、高质量提示词的排名平台,稳定性则更强。该平台需剔除 2575 条评估中的 83 条,占比约 3%,才会改变头部模型的排名。

布罗德里克表示,核查结果显示,许多高影响力投票可能源于用户操作失误。部分案例中,明明有明确的最优模型答案,用户却选择了另一款模型。

她补充道:“我们无法知晓用户当时的想法,可能是误点、注意力不集中,也可能是确实无法判断优劣。核心结论是,排名第一的大语言模型,不应由噪声数据、用户失误或异常值决定。”

研究人员建议,平台可收集用户的额外反馈,例如每条投票的信心程度,以此获取更丰富的信息,缓解该问题。排名平台也可安排人工审核人员,评估众包反馈的有效性。

研究人员计划继续探索其他场景下的泛化性问题,同时研发更优质的近似计算方法,捕捉更多不稳定性案例。

未参与此项研究的西北大学计算机科学系讲席教授杰西卡・赫尔曼(Jessica Hullman)表示:“布罗德里克及其学生的研究,解决了现代机器学习模型与数据集规模过大、无法穷尽计算的难题,展示了如何有效估算特定数据对下游流程的影响。”

赫尔曼补充道:“这项最新研究让我们看到,日常使用的人类偏好汇总与模型更新方法虽普遍应用,却十分脆弱,且高度依赖数据。极少的偏好数据就能改变微调模型的表现,这一发现有望推动更严谨的数据收集方法诞生。”

https://news.mit.edu/2026/study-platforms-rank-latest-llms-can-be-unreliable-0209

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
5种“夺命花”不要养,家里要有赶快扔,谁不听劝谁吃亏

5种“夺命花”不要养,家里要有赶快扔,谁不听劝谁吃亏

三农老历
2026-03-26 09:42:30
闭眼隔扣+戏耍两人后嘲讽拉满!41岁詹皇23+9+9 在场+24湖人封王

闭眼隔扣+戏耍两人后嘲讽拉满!41岁詹皇23+9+9 在场+24湖人封王

颜小白的篮球梦
2026-03-26 09:40:23
被抓后家中查出20吨黄金?秘密移民国外?赵本山身上的谣言太离谱

被抓后家中查出20吨黄金?秘密移民国外?赵本山身上的谣言太离谱

潮鹿逐梦
2026-03-24 17:58:35
美国最大的失误就是一上来就把宋江给干掉了

美国最大的失误就是一上来就把宋江给干掉了

仰望星空的一粒沙子
2026-03-14 16:25:14
萨巴伦卡等人会师迈阿密站女单四强,半决赛世界前二将直接对话

萨巴伦卡等人会师迈阿密站女单四强,半决赛世界前二将直接对话

生活新鲜市
2026-03-26 16:30:08
“能劝一个是一个,海肠捞饭就是智商税”

“能劝一个是一个,海肠捞饭就是智商税”

风味人间
2026-03-26 13:32:37
“只要决心够大,诺贝尔奖不在话下!”

“只要决心够大,诺贝尔奖不在话下!”

槽逻辑
2026-03-24 18:46:27
为什么建议你多做俯卧撑?6个被低估的好处

为什么建议你多做俯卧撑?6个被低估的好处

增肌减脂
2026-03-25 11:53:14
史诗级!曝1.7亿“顶星”空降阿森纳!两大攻击手遭“打包”放逐

史诗级!曝1.7亿“顶星”空降阿森纳!两大攻击手遭“打包”放逐

头狼追球
2026-03-26 13:48:03
伊朗警告:情报显示敌对势力在“某地区国家”支持下准备占领伊朗岛屿,若敌人胆敢采取行动,将对该地区国家所有重要基础设施进行猛烈攻击

伊朗警告:情报显示敌对势力在“某地区国家”支持下准备占领伊朗岛屿,若敌人胆敢采取行动,将对该地区国家所有重要基础设施进行猛烈攻击

极目新闻
2026-03-26 09:09:58
我退休金5780,儿子叫我去上海带娃,吃饭时儿媳每月交2400生活费

我退休金5780,儿子叫我去上海带娃,吃饭时儿媳每月交2400生活费

艺鉴在线
2026-03-26 12:54:44
14岁初中生把干冰放冰箱,半夜爆炸致价值上万冰箱报废 家长:没责备他

14岁初中生把干冰放冰箱,半夜爆炸致价值上万冰箱报废 家长:没责备他

红星新闻
2026-03-24 23:25:19
伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

每日经济新闻
2026-03-26 12:20:14
杨鸣指出广东男篮两大问题,杜锋迷恋小阵容,用人问题明显!

杨鸣指出广东男篮两大问题,杜锋迷恋小阵容,用人问题明显!

中国篮坛快讯
2026-03-26 17:45:38
ATP的灾难:无趣的辛纳和事业心不足的阿尔卡拉斯

ATP的灾难:无趣的辛纳和事业心不足的阿尔卡拉斯

网球之家
2026-03-26 13:25:06
亚洲杯抽签仪式将延期进行,国足明战库拉索,重点演练定位球

亚洲杯抽签仪式将延期进行,国足明战库拉索,重点演练定位球

五星体育
2026-03-26 17:41:30
欧洲芯片巨头官宣:我已在中国大陆,制造40nm芯片了

欧洲芯片巨头官宣:我已在中国大陆,制造40nm芯片了

互联网.乱侃秀
2026-03-25 09:45:10
江苏一男子为控制血糖,每天坚持走路9000步,半年后他的身体咋样

江苏一男子为控制血糖,每天坚持走路9000步,半年后他的身体咋样

徐医生健康讲坛
2026-03-26 13:57:18
曝信达证券所长猥亵员工,长得很老实,女方颜值出众,合影曝光

曝信达证券所长猥亵员工,长得很老实,女方颜值出众,合影曝光

180视角
2026-03-25 17:34:12
“鸟面妈妈”王小妞:不听劝阻生二胎,儿子遗传其外貌,现如何

“鸟面妈妈”王小妞:不听劝阻生二胎,儿子遗传其外貌,现如何

观察者海风
2026-03-24 23:04:30
2026-03-26 18:16:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16488文章数 514797关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
健康
房产
亲子
公开课

手机要闻

顶配Ultra旗舰!vivo X300 Ultra配置公布:骁龙8E5+2K/144Hz直屏、8.19mm机身

转头就晕的耳石症,能开车上班吗?

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

亲子要闻

售卖“增高神药”让孩子“猛长20厘米”?多家店铺被立案调查!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版