网易首页 > 网易号 > 正文 申请入驻

研究发现:大语言模型排名平台可能存在可靠性问题

0
分享至


企业在选择大语言模型来处理销售报告总结或客户咨询分类时,面临着数百种独特模型和数十种变体的选择,每种模型都有略微不同的性能表现。

为了缩小选择范围,公司通常依赖大语言模型排名平台,这些平台通过收集用户对模型交互的反馈,根据模型在特定任务上的表现进行排名。

然而,麻省理工学院的研究人员发现,少数几个用户交互就可能扭曲结果,导致用户错误地认为某个大语言模型是特定用例的理想选择。他们的研究显示,删除极小部分众包数据就能改变顶级模型的排名。

研究人员开发了一种快速方法来测试排名平台,判断它们是否容易受到这个问题的影响。该评估技术能够识别出对结果偏差影响最大的个别投票,让用户能够检查这些有影响力的投票。

研究团队表示,这项工作强调了需要更严格的策略来评估模型排名。虽然他们在这项研究中没有专注于缓解措施,但提供了可能提高这些平台稳健性的建议,比如收集更详细的反馈来创建排名。

这项研究还向那些在做大语言模型决策时依赖排名的用户发出警告,因为这些决策可能对企业或组织产生深远且代价高昂的影响。

"我们对这些排名平台如此敏感地受到这个问题影响感到惊讶。如果事实证明顶级大语言模型的排名仅仅依赖于数万条用户反馈中的两到三条,那么就不能假定这个顶级模型在部署时会持续优于所有其他模型,"麻省理工学院电子工程和计算机科学系副教授、实验室信息与决策系统以及数据、系统与社会研究所成员、计算机科学与人工智能实验室附属研究员、该研究高级作者塔玛拉·布罗德里克说。

她与论文的第一作者、电子工程和计算机科学系研究生詹妮·黄和尹义·沈,以及IBM研究院高级研究科学家丹尼斯·魏共同完成了这项研究。该研究将在学习表征国际会议上发表。

数据删除分析

虽然大语言模型排名平台有很多类型,但最受欢迎的变体是要求用户向两个模型提交查询,然后选择哪个大语言模型提供更好的回应。

平台汇总这些对比结果,产生显示哪个大语言模型在特定任务(如编程或视觉理解)上表现最佳的排名。

通过选择表现最佳的大语言模型,用户可能期望该模型的顶级排名能够推广,意味着它应该在用户类似但不完全相同的应用和新数据集上优于其他模型。

麻省理工学院的研究人员此前在统计学和经济学等领域研究了推广性。那项工作揭示了某些情况下,删除一小部分数据可能改变模型的结果,表明这些研究的结论可能不会在其狭窄设定之外成立。

研究人员想要看看同样的分析是否可以应用于大语言模型排名平台。

"归根结底,用户想知道他们是否选择了最好的大语言模型。如果只有几个提示驱动了这个排名,这表明排名可能不是绝对的答案,"布罗德里克说。

但手动测试数据删除现象是不可能的。例如,他们评估的一个排名有超过57000票。测试0.1%的数据删除意味着要从57000票中删除每个57票的子集(有超过10的194次方个子集),然后重新计算排名。

相反,研究人员基于他们之前的工作开发了一种高效的近似方法,并将其适应大语言模型排名系统。

"虽然我们有理论证明近似在某些假设下有效,但用户不需要相信这一点。我们的方法最终告诉用户有问题的数据点,所以他们可以删除那些数据点,重新运行分析,检查是否在排名中得到变化,"她说。

令人惊讶的敏感性

当研究人员将他们的技术应用于热门排名平台时,他们惊讶地发现需要删除的数据点如此之少就能导致顶级大语言模型的显著变化。在一个实例中,从超过57000票中仅删除两票(占0.0035%),就改变了哪个模型是顶级排名。

另一个使用专家标注者和更高质量提示的排名平台更加稳健。在这里,从2575个评估中删除83个(约3%)才会翻转顶级模型。

他们的检查显示,许多有影响力的投票可能是用户错误的结果。在一些情况下,似乎对于哪个大语言模型表现更好有明确答案,但用户却选择了另一个模型,布罗德里克说。

"我们永远不知道用户当时在想什么,但也许他们误点了或没有注意,或者他们确实不知道哪个更好。这里的重要启示是,你不希望噪音、用户错误或某些异常值决定哪个是顶级大语言模型,"她补充说。

研究人员建议从用户那里收集额外反馈,比如每票的置信度水平,这将提供更丰富的信息,有助于缓解这个问题。排名平台还可以使用人工调解员来评估众包回应。

对于研究人员来说,他们希望继续探索其他背景下的推广性,同时开发更好的近似方法,能够捕获更多非稳健性的例子。

"布罗德里克和她学生的工作展示了如何获得特定数据对下游过程影响的有效估计,尽管由于现代机器学习模型和数据集的规模,详尽计算是不可行的,"西北大学计算机科学系金妮·罗梅蒂教授杰西卡·赫尔曼说,她没有参与这项工作。"最近的工作让人glimpse into了常规应用但也非常脆弱的汇总人类偏好并用于更新模型方法中的强数据依赖性。看到如此少的偏好就能真正改变微调模型的行为,可能会激发更周到的收集这些数据的方法。"

这项研究部分由海军研究办公室、MIT-IBM沃森AI实验室、国家科学基金会、亚马逊和CSAIL种子奖资助。

Q&A

Q1:大语言模型排名平台是什么?它们如何工作?

A:大语言模型排名平台是通过收集用户反馈来对各种大语言模型进行排名的系统。最受欢迎的类型是让用户向两个模型提交相同查询,然后选择哪个模型提供更好的回应。平台汇总这些对比结果,产生显示哪个大语言模型在特定任务上表现最佳的排名。

Q2:为什么这些排名平台可能不可靠?

A:麻省理工学院研究发现,少数几个用户交互就可能严重扭曲排名结果。在一个实例中,从超过57000票中仅删除两票(占0.0035%),就改变了哪个模型排名第一。许多有影响力的投票可能是用户错误导致的,比如误点、注意力不集中或真的不知道哪个更好。

Q3:如何提高大语言模型排名平台的可靠性?

A:研究人员建议收集更详细的用户反馈,比如每票的置信度水平,这能提供更丰富的信息。排名平台还可以使用人工调解员来评估众包回应。此外,需要更严格的策略来评估模型排名,确保排名结果不会被极少数数据点左右。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
四川一县城300元的客房春节涨到1200元,有游客选择租房过冬,当地市监局曾收到投诉

四川一县城300元的客房春节涨到1200元,有游客选择租房过冬,当地市监局曾收到投诉

极目新闻
2026-02-10 19:50:29
五五分流为什么分不下去了?背后的真相

五五分流为什么分不下去了?背后的真相

枫冷慕诗
2026-01-24 13:09:19
0:2完败!提前1轮出局,亚冠生死战:5大外援难救申花,输得窝囊

0:2完败!提前1轮出局,亚冠生死战:5大外援难救申花,输得窝囊

话体坛
2026-02-10 22:51:05
台湾GDP狂飙,超日韩居亚洲第三!

台湾GDP狂飙,超日韩居亚洲第三!

云中浮生
2026-02-02 09:09:04
记者问老干妈创始人陶华碧:为什么一直用这家玻璃厂的玻璃瓶?

记者问老干妈创始人陶华碧:为什么一直用这家玻璃厂的玻璃瓶?

百态人间
2026-01-03 16:49:18
湖人全队表现平平,但后场大闸却罕见地成为了球队的关键人物?

湖人全队表现平平,但后场大闸却罕见地成为了球队的关键人物?

稻谷与小麦
2026-02-10 23:25:45
斯洛特:这是我执教生涯最艰难赛季;若下赛季没欧冠不可接受

斯洛特:这是我执教生涯最艰难赛季;若下赛季没欧冠不可接受

懂球帝
2026-02-10 20:21:16
有网友在天津海洋馆偶遇李纯夫妇,李纯私下和电视里一样漂亮

有网友在天津海洋馆偶遇李纯夫妇,李纯私下和电视里一样漂亮

可乐谈情感
2026-02-08 21:44:40
大逆转!米切尔32+10绝杀,约基奇空砍三双,哈登的首冠要来了

大逆转!米切尔32+10绝杀,约基奇空砍三双,哈登的首冠要来了

篮球扫地僧
2026-02-10 22:34:23
长春一道路旁多辆小车遭“冰封”,整车裹着厚厚冰层像被包浆,有人拿菜刀锤子除冰,附近商户称近期无雨雪,当地正调查原因

长春一道路旁多辆小车遭“冰封”,整车裹着厚厚冰层像被包浆,有人拿菜刀锤子除冰,附近商户称近期无雨雪,当地正调查原因

极目新闻
2026-02-10 12:01:23
1972年有人要撤汪东兴的中办厅主任,毛主席:替我转告总理三句话

1972年有人要撤汪东兴的中办厅主任,毛主席:替我转告总理三句话

文史季季红
2026-02-10 10:20:03
当爱泼斯坦案意外带火《大开眼戒》:库布里克的预言为何令人胆寒

当爱泼斯坦案意外带火《大开眼戒》:库布里克的预言为何令人胆寒

春天不是读书天
2026-02-09 16:11:48
和平委员会解散,七国集团瓦解,特朗普组建五国集团针对中国

和平委员会解散,七国集团瓦解,特朗普组建五国集团针对中国

开着车去流浪
2026-02-10 23:24:37
2换1,焦泊乔被交易?广东目标曝光,28岁,中锋,杜锋爱徒

2换1,焦泊乔被交易?广东目标曝光,28岁,中锋,杜锋爱徒

烟浔渺渺
2026-02-10 19:37:06
绝了!高市早苗大胜,郑丽文冷笑着送她一句话,大陆已不用再说啥

绝了!高市早苗大胜,郑丽文冷笑着送她一句话,大陆已不用再说啥

东极妙严
2026-02-10 12:36:32
73年王洪文提名中央副主席,一上将当场怒怼:你凭什么?现场炸锅

73年王洪文提名中央副主席,一上将当场怒怼:你凭什么?现场炸锅

元哥说历史
2025-12-26 18:50:03
凌晨三点,彻底失眠:Seedance 2.0告诉我们,AI对现实世界工作流“压缩”正在加速

凌晨三点,彻底失眠:Seedance 2.0告诉我们,AI对现实世界工作流“压缩”正在加速

华尔街见闻官方
2026-02-09 07:57:50
追觅CEO俞浩:我做科研的能力不会比韦东奕差

追觅CEO俞浩:我做科研的能力不会比韦东奕差

快科技
2026-02-10 17:09:21
朝鲜两名高官发动兵变为张成泽报仇,因细节败露,金正恩一招镇压

朝鲜两名高官发动兵变为张成泽报仇,因细节败露,金正恩一招镇压

阿胡
2024-04-30 11:48:45
流亡一年后,阿萨德已成“透明人”,连约普京吃顿饭都做不到

流亡一年后,阿萨德已成“透明人”,连约普京吃顿饭都做不到

朔方瞭望
2026-01-06 11:11:51
2026-02-11 00:16:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
16072文章数 49690关注度
往期回顾 全部

科技要闻

Seedance刷屏:网友们玩疯 影视圈瑟瑟发抖

头条要闻

28岁小伙年会醉酒 被同事送回宿舍后心脏骤停死亡

头条要闻

28岁小伙年会醉酒 被同事送回宿舍后心脏骤停死亡

体育要闻

NBA上演全武行,超大冲突4人驱逐!

娱乐要闻

章子怡和马丽争影后 金像奖提名太精彩

财经要闻

雀巢中国近千经销商的“追债记”

汽车要闻

应用于190KW四驱Ultra版 方程豹钛7搭载天神之眼5.0

态度原创

数码
艺术
家居
手机
房产

数码要闻

AOC爱攻新显示器来袭,1080P 260Hz电竞体验如何?

艺术要闻

AECOM 中东地区营业额暴跌42%

家居要闻

宁静港湾 灵动与诗意

手机要闻

2026年手机行业剧透:7大信号来袭,要卷出新高度了

房产要闻

海南又一千亿级赛道出现,京东、华润、中石化等巨头率先杀入!

无障碍浏览 进入关怀版