研究发现：大语言模型排名平台可能存在可靠性问题|计算机|大模型

研究发现：大语言模型排名平台可能存在可靠性问题

2026-02-09 22:14:08　来源: 至顶头条

北京举报

分享至

企业在选择大语言模型来处理销售报告总结或客户咨询分类时，面临着数百种独特模型和数十种变体的选择，每种模型都有略微不同的性能表现。

为了缩小选择范围，公司通常依赖大语言模型排名平台，这些平台通过收集用户对模型交互的反馈，根据模型在特定任务上的表现进行排名。

然而，麻省理工学院的研究人员发现，少数几个用户交互就可能扭曲结果，导致用户错误地认为某个大语言模型是特定用例的理想选择。他们的研究显示，删除极小部分众包数据就能改变顶级模型的排名。

研究人员开发了一种快速方法来测试排名平台，判断它们是否容易受到这个问题的影响。该评估技术能够识别出对结果偏差影响最大的个别投票，让用户能够检查这些有影响力的投票。

研究团队表示，这项工作强调了需要更严格的策略来评估模型排名。虽然他们在这项研究中没有专注于缓解措施，但提供了可能提高这些平台稳健性的建议，比如收集更详细的反馈来创建排名。

这项研究还向那些在做大语言模型决策时依赖排名的用户发出警告，因为这些决策可能对企业或组织产生深远且代价高昂的影响。

"我们对这些排名平台如此敏感地受到这个问题影响感到惊讶。如果事实证明顶级大语言模型的排名仅仅依赖于数万条用户反馈中的两到三条，那么就不能假定这个顶级模型在部署时会持续优于所有其他模型，"麻省理工学院电子工程和计算机科学系副教授、实验室信息与决策系统以及数据、系统与社会研究所成员、计算机科学与人工智能实验室附属研究员、该研究高级作者塔玛拉·布罗德里克说。

她与论文的第一作者、电子工程和计算机科学系研究生詹妮·黄和尹义·沈，以及IBM研究院高级研究科学家丹尼斯·魏共同完成了这项研究。该研究将在学习表征国际会议上发表。

数据删除分析

虽然大语言模型排名平台有很多类型，但最受欢迎的变体是要求用户向两个模型提交查询，然后选择哪个大语言模型提供更好的回应。

平台汇总这些对比结果，产生显示哪个大语言模型在特定任务（如编程或视觉理解）上表现最佳的排名。

通过选择表现最佳的大语言模型，用户可能期望该模型的顶级排名能够推广，意味着它应该在用户类似但不完全相同的应用和新数据集上优于其他模型。

麻省理工学院的研究人员此前在统计学和经济学等领域研究了推广性。那项工作揭示了某些情况下，删除一小部分数据可能改变模型的结果，表明这些研究的结论可能不会在其狭窄设定之外成立。

研究人员想要看看同样的分析是否可以应用于大语言模型排名平台。

"归根结底，用户想知道他们是否选择了最好的大语言模型。如果只有几个提示驱动了这个排名，这表明排名可能不是绝对的答案，"布罗德里克说。

但手动测试数据删除现象是不可能的。例如，他们评估的一个排名有超过57000票。测试0.1%的数据删除意味着要从57000票中删除每个57票的子集（有超过10的194次方个子集），然后重新计算排名。

相反，研究人员基于他们之前的工作开发了一种高效的近似方法，并将其适应大语言模型排名系统。

"虽然我们有理论证明近似在某些假设下有效，但用户不需要相信这一点。我们的方法最终告诉用户有问题的数据点，所以他们可以删除那些数据点，重新运行分析，检查是否在排名中得到变化，"她说。

令人惊讶的敏感性

当研究人员将他们的技术应用于热门排名平台时，他们惊讶地发现需要删除的数据点如此之少就能导致顶级大语言模型的显著变化。在一个实例中，从超过57000票中仅删除两票（占0.0035%），就改变了哪个模型是顶级排名。

另一个使用专家标注者和更高质量提示的排名平台更加稳健。在这里，从2575个评估中删除83个（约3%）才会翻转顶级模型。

他们的检查显示，许多有影响力的投票可能是用户错误的结果。在一些情况下，似乎对于哪个大语言模型表现更好有明确答案，但用户却选择了另一个模型，布罗德里克说。

"我们永远不知道用户当时在想什么，但也许他们误点了或没有注意，或者他们确实不知道哪个更好。这里的重要启示是，你不希望噪音、用户错误或某些异常值决定哪个是顶级大语言模型，"她补充说。

研究人员建议从用户那里收集额外反馈，比如每票的置信度水平，这将提供更丰富的信息，有助于缓解这个问题。排名平台还可以使用人工调解员来评估众包回应。

对于研究人员来说，他们希望继续探索其他背景下的推广性，同时开发更好的近似方法，能够捕获更多非稳健性的例子。

"布罗德里克和她学生的工作展示了如何获得特定数据对下游过程影响的有效估计，尽管由于现代机器学习模型和数据集的规模，详尽计算是不可行的，"西北大学计算机科学系金妮·罗梅蒂教授杰西卡·赫尔曼说，她没有参与这项工作。"最近的工作让人glimpse into了常规应用但也非常脆弱的汇总人类偏好并用于更新模型方法中的强数据依赖性。看到如此少的偏好就能真正改变微调模型的行为，可能会激发更周到的收集这些数据的方法。"

这项研究部分由海军研究办公室、MIT-IBM沃森AI实验室、国家科学基金会、亚马逊和CSAIL种子奖资助。

Q&A

Q1：大语言模型排名平台是什么？它们如何工作？

A：大语言模型排名平台是通过收集用户反馈来对各种大语言模型进行排名的系统。最受欢迎的类型是让用户向两个模型提交相同查询，然后选择哪个模型提供更好的回应。平台汇总这些对比结果，产生显示哪个大语言模型在特定任务上表现最佳的排名。

Q2：为什么这些排名平台可能不可靠？

A：麻省理工学院研究发现，少数几个用户交互就可能严重扭曲排名结果。在一个实例中，从超过57000票中仅删除两票（占0.0035%），就改变了哪个模型排名第一。许多有影响力的投票可能是用户错误导致的，比如误点、注意力不集中或真的不知道哪个更好。

Q3：如何提高大语言模型排名平台的可靠性？

A：研究人员建议收集更详细的用户反馈，比如每票的置信度水平，这能提供更丰富的信息。排名平台还可以使用人工调解员来评估众包回应。此外，需要更严格的策略来评估模型排名，确保排名结果不会被极少数数据点左右。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.