网易首页 > 网易号 > 正文 申请入驻

ICLR 2025 | 场景感知的多维度大模型评估器

0
分享至

本文提出SaMer,一种场景感知的多维度评估器,可对大模型生成的响应进行细粒度、可解释的评估。SaMer动态识别并优先考虑不同query场景的关键维度,相比固定维度方法,更具情境敏感性。实验表明,SaMer在单一评分与成对比较任务上优于现有基准,并通过维度级得分和权重提供透明评估。

论文题目: SaMer: A Scenario-aware Multi-dimensional Evaluator for Large Language Models 论文链接: https://openreview.net/forum?id=aBnVU5DL3I 代码链接: https://github.com/Irving-Feng/SaMer/

一、引言

在开放式的自然语言生成任务中,评估大型语言模型(LLMs)的响应质量是一项重大挑战,主要原因在于“质量”的主观性和多维性。现有的LLM评估方法大多采用固定维度的评估标准,无法根据具体场景灵活调整,导致难以满足不同类型问题的需求。

为了解决这一问题,我们提出了SaMer,一个场景感知的多维度评估器,旨在通过自动识别与用户query相关的评估维度,动态调整评估标准,以适应不同场景的需求。我们首先构建了一个大规模细粒度偏好数据集,涵盖多个真实场景及其特定的评估维度。然后,我们设计了包含文本嵌入模型与三个专用模块的模型架构,用于维度预测、质量评分和权重融合。最后,通过一个多步骤训练阶段,SaMer可以提供准确性高、解释性强、细粒度的评估。

实验结果表明,SaMer在8个单独评分和成对比较benchmark上的表现均优于现有基线方法,展现出其在多样化评估任务中的鲁棒性和适应性。此外,SaMer的细粒度和场景感知能力为LLM的响应评估提供了更高的透明度和灵活性,支持更广泛的实际应用。

二、数据构建

如图所示,我们通过定义场景和评估维度、收集pairwise偏好数据、标注细粒度偏好等三个步骤构建了一个包含广泛场景的细粒度偏好数据集。

1. 场景和评估维度定义

场景:我们从人类需求的角度定义了 36 种情景,根据马斯洛需求理论的层次结构将它们分为五种主要类型:安全、社会、认知、审美和自我实现需求。我们从现有工作中总结了42个评估常用维度,聘请三位有丰富经验的研究生为每个场景所需的评估维度进行标注。

2. pairwise偏好数据集构建

我们从多个开源数据集获取了种子数据,具体统计值见下表:

然后,我们训练了一个场景分类器,通过输入的query,场景分类器将种子数据进行场景分类。最后,我们为每个场景采样2K~5K的数据,使得所有场景的数据比例相似。这一步共获得135,402条样本。

3. 细粒度偏好数据标注

基于场景标签和场景的特定评估维度,我们利用GPT-4o来执行细粒度的偏好注释。对于每个样本,考虑到LLM执行成对比较比单实例评估更可靠,我们指示 GPT-4o 只关注指定的维度,仔细比较两个模型生成的响应并选择更好的一个或宣布平局。

三、模型与训练

如图所示,模型的架构与训练目标共包含三个部分:

1. 通过多标签分类进行维度预测

我们首先致力于让SaMer自适应地预测每个输入query应该考虑哪些维度。这可以建模为一个多标签分类任务,即从42个维度标签中选择 个所需维度。我们构建了一个42维的MLP作为维度预测层 ,用于预测维度标签。我们使用ZLPR (Zero-bounded Log-sum-exp & Pairwise Rank-based)损失训练。

2. 通过偏好学习进行多维评分

我们然后利用构建的细粒度偏好数据实现多维度评分。具体来说,对于每个特定维度,我们有一个排名,例如 代表回复A好于B。我们构建了一个42维的MLP作为评分层 ,用于为各个维度打分,并使用ranking loss进行训练。特别地,我们mask了每个样本的无关维度,只训练所需维度。

3. 通过权重融合进行综合评分

要获得总体评估分数,一种简单的方法是线性组合所有维度分数,但这忽略了每个维度的贡献在不同的评估场景中会有所不同的事实。所以,我们加入了权重预测层 ,用于预测每个维度的权重,然后对每个维度的分数进行加权平均。我们使用ranking loss进行训练,并冻结了 和 的参数。

最后,我们将上述三个模块插入到一个冻结的预训练LLM(即,ArmoRM,一个基于Llama3-8B的奖励模型)后。由LLM提供文本编码后,分别由三个MLP层预测维度、评分和权重,最后进行加权平均得到最终的评分。

四、实验分析

1. 单响应评分

我们在Vicuna Bench、FLASK Eval、Feedback Bench上评估了SaMer对单个响应输出的质量评分与人类标注之间的相关性。结果表明,SaMer在三个benchmark上表现出显著的改进,特别是在FLASK Eval中。值得注意的是,SaMer的表现与专有模型(包括GPT-4o/4o-mini和Claude3.5-Sonnet)相当,甚至超过了这些模型。不过,可以观察到大多数模型在Vicuna Bench和FLASK上的相关系数并未超过0.5,这表明这些基准的挑战性以及将模型评估与人类评分对齐的复杂性。

2. 成对比较

在成对比较任务中,SaMer在15个任务中取得了9个任务最佳的表现,并在剩余的6个任务中在开源模型中排名第二。这在一定程度上可以归因于强大的ArmoRM backbone网络(它在多个任务中也取得了领先的结果)。然而,正如SaMer在AlpacaEval上的显著改进,我们强调了我们策略足够有效。尽管专有模型在这些评估中通常优于所有开源模型,SaMer通过在多个任务中接近专有模型的表现,展示了其竞争力,突显了其强大的适应性。

3. 细粒度成对比较

在细粒度比较任务中,结果显示大多数评估器的维度级偏好比较准确率通常低于整体准确率,这突显了在特定维度上准确评估响应的挑战。

一个有趣的观察是,与其7B版本相比,Llama-2-13B-Chat的表现下降,表明增加模型参数并不一定会带来更好的细粒度评估能力。相比之下,SaMer取得了显著的改进,维度级准确率提高了10.7,整体准确率提高了15.7,较Llama-3-8B-Inst(SaMer的原始backbone)而言。此外,与专有模型相比,SaMer在性能上超越了GPT-4o-mini和Claude-3.5Sonnet。这个结果突显了我们训练方法在提升多维度、情境感知评估方面的强大和有效性。

此外,SaMer展示了场景感知的适应性,能够对于可能没有明确场景标签的query有效地选择适当的评估维度。上图展示了SaMer在三种不同情境下分配的权重:创意写作、数学推理和法律文件写作。这些权重指示了每个维度在评估过程中的相对重要性。在创意写作中,SaMer 将创造力维度赋予最高重要性,其次是逻辑、相关性、无害性和风格,这与创意写作的基本属性密切相关。相反,在数学推理中,重点转向推理过程和结果,逻辑、准确性、清晰度和逐步解释成为主要维度。在评估法律文件写作情境时,逻辑被确定为最关键的维度,其次是无害性和清晰度,反映了法律写作的独特要求。

五、总结

在这项工作中,我们提出了SaMer,一种场景感知的多维度评估器,旨在提供对大型语言模型生成的响应的细粒度和可解释的评估。通过动态识别和优先考虑不同query场景的相关评估维度,SaMer能够相比传统的固定维度方法提供更细致和具有情境敏感性的评估。在单一评分和成对比较基准上的广泛实验验证了该模型的适应性,结果显示SaMer在性能上超过了现有基准,同时通过详细的维度级得分和权重提供透明且可解释的评估。


作者:冯科华 来源:公众号【ZJUKG】

llustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线600+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人到中年后,为什么很难快乐起来?网友:都是陈塘关村民罢了!

人到中年后,为什么很难快乐起来?网友:都是陈塘关村民罢了!

夜深爱杂谈
2026-05-05 10:24:06
马扎尔正式就任匈牙利总理!欧尔班何时出逃莫斯科?

马扎尔正式就任匈牙利总理!欧尔班何时出逃莫斯科?

项鹏飞
2026-05-10 21:05:09
福气敲门!未来一周有一笔横财天降的3个生肖,好日子真的来了

福气敲门!未来一周有一笔横财天降的3个生肖,好日子真的来了

毅谈生肖
2026-05-11 11:56:15
湘菜正集体攻打麻辣帝国四川,但99%的品牌可能是去送死的?

湘菜正集体攻打麻辣帝国四川,但99%的品牌可能是去送死的?

梦想的现实
2026-05-08 15:32:59
上海地铁两老太撕扯女孩后续!老人正脸流出,身份被扒,评论炸了

上海地铁两老太撕扯女孩后续!老人正脸流出,身份被扒,评论炸了

八斗小先生
2026-05-11 15:20:56
理想汽车:已向这位母亲当面致歉

理想汽车:已向这位母亲当面致歉

南方都市报
2026-05-11 21:55:46
国乒女队夺冠57万,奖金分配:莎莎20万王曼昱14万蒯曼6万

国乒女队夺冠57万,奖金分配:莎莎20万王曼昱14万蒯曼6万

刘笤说体坛
2026-05-11 09:07:41
心理学上说:永远不要指出你身边人的任何问题,包括你的亲戚朋友。否则只会给你自己带来这两种伤害

心理学上说:永远不要指出你身边人的任何问题,包括你的亲戚朋友。否则只会给你自己带来这两种伤害

心理观察局
2026-05-10 08:08:12
龚正率上海市代表团在辽宁沈阳与许昆林王新伟会谈交流,共商沪辽交流合作大计

龚正率上海市代表团在辽宁沈阳与许昆林王新伟会谈交流,共商沪辽交流合作大计

澎湃新闻
2026-05-11 22:58:26
不遭罪逆转脂肪肝方法出炉:肝脏脂肪“掉”了30%,超八成的人都成功了

不遭罪逆转脂肪肝方法出炉:肝脏脂肪“掉”了30%,超八成的人都成功了

人民日报健康客户端
2026-05-08 20:49:13
结婚才2年,萧敬腾就尝到老妻少夫的残酷,其实舒淇早就把话说透

结婚才2年,萧敬腾就尝到老妻少夫的残酷,其实舒淇早就把话说透

枯蝶
2026-05-11 09:20:17
你还在学DeepSeek,70后大叔已经靠DeepSeek日进2000?

你还在学DeepSeek,70后大叔已经靠DeepSeek日进2000?

赵主任故事会
2025-02-09 21:00:39
新婚夜丈夫不愿同房,我熬到清晨决定去办离婚,可刚开口他慌了

新婚夜丈夫不愿同房,我熬到清晨决定去办离婚,可刚开口他慌了

墨染尘香
2026-05-11 22:45:04
妻子出轨,丈夫报复她一天要3-4次,在甘蔗地里也要强奸妻子

妻子出轨,丈夫报复她一天要3-4次,在甘蔗地里也要强奸妻子

胖胖侃咖
2025-12-05 08:00:12
感动!61岁名帅刚丧父仍率巴萨加冕 被众将抛起致敬 夺冠创6纪录

感动!61岁名帅刚丧父仍率巴萨加冕 被众将抛起致敬 夺冠创6纪录

我爱英超
2026-05-11 07:39:57
汉坦病毒来势汹汹,每家备好5样东西,守住全家健康防线

汉坦病毒来势汹汹,每家备好5样东西,守住全家健康防线

老特有话说
2026-05-11 15:29:11
遭“仅退款”后驱车1600公里讨公道的榴莲商家,已收到平台190.71元返款,平台称“仅退款”规则暂不调整,会改进流程

遭“仅退款”后驱车1600公里讨公道的榴莲商家,已收到平台190.71元返款,平台称“仅退款”规则暂不调整,会改进流程

大象新闻
2026-05-11 19:46:06
闫闯 被问买问界M6和Model Y哪个好? 被旁边大哥一句话干沉默了

闫闯 被问买问界M6和Model Y哪个好? 被旁边大哥一句话干沉默了

周哥一影视
2026-04-11 03:19:35
学医后才明白,预防骨质疏松最好的习惯,不是晒太阳,而是3件事

学医后才明白,预防骨质疏松最好的习惯,不是晒太阳,而是3件事

垚垚分享健康
2026-05-04 19:15:04
安徽一女子终身未婚,突然接到一个电话,说她在国外已是儿孙满堂

安徽一女子终身未婚,突然接到一个电话,说她在国外已是儿孙满堂

民间精选故事汇
2024-09-26 10:50:19
2026-05-12 04:28:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2370文章数 596关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

母女二人一年用水量高达400多吨 警方发现背后隐情

头条要闻

母女二人一年用水量高达400多吨 警方发现背后隐情

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

宗馥莉罢免销售负责人 部分业务将外包

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

教育
旅游
家居
艺术
军事航空

教育要闻

特朗普访华对美国留学市场是利好吗?中国留美学生规模如何变化?

旅游要闻

打卡同色系风景 带火城市微旅行

家居要闻

多元生活 此处无声

艺术要闻

震撼!Nicole Nodland镜头下的绝美时尚女神!

军事要闻

特朗普:伊朗的回应“完全不可接受”

无障碍浏览 进入关怀版