在 RLHF 场景中,奖励模型(Reward Model, RM)已经成为一种主流自动化评估工具的重要构成,并且出现了专门评估奖励模型的基准,如海外的 RewardBench[1]和国内高校联合发布的 RM Bench[2],用来测不同 RM 的效果、比较谁能更好地预测人类偏好。下方将介绍 ModelScope 近期开源的奖励模型 ------RM-Gallery,项目地址:
RM-Gallery 是一个集奖励模型训练、构建与应用于一体的一站式平台,支持任务级与原子级奖励模型的高吞吐、容错实现,助力奖励模型全流程落地。
![]()
RM-Gallery 提供基于 RL 的推理奖励模型训练框架,兼容主流框架(如 Verl),并提供集成 RM-Gallery 的示例。在 RM Bench 上,经过 80 步训练,准确率由基线模型(Qwen2.5-14B)的约 55.8% 提升至约 62.5%。
![]()
RM-Gallery 的几个关键特性包括:
支持任务级别和更细粒度的原子级奖励模型。
提供标准化接口、丰富内置模型库(例如数学正确性、代码质量、对齐、安全等)供直接使用或者定制。
支持训练流程(使用偏好数据、对比损失、RL 机制等)来提升奖励模型性能。
支持将这些奖励模型用于多个应用场景:比如 "Best-of-N 选择"" 数据修正 ""后训练 / RLHF" 场景。
所以,从功能来看,它是基于奖励模型,即用于衡量大模型输出好坏、优先级、偏好一致性等,打造成一个可训练、可复用、可部署的用于评估工程的基础设施平台。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.