网易首页 > 网易号 > 正文 申请入驻

7B模型“情商”比肩GPT-4o,腾讯突破开放域RL难题,得分直翻5倍

0
分享至

腾讯混元AI数字人团队 投稿
量子位 | 公众号 QbitAI

在没有标准答案的开放式对话中,RL该怎么做?

多轮对话是大模型最典型的开放任务:高频、多轮、强情境依赖,且“好回复”因人而异。

然而,当用RL去优化大模型在真实交互中的“情商”时,RLVR一度陷入“三大困境”:

  • 环境困境
  • 真实对话是多轮、动态且高度个性化的。如何构建一个既真实、多样,又可供模型自由探索(rollout)的交互环境?
  • 奖励困境
  • “高情商”没有标准答案。如何将用户主观满意度转化为稳定、可优化的长期奖励?
  • 训练困境
  • 如何在LLM上实现稳定、高效的多轮在线RL训练?

腾讯混元数字人团队提出的RLVER(Reinforcement Learning with Verifiable Emotion Rewawards)框架指出了一个方向:

让一个稳定、高质量的用户模拟器,同时扮演“交互环境”和“奖励来源”的双重角色,成功将RLVR引入多轮对话,为大模型在开放域RL上训练提供了有效、可扩展的新解法

经过RLVER训练的Qwen2.5-7B模型,在情感对话基准Sentient-Benchmark上的得分从13.3跃升至79.2,表现与GPT-4o、Gemini 2.5 Pro等顶级商用模型相当。



模型现已开源,链接可见文末。

RLVER:为“情商”这一开放问题,构建有效的RL闭环

传统对话优化,要么依赖静态数据,要么依赖昂贵的人工标注。

而RLVER提出了一种新路径:以“环境+奖励”一体化的用户模拟器为核心,巧妙地解决了上述三大挑战。



模拟器即环境:创造一个“活”的对话世界

RLVER团队认识到,真正的“高情商”是千人千面的,因此,RLVER构建的用户模拟器不只是一个简单的对话机器人。

它拥有多样的用户画像和用户交互场景(不同的用户性格、对话背景、潜在需求),能模拟出海量真实、多变的用户。

每个用户独立、动态地和模型交互,根据模型的回复实时更新自身的情绪状态,并给出个性化的回复。

这为模型提供了一个可以无限探索、充满真实感和多样性的在线学习环境,同时避免reward hacking。

模拟器即奖励:一个可信的“用户感受评分系统”

“情商”的评价,本质是用户主观体验,但这种主观体验要如何变成稳定、可优化的奖励?

RLVER基于SAGE框架,通过显式、可复现的推理过程,模拟用户在每一轮对话后的情绪变化

对话结束后,累积的“心情总分”便成为奖励信号,直接驱动PPO/GRPO算法优化模型。

这一设计摆脱了“黑盒打分器”,将“用户满意度”显式建模成逻辑可控的奖励函数,使训练过程更加稳定、透明、可信。

全局奖励优化:从单轮反馈到“全局情绪轨迹”优化

不同于逐句反馈的方式,RLVER关注整个对话的情绪变化趋势,仅以最终“情绪总分”作为奖励,引导模型优化长周期策略。

只有真正理解用户意图、维持用户情绪长期走高,模型才能获得更高的总奖励。这鼓励模型跳出局部最优,学会更具延展性和策略性的社交对话行为。

核心成果:7B模型比肩“巨头旗舰”



经过RLVER训练的Qwen2.5-7B模型,在情感对话基准Sentient-Benchmark上的得分从13.3跃升至79.2,表现与GPT-4o、Gemini 2.5 Pro等顶级商用模型相当。

更重要的是,模型在数学、代码等通用能力上几乎没有衰退,成功避免了“灾难性遗忘”。



此外,RLVER对模型行为风格的影响也非常显著:模型从“解题型风格”迁移到“情绪型风格”,思路不再是“问题怎么解决”,而是“我能理解你的感受”。

深度洞察:从思考到行动

在RLVER的训练实践过程中,研究团队还得到了一些充满启发性的发现。

洞察一:“思考式”v.s.“反应式”模型——通往“共情”的两种路径



RLVER引入了显式的think-then-say提示模板,要求模型在每轮回复前先进行情绪分析、策略推理,再生成最终回应。通过对比带/不带“思考”的模型,研究团队观察到两条通向“共情”的截然不同路径:

“思考式模型”:走向“深度理解”

显式思考链促使模型在生成前进行推理,显著提升两项核心能力:

  • 问题洞察力:识别用户情绪背后的真实动因与潜在需求;
  • 共情表达与验证:精准捕捉并反馈深层情绪,让用户“感到被理解”。

这类模型更像是“灵魂知己”:擅长安静倾听、准确回应,用语言建立深层情感连接。

“反应式模型”:走向“快速行动”

相比之下,未引导思考的模型直接生成回应,尽管在洞察和共情维度上略逊一筹,却自发发展出“行动导向”的补偿策略:

  • 快速判断用户困境,提供具体、可执行的建议,或个性化行动邀请;
  • 以“实用性”弥补情感理解上的不足,形成“行动派伙伴”的角色定位。

这一对比揭示了在开放复杂任务下RL训练的有趣现象:模型在能力受限时,会自发寻找策略性的“补偿路径”,而RLVER提供的多样化、多策略兼容的训练环境,正是促成这种多样行为演化的关键土壤。

洞察二:PPO vs. GRPO——稳定增长还是能力突破?



在优化算法上,RLVER团队也得出了实用结论:

  • GRPO:倾向于带来更稳定、均衡的能力增长。
  • PPO:则更能将模型在特定维度(如共情深度、核心洞察)的能力推向更高上限。

这引出一个有趣的策略思考:对于“情商”这类多维度的复杂能力,当模型各方面都达到“合格线”后,是继续做“六边形战士”,还是集中打造一两个“杀手锏”维度的长板?

在文章的实验结果中,后者带来了更优的综合表现。

洞察三:环境和奖励的风格影响——严师未必出高徒

在RLVER框架中,用户模拟器同时扮演“训练环境”与“奖励模型”的双重角色。因此,它的风格——即“用户接受度”与反馈方式——对模型学习路径具有直接影响。

一个自然的追问是:要求更严格的用户,会训练出更强的模型吗?

实验给出的答案是:并非越难越好。

RLVER团队构建了两类用户模拟器:

  • Vanilla版:情绪外露、反馈积极,接受度较高;
  • Challenging版:情绪内敛、反馈克制,对回应质量要求极高。

在相同初始模型下分别进行训练与测试后,RLVER团队发现:



太难的环境,不利于模型早期成长

虽然Challenging模拟器在设计上更真实,但它反馈含蓄、容错率低,使得模型在训练早期难以试错探索多样策略,也难以获得正向激励。这会导致RL训练陷入“无反馈→无学习→崩溃”的恶性循环。

相反,Vanilla模拟器的反馈机制相对包容和积极,更利于模型在训练初期的策略探索与能力积累,形成稳定的共情表达习惯。

策略启示:在强化学习优化开放任务(如“情商”)时,训练环境不应一味“设难”,而应强调“成长曲线”设计。“严师出高徒”的前提,是学生已经能听懂教诲。

而在能力尚浅的早期,温和、可学的“陪练型用户”反而更能助力模型成长为真正的共情者



带思考的模型,更“抗打击”

一个附加的有趣发现是:在Challenging环境下,带有显式“思考结构”的模型显著更鲁棒:

  • 虽然整体分数有所下降,但仍保持在可用水平;
  • 而不带思考结构的模型则几乎完全崩溃,得分低至19.8。

这表明,显式推理能力能够缓冲稀疏奖励带来的训练不稳定性。即使缺乏清晰反馈,模型也可以借助“内在分析”挖掘用户需求信号,从而保持一定的适应性。

前期工作:AI也能当情感大师?腾讯发布最新AI社交智能榜单,最新版GPT-4o拿下第一
论文地址:https://arxiv.org/abs/2507.03112
项目代码:https://github.com/Tencent/digitalhuman/tree/main/RLVER
开源模型:https://huggingface.co/RLVER

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
它才是菜中人参,冬天包饺子好吃,鲜美多汁营养高,不懂吃真可惜

它才是菜中人参,冬天包饺子好吃,鲜美多汁营养高,不懂吃真可惜

阿龙美食记
2025-11-10 14:34:38
中国将向菲律宾人民提供紧急人道主义援助

中国将向菲律宾人民提供紧急人道主义援助

观察者网
2025-11-11 14:32:04
泰国男星嫁给50岁意大利富商,正式退出娱乐圈

泰国男星嫁给50岁意大利富商,正式退出娱乐圈

下水道男孩
2025-11-11 23:51:55
廊坊婚车被拦后续:索要50条香烟不实,6人被处理,官方通报来了

廊坊婚车被拦后续:索要50条香烟不实,6人被处理,官方通报来了

鋭娱之乐
2025-11-11 14:23:10
全运会3米板神仙打架!林珊斩获第3金,奥运冠军陈艺文仅获铜牌

全运会3米板神仙打架!林珊斩获第3金,奥运冠军陈艺文仅获铜牌

全景体育V
2025-11-11 17:27:25
刘强东新车,给雷军上了一课

刘强东新车,给雷军上了一课

科技头版Pro
2025-11-11 14:52:31
安与骑兵:从巅峰到落寞只用三年,成了夫妻丢了事业,玲花说对了

安与骑兵:从巅峰到落寞只用三年,成了夫妻丢了事业,玲花说对了

冷紫葉
2025-11-07 15:19:46
瑟尔斯基:俄罗斯占领红军城已无任何可能,局势已得到控制

瑟尔斯基:俄罗斯占领红军城已无任何可能,局势已得到控制

环球热点快评
2025-11-11 13:45:07
韩国男星误将“特殊服务”价目表传上网,恐将成为韩国演艺圈年末最大丑闻之一

韩国男星误将“特殊服务”价目表传上网,恐将成为韩国演艺圈年末最大丑闻之一

现代快报
2025-11-11 20:05:03
“我的妈呀”!13岁于子迪打破尘封13年亚洲纪录 称霸全运200米混

“我的妈呀”!13岁于子迪打破尘封13年亚洲纪录 称霸全运200米混

风过乡
2025-11-11 21:10:19
一克黄金要交150元税,金店价格已涨到1279元一克

一克黄金要交150元税,金店价格已涨到1279元一克

映射生活的身影
2025-11-11 11:07:05
你是哪边的?泰伦-卢在领先14分时主动叫停,随后被打出20-3高潮

你是哪边的?泰伦-卢在领先14分时主动叫停,随后被打出20-3高潮

懂球帝
2025-11-11 14:39:05
曾琦同学发声!眼科手艺“顶流”却被流言裹挟,家人态度成关键?

曾琦同学发声!眼科手艺“顶流”却被流言裹挟,家人态度成关键?

诗意世界
2025-11-11 23:38:01
日本知名童颜巨乳女星公开近照,网友热议

日本知名童颜巨乳女星公开近照,网友热议

随波荡漾的漂流瓶
2025-11-10 16:40:08
摊牌了!结婚13年,郭晶晶再次迎来喜讯,霍震霆的眼光果然毒辣

摊牌了!结婚13年,郭晶晶再次迎来喜讯,霍震霆的眼光果然毒辣

枫尘余往逝
2025-11-11 03:58:49
京东外卖配送单价降至1元引争议,目前已不再向骑手展示单价

京东外卖配送单价降至1元引争议,目前已不再向骑手展示单价

雷峰网
2025-11-11 17:42:08
日本最伟大的演员,今天去世了

日本最伟大的演员,今天去世了

虹膜
2025-11-11 12:33:51
沉默24小时后,中方宣布援菲,受灾人数超百万,马科斯被要求辞职

沉默24小时后,中方宣布援菲,受灾人数超百万,马科斯被要求辞职

吴欣纯Deborah
2025-11-11 18:34:07
古二曝秦雯多次炫耀袭警经历,其丈夫还骂警察,王家卫以此为灵感

古二曝秦雯多次炫耀袭警经历,其丈夫还骂警察,王家卫以此为灵感

萌神木木
2025-11-11 15:37:32
里子面子都没了!邹市明赔光两亿后,冉莹颖亲手撕碎他最后的体面

里子面子都没了!邹市明赔光两亿后,冉莹颖亲手撕碎他最后的体面

枫尘余往逝
2025-11-11 02:03:42
2025-11-12 06:31:00
量子位 incentive-icons
量子位
追踪人工智能动态
11657文章数 176329关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

携6.1万枚比特币出逃英国 富婆奢靡生活披露

头条要闻

携6.1万枚比特币出逃英国 富婆奢靡生活披露

体育要闻

一个14岁的小男孩,决定了谁能晋级世界杯

娱乐要闻

古二曝秦雯多次炫耀袭警经历

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

健康
教育
家居
数码
时尚

超声探头会加重受伤情况吗?

教育要闻

层次越低的家庭,内耗越严重!

家居要闻

国美学子 打造筑梦空间

数码要闻

索尼多款相机固件更新,修复充电低电量提示等问题

舒淇,东亚女孩的恨海情天

无障碍浏览 进入关怀版