网易首页 > 网易号 > 正文 申请入驻

7B模型“情商”比肩GPT-4o,腾讯突破开放域RL难题,得分直翻5倍

0
分享至

腾讯混元AI数字人团队 投稿
量子位 | 公众号 QbitAI

在没有标准答案的开放式对话中,RL该怎么做?

多轮对话是大模型最典型的开放任务:高频、多轮、强情境依赖,且“好回复”因人而异。

然而,当用RL去优化大模型在真实交互中的“情商”时,RLVR一度陷入“三大困境”:

  • 环境困境
  • 真实对话是多轮、动态且高度个性化的。如何构建一个既真实、多样,又可供模型自由探索(rollout)的交互环境?
  • 奖励困境
  • “高情商”没有标准答案。如何将用户主观满意度转化为稳定、可优化的长期奖励?
  • 训练困境
  • 如何在LLM上实现稳定、高效的多轮在线RL训练?

腾讯混元数字人团队提出的RLVER(Reinforcement Learning with Verifiable Emotion Rewawards)框架指出了一个方向:

让一个稳定、高质量的用户模拟器,同时扮演“交互环境”和“奖励来源”的双重角色,成功将RLVR引入多轮对话,为大模型在开放域RL上训练提供了有效、可扩展的新解法

经过RLVER训练的Qwen2.5-7B模型,在情感对话基准Sentient-Benchmark上的得分从13.3跃升至79.2,表现与GPT-4o、Gemini 2.5 Pro等顶级商用模型相当。

模型现已开源,链接可见文末。

RLVER:为“情商”这一开放问题,构建有效的RL闭环

传统对话优化,要么依赖静态数据,要么依赖昂贵的人工标注。

而RLVER提出了一种新路径:以“环境+奖励”一体化的用户模拟器为核心,巧妙地解决了上述三大挑战。

模拟器即环境:创造一个“活”的对话世界

RLVER团队认识到,真正的“高情商”是千人千面的,因此,RLVER构建的用户模拟器不只是一个简单的对话机器人。

它拥有多样的用户画像和用户交互场景(不同的用户性格、对话背景、潜在需求),能模拟出海量真实、多变的用户。

每个用户独立、动态地和模型交互,根据模型的回复实时更新自身的情绪状态,并给出个性化的回复。

这为模型提供了一个可以无限探索、充满真实感和多样性的在线学习环境,同时避免reward hacking。

模拟器即奖励:一个可信的“用户感受评分系统”

“情商”的评价,本质是用户主观体验,但这种主观体验要如何变成稳定、可优化的奖励?

RLVER基于SAGE框架,通过显式、可复现的推理过程,模拟用户在每一轮对话后的情绪变化

对话结束后,累积的“心情总分”便成为奖励信号,直接驱动PPO/GRPO算法优化模型。

这一设计摆脱了“黑盒打分器”,将“用户满意度”显式建模成逻辑可控的奖励函数,使训练过程更加稳定、透明、可信。

全局奖励优化:从单轮反馈到“全局情绪轨迹”优化

不同于逐句反馈的方式,RLVER关注整个对话的情绪变化趋势,仅以最终“情绪总分”作为奖励,引导模型优化长周期策略。

只有真正理解用户意图、维持用户情绪长期走高,模型才能获得更高的总奖励。这鼓励模型跳出局部最优,学会更具延展性和策略性的社交对话行为。

核心成果:7B模型比肩“巨头旗舰”

经过RLVER训练的Qwen2.5-7B模型,在情感对话基准Sentient-Benchmark上的得分从13.3跃升至79.2,表现与GPT-4o、Gemini 2.5 Pro等顶级商用模型相当。

更重要的是,模型在数学、代码等通用能力上几乎没有衰退,成功避免了“灾难性遗忘”。

此外,RLVER对模型行为风格的影响也非常显著:模型从“解题型风格”迁移到“情绪型风格”,思路不再是“问题怎么解决”,而是“我能理解你的感受”。

深度洞察:从思考到行动

在RLVER的训练实践过程中,研究团队还得到了一些充满启发性的发现。

洞察一:“思考式”v.s.“反应式”模型——通往“共情”的两种路径

RLVER引入了显式的think-then-say提示模板,要求模型在每轮回复前先进行情绪分析、策略推理,再生成最终回应。通过对比带/不带“思考”的模型,研究团队观察到两条通向“共情”的截然不同路径:

“思考式模型”:走向“深度理解”

显式思考链促使模型在生成前进行推理,显著提升两项核心能力:

  • 问题洞察力:识别用户情绪背后的真实动因与潜在需求;
  • 共情表达与验证:精准捕捉并反馈深层情绪,让用户“感到被理解”。

这类模型更像是“灵魂知己”:擅长安静倾听、准确回应,用语言建立深层情感连接。

“反应式模型”:走向“快速行动”

相比之下,未引导思考的模型直接生成回应,尽管在洞察和共情维度上略逊一筹,却自发发展出“行动导向”的补偿策略:

  • 快速判断用户困境,提供具体、可执行的建议,或个性化行动邀请;
  • 以“实用性”弥补情感理解上的不足,形成“行动派伙伴”的角色定位。

这一对比揭示了在开放复杂任务下RL训练的有趣现象:模型在能力受限时,会自发寻找策略性的“补偿路径”,而RLVER提供的多样化、多策略兼容的训练环境,正是促成这种多样行为演化的关键土壤。

洞察二:PPO vs. GRPO——稳定增长还是能力突破?

在优化算法上,RLVER团队也得出了实用结论:

  • GRPO:倾向于带来更稳定、均衡的能力增长。
  • PPO:则更能将模型在特定维度(如共情深度、核心洞察)的能力推向更高上限。

这引出一个有趣的策略思考:对于“情商”这类多维度的复杂能力,当模型各方面都达到“合格线”后,是继续做“六边形战士”,还是集中打造一两个“杀手锏”维度的长板?

在文章的实验结果中,后者带来了更优的综合表现。

洞察三:环境和奖励的风格影响——严师未必出高徒

在RLVER框架中,用户模拟器同时扮演“训练环境”与“奖励模型”的双重角色。因此,它的风格——即“用户接受度”与反馈方式——对模型学习路径具有直接影响。

一个自然的追问是:要求更严格的用户,会训练出更强的模型吗?

实验给出的答案是:并非越难越好。

RLVER团队构建了两类用户模拟器:

  • Vanilla版:情绪外露、反馈积极,接受度较高;
  • Challenging版:情绪内敛、反馈克制,对回应质量要求极高。

在相同初始模型下分别进行训练与测试后,RLVER团队发现:

太难的环境,不利于模型早期成长

虽然Challenging模拟器在设计上更真实,但它反馈含蓄、容错率低,使得模型在训练早期难以试错探索多样策略,也难以获得正向激励。这会导致RL训练陷入“无反馈→无学习→崩溃”的恶性循环。

相反,Vanilla模拟器的反馈机制相对包容和积极,更利于模型在训练初期的策略探索与能力积累,形成稳定的共情表达习惯。

策略启示:在强化学习优化开放任务(如“情商”)时,训练环境不应一味“设难”,而应强调“成长曲线”设计。“严师出高徒”的前提,是学生已经能听懂教诲。

而在能力尚浅的早期,温和、可学的“陪练型用户”反而更能助力模型成长为真正的共情者

带思考的模型,更“抗打击”

一个附加的有趣发现是:在Challenging环境下,带有显式“思考结构”的模型显著更鲁棒:

  • 虽然整体分数有所下降,但仍保持在可用水平;
  • 而不带思考结构的模型则几乎完全崩溃,得分低至19.8。

这表明,显式推理能力能够缓冲稀疏奖励带来的训练不稳定性。即使缺乏清晰反馈,模型也可以借助“内在分析”挖掘用户需求信号,从而保持一定的适应性。

前期工作:AI也能当情感大师?腾讯发布最新AI社交智能榜单,最新版GPT-4o拿下第一
论文地址:https://arxiv.org/abs/2507.03112
项目代码:https://github.com/Tencent/digitalhuman/tree/main/RLVER
开源模型:https://huggingface.co/RLVER

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中铁的项目副经理遇难!

中铁的项目副经理遇难!

巢客HOME
2026-03-20 19:25:03
哈萨克斯坦给伊朗打了一个样

哈萨克斯坦给伊朗打了一个样

寰宇大观察
2026-03-21 15:48:13
“梅姨”落网!系张维平等人拐卖儿童案关键人物,被拐儿童家长:我一直坚信她真实存在

“梅姨”落网!系张维平等人拐卖儿童案关键人物,被拐儿童家长:我一直坚信她真实存在

潇湘晨报
2026-03-21 12:29:14
雷克萨斯全新一代ES300h正式开启预售,30.88万元起

雷克萨斯全新一代ES300h正式开启预售,30.88万元起

凡兮说
2026-03-20 15:53:49
真想不到!32万中国人缺席,赴日游客反而多了,还创出历史新高

真想不到!32万中国人缺席,赴日游客反而多了,还创出历史新高

壹只灰鸽子
2026-03-19 15:40:46
女足亚洲杯日本1-0澳大利亚夺冠,浜野舞香世界波制胜

女足亚洲杯日本1-0澳大利亚夺冠,浜野舞香世界波制胜

懂球帝
2026-03-21 18:57:16
海南陵水发生交通事故致2死5伤,警方通报

海南陵水发生交通事故致2死5伤,警方通报

界面新闻
2026-03-21 17:40:15
蹭饭260次后续:庞先生已后悔,发视频道歉,4S店态度坚决不和解

蹭饭260次后续:庞先生已后悔,发视频道歉,4S店态度坚决不和解

奇思妙想草叶君
2026-03-21 19:57:27
离谱!魔兽最新剧情“致敬”还珠格格,容嬷嬷扎紫薇名场面再现

离谱!魔兽最新剧情“致敬”还珠格格,容嬷嬷扎紫薇名场面再现

17173游戏网
2026-03-21 00:35:08
两年巨亏超2.5亿,95后女董事长因涉嫌信息披露违法违规被立案

两年巨亏超2.5亿,95后女董事长因涉嫌信息披露违法违规被立案

三湘都市报
2026-03-21 09:30:32
打破对外维持“导弹射程不超2000公里”姿态,伊朗攻击美军全球最稳固战略“安全屋”

打破对外维持“导弹射程不超2000公里”姿态,伊朗攻击美军全球最稳固战略“安全屋”

红星新闻
2026-03-21 15:41:19
突发!美国宣布批准临时交付和销售滞留海上的伊朗石油,预计将新增1.4亿桶

突发!美国宣布批准临时交付和销售滞留海上的伊朗石油,预计将新增1.4亿桶

每日经济新闻
2026-03-21 08:11:08
A股失守4000点,都怨保险?首席观点打架!知名私募:最多跌到月底

A股失守4000点,都怨保险?首席观点打架!知名私募:最多跌到月底

金石随笔
2026-03-21 00:12:50
再爆大冷4-6!世界第1无缘决赛,火箭争冠对手有变,吴宜泽获盛赞

再爆大冷4-6!世界第1无缘决赛,火箭争冠对手有变,吴宜泽获盛赞

小火箭爱体育
2026-03-21 23:33:31
重庆一高校实验室发生爆炸 警方:已出警处置

重庆一高校实验室发生爆炸 警方:已出警处置

封面新闻
2026-03-21 20:28:06
铜梁龙3-3成都,迪马塔双响,韦世豪传射,席尔瓦、肯帕努世界波

铜梁龙3-3成都,迪马塔双响,韦世豪传射,席尔瓦、肯帕努世界波

懂球帝
2026-03-21 21:57:44
让课后时光更有科技含量 京东科学体验教室在北京亦庄实验小学挂牌

让课后时光更有科技含量 京东科学体验教室在北京亦庄实验小学挂牌

极果酷玩
2026-03-10 17:24:15
他是著名演员,从发病到去世仅20分钟,主持人儿子比他更有名

他是著名演员,从发病到去世仅20分钟,主持人儿子比他更有名

削桐作琴
2026-03-21 15:03:45
岛国作业数量最多的10位女老师,榜首竟超 3000 部!

岛国作业数量最多的10位女老师,榜首竟超 3000 部!

碧波万览
2026-03-21 18:01:06
10 位翻车的科技人员!涉核工业、导弹、歼击机等领域,能力不再是护身符

10 位翻车的科技人员!涉核工业、导弹、歼击机等领域,能力不再是护身符

风向观察
2026-03-21 14:12:53
2026-03-22 02:19:00
量子位 incentive-icons
量子位
追踪人工智能动态
12320文章数 176418关注度
往期回顾 全部

科技要闻

宇树招股书拆解,人形机器人出货量第一!

头条要闻

伊朗发射3800公里射程的导弹 最令美军战栗的细节披露

头条要闻

伊朗发射3800公里射程的导弹 最令美军战栗的细节披露

体育要闻

谁在决定字母哥未来?

娱乐要闻

田栩宁终于凉了?出轨风波影响恶劣

财经要闻

通胀警报拉响,加息潮要来了?

汽车要闻

小鹏汽车2025年Q4盈利净赚3.8亿 全年营收767亿

态度原创

健康
旅游
时尚
数码
军事航空

转头就晕的耳石症,能开车上班吗?

旅游要闻

【花Young贵阳】春日限定!十里河滩海棠花盛开引客来

这个趋势好适合亚洲人!不用花大钱也能跟

数码要闻

炸锅!国产存储芯片再突破!手机固态价格大跳水,内存自由要来了

军事要闻

特朗普:正考虑逐步降级对伊朗的军事行动

无障碍浏览 进入关怀版