网易首页 > 网易号 > 正文 申请入驻

类R1训练不再只看结果对错!港中文推出SophiaVL-R1模型

0
分享至

DeepSeek-R1 爆火后,类 R1 的结果奖励训练范式在各领域掀起了推理热潮。基于规则的结果奖励实现简单、判断严格。但是,这真的够了吗?

在推理任务中,如果我们只是用「结果对错」来奖励模型,那模型就很可能学会了「靠捷径答题」。

这种模式下,模型的「正确思考策略」没有完全建立起来,它甚至会因为一次「瞎蒙对」的奖励,而在之后反复强化错误策略,越走越偏。

为了解决这个问题,港中文联合上海人工智能实验室团队发布了多模态推理模型 SophiaVL-R1,它在类 R1 强化学习训练框架上做了一次关键进化:不再只奖励结果是否正确,而是将「思考过程」也纳入奖励体系。

  • 论文链接:https://arxiv.org/abs/2505.17018
  • 项目地址:https://github.com/kxfan2002/SophiaVL-R1

这一套设计不仅能让模型学会更通用、更靠谱的推理策略,还显著提升了泛化能力——在多个数学和通用多模态基准测试中,SophiaVL-R1-7B 甚至击败了参数量是其 10 倍的 LLaVA-OneVision-72B 模型。 目前,研究团队已将所有模型、数据和代码开源。

思考过程也要评分,才是好模型

SophiaVL-R1 的关键突破点,就在于它引入了「思考奖励」机制 —— 不再只看答案对不对,而是开始评估模型整个推理过程是否合理、连贯、靠谱。

研究团队精心制作了一个思考过程评分的数据集,包含多样化的思考模式和错误,并训练了一个「思考评分模型」,基于多个角度对思考过程输出一个整体的评分。

举个例子,比如一段推理过程,答案是对的,但中间逻辑跳跃明显、甚至完全胡扯,那这个过程可能只能得个 0.3 的思考分;而另一个推理过程最终也选了 B,但过程缜密、推导清晰,思考分可能达到 0.9。就像老师改卷,不只是看结果,还会给「过程分」。

这一招,不仅提升了模型推理质量,更重要的是 —— 它教会模型「怎么想」,而不是「怎么猜」。

SophiaVL-R1 的「奖励改革」

不过,把「过程」纳入奖励机制,并不意味着直接相加就能奏效。

由于模型生成的思考过程是自由文本,容易「伪装认真」——比如它可能写了一长段貌似合理的「逻辑」,但其实是在重复废话,甚至是掩盖思考漏洞。这种奖励欺骗(Reward Hacking)现象是强化学习中极常见的问题。

为了解决这个痛点,SophiaVL-R1 引入了一个名为 Trust-GRPO 的训练算法,它的核心理念是:基于 GRPO 组内信息判断思考奖励的可信程度。

该方法通过对同一问题中,正确与错误答案对应的思维奖励进行对比,如果发现错误答案获得的思维奖励异常高,就会自动降低该奖励的可信度评分,从而提升整体训练的稳定性与可信性。一个例子如下图所示。

实验结果

在多项常用的评测基准中(MMMU、MME、MathVista 等),SophiaVL-R1-7B 展现出极为强大的推理能力和泛化能力,跟 GRPO、SFT+GRPO 和基于 PRM 的方法相比都很能打,在多个多模态数学和通用测评数据集上表现直接对标甚至超越了体量是其 10 倍的 LLaVA-OneVision-72B 模型。

这说明了一个非常核心的点:推理能力,是靠正确的训练范式教出来的。SophiaVL-R1 的成功,正是对这一点的最好注解。

在消融实验中,也可以发现,SophiaVL-R1 的各个部分都是有效的。

同时,从训练曲线来看,SophiaVL-R1 不仅训练得更好,而且训练得更快,说明了思考奖励信号的有效性和 Trust-GRPO 算法的重要性。

一些 SophiaVL-R1 的推理例子如下所示,可以看到,模型能够输出高质量的推理过程。

更多细节请参考论文原文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
詹姆斯的下一站,不在球场上

詹姆斯的下一站,不在球场上

界面新闻
2026-07-02 17:22:50
为什么红军到了陕北,就安全了?原因很现实,6个原因

为什么红军到了陕北,就安全了?原因很现实,6个原因

老呶侃史
2026-06-11 21:36:40
创业板指跌逾6%,全市场超3300家个股下跌

创业板指跌逾6%,全市场超3300家个股下跌

界面新闻
2026-07-02 15:09:02
亨利:凯恩第二球太疯狂了,保持平衡再用脚内侧发力太难了

亨利:凯恩第二球太疯狂了,保持平衡再用脚内侧发力太难了

懂球帝
2026-07-02 08:57:27
快讯!乌克兰突然宣布了!

快讯!乌克兰突然宣布了!

故事终将光明磊落
2026-07-02 13:06:27
A股:股民系好安全带,大主力明牌了,明天将迎来更大级别变盘?

A股:股民系好安全带,大主力明牌了,明天将迎来更大级别变盘?

云鹏叙事
2026-07-02 00:00:05
360万法拉利被4名儿童划损,最新进展:已有3家上门道歉赔偿,仍有1名家长未出面,车主表示将起诉维权

360万法拉利被4名儿童划损,最新进展:已有3家上门道歉赔偿,仍有1名家长未出面,车主表示将起诉维权

蓬勃新闻
2026-07-02 15:20:06
悲情!塞内加尔全队痛哭:2-0被翻+吞点球绝杀 3个月前被剥夺冠军

悲情!塞内加尔全队痛哭:2-0被翻+吞点球绝杀 3个月前被剥夺冠军

风过乡
2026-07-02 07:13:03
A股:今天全天跳水大跌到4028,种种迹象表明,A股牛市已宣告结束?

A股:今天全天跳水大跌到4028,种种迹象表明,A股牛市已宣告结束?

趋势清风侠
2026-07-02 15:21:05
震惊!网传某新势力裁员考勤提醒,提前十几分钟吃午饭,也算违纪

震惊!网传某新势力裁员考勤提醒,提前十几分钟吃午饭,也算违纪

火山詩话
2026-07-02 06:36:55
神舟二十三号的香港女航天员:失重环境隐患重重,如何保障隐私?

神舟二十三号的香港女航天员:失重环境隐患重重,如何保障隐私?

轻拂两袖风尘终
2026-06-30 19:53:51
100%命中率难救中国男篮!狂输26分!

100%命中率难救中国男篮!狂输26分!

柚子说球
2026-07-01 23:41:46
给10位“毛主席扮演者”排座次:刘烨第8,唐国强第3

给10位“毛主席扮演者”排座次:刘烨第8,唐国强第3

电影聚焦
2026-06-28 10:32:34
贝尔萨:一群工资百万的职业球员,连10分钟以上的专注都没有

贝尔萨:一群工资百万的职业球员,连10分钟以上的专注都没有

懂球帝
2026-07-01 21:58:08
哈国联手美欧亮出稀土底牌,西方高兴坏了:中国这下没辙了!

哈国联手美欧亮出稀土底牌,西方高兴坏了:中国这下没辙了!

小兰聊历史
2026-07-02 04:02:31
WTT大满贯战报:再爆大冷国乒3单不敌日本5单,国乒男单5人出局了

WTT大满贯战报:再爆大冷国乒3单不敌日本5单,国乒男单5人出局了

求球不落谛
2026-07-02 10:33:07
7月2日,人社部财政部关于2026年调整基本养老金的通知有公布吗?

7月2日,人社部财政部关于2026年调整基本养老金的通知有公布吗?

小谈食刻美食
2026-07-02 07:58:18
詹姆斯对巴洛贡世界杯模仿自己标志性庆祝动作的反应

詹姆斯对巴洛贡世界杯模仿自己标志性庆祝动作的反应

本泽体育
2026-07-02 13:22:49
第一批把性爱交给AI的人,出现了

第一批把性爱交给AI的人,出现了

大佬灼见
2026-07-01 15:45:38
考上海交大奖200万,复旦奖100万!浙江一校高考奖励政策,引争议

考上海交大奖200万,复旦奖100万!浙江一校高考奖励政策,引争议

火山詩话
2026-07-02 15:09:45
2026-07-02 17:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13417文章数 142685关注度
往期回顾 全部

科技要闻

马斯克不承认,但SpaceX就该造AI手机

头条要闻

西安赛格某商户负责人坠亡 疑曾发文称被商场罚款千万

头条要闻

西安赛格某商户负责人坠亡 疑曾发文称被商场罚款千万

体育要闻

韩国人,为什么恨透了洪明甫?

娱乐要闻

众星祝福祖国,曾沛慈原形毕露?

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

小鹏MONA L03 智能化水平拉满 还有玩法多样的巧思大空间

态度原创

艺术
旅游
亲子
手机
军事航空

艺术要闻

光辉历程 时代丹青——庆祝中国共产党成立105周年美展 油画选

旅游要闻

安徽淮南:博物馆迎来暑期参观热潮

亲子要闻

分年龄段选购儿童被子指南:不同成长阶段核心需求与选型方向梳理

手机要闻

三星Galaxy Z Fold8宽折叠手机机模曝光

军事要闻

美军“航母杀手”首次公开 此前从未展示

无障碍浏览 进入关怀版