网易首页 > 网易号 > 正文 申请入驻

高考数学142分,多学科推理MMMU跑分76.0直逼人类专家,Skywork R1V 3.0用强化学习探索跨学科推理

0
分享至

作者 | 周一笑
邮箱 | zhouyixiao@pingwest.com

在电影《银翼杀手2049》中,虚拟伴侣Joi能通过全息投影与现实世界无缝互动。她能感知主角K的情绪为他挑选音乐,也能理解K的指令,将自己的形象投放到城市的广告牌上,与他同步体验雨中漫步。她不仅在看和听,更在理解K所处的复杂环境和他的潜在需求,并作出恰当且充满人情味的反应。

这种科幻场景要走入现实,AI需要跨越的,并非只是单纯的数据量或算力。有趣的是,现实中的突破路径和科幻设想有所不同,研究者们发现,真正的关键在于通过GRPO(Group Relative Policy Optimization)这样的强化学习算法,让AI像人类一样通过试错来学习,自己找到整合不同信息的最佳策略。

这种方法恰好针对了当前AI的一个要害,也就是如何让多模态能力从信息拼接升级为真正的融合理解。传统方法就像给AI一本厚厚的说明书,告诉它每种情况的标准答案。而强化学习则更像给了AI一个实验室,让它通过不断尝试来发现规律,当某个推理路径能更好地解决问题时,就给予高分奖励,从而强化这种思考方式。

昆仑万维最新开源的Skywork R1V 3.0,就是这一探索路径下的产物。它最核心的思路,就是借助强化学习,将在数学等领域学到的严谨推理能力,迁移并泛化到物理、化学、医学乃至更广泛的现实世界问题中,试图让AI离那个理想中的Joi更近一步。

目前,昆仑万维已全面开源 Skywork R1V 3.0 的所有资源,旨在推动多模态推理社区的进一步发展:

1. HuggingFace地址:

https://huggingface.co/Skywork/Skywork-R1V3-38B

2. GitHub地址:

https://github.com/SkyworkAI/Skywork-R1V

3. 技术报告:

https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V3.pdf

1

从“偏科生”到“六边形战士”,寻找能力的平衡点

如何评价一个AI模型的好坏?在今天,只看它在某个单项上跑分有多高,可能已经不够了。更重要的,是看它的能力曲线是否平滑,在面对五花八门的问题时,表现是否足够稳定。

在这方面,R1V 3.0交出了一份很有意思的答卷。它在一个名为MMMU的权威评测上,取得了76.0分的成绩 。这个分数距离人类初级专家的平均水平(76.2分)只有一步之遥 ,同时也超过了一些知名的闭源模型,比如Claude 3.7 Sonnet的75.0分和GPT-4.5的74.4分 。

MMMU之所以重要,是因为它不像传统的单科竞赛,更像一场包含理工、人文、医学、艺术等多个领域的“跨学科高考” 。能在这里拿到高分,背后透露出的信息是,这个模型的能力不偏科,知识结构相对均衡。这或许是让AI智能的“锯齿”变得更平滑、更可靠的一种体现。

当然,均衡不代表平庸。在物理、逻辑和数学等更考验硬核推理能力的评测中,它同样拿下了多个开源模型的最佳成绩 。

1

硬核理工科,是骡子是马拉出来遛遛

跑分终究是跑分。想知道一个模型是真学霸还是纸老虎,得拉出来实战遛遛。我们直接上题,看看它在不同场景下的真实表现。

在2025年高考数学新一卷的测试中,R1V-3-38B取得了142分的成绩 ,超越了DouBao-Seed-1.6-Thinking(141分) 、Gemini 2.5 Pro 0605(140分) 、OpenAI-03-high(136分) 和Claude-4-Sonnet-Thinking(128分) 等多款闭源模型:

具体的解题效率上,我们向模型展示了一道高考物理选择题,R1V 3.0不仅能给出正确答案,而且明显“想得更快、更明白”了。它的解题思维链比上一代大幅缩短,比如从4千降至7百tokens,推理速度提升了约6倍。

如果说高中题只是开胃菜,那大学的电路分析题就是正餐了。我们给它一道有一定分析深度的英文大学电路理论分析题 ,它能准确识别题目中“unit ramp”(单位斜坡电压)的含义,严格依据基尔霍夫电压定律列出微分方程,并用积分因子法系统地求解,推导逻辑自洽、过程条理清晰 。这证明了它的推理能力确实有深度。

接下来,我们来看一道具有一定分析深度的英语版的大学电路理论分析题。从中可以看出,即便是这样具有挑战性的大学层次题目,R1V 3.0依然能够准确给出解答。

Consider applying a unit ramp voltage source to a series RL circuit as shown in . Compute the voltages $$v_R (t$$ with zero initial condition for L = 0.1H;

1

文史医,AI的“知识盲区”还是“舒适区”?

跳出数理化,在更广阔的知识领域里又如何?我们向模型提问:“在下图中,P波代表___________,QRS段表示___________,T波代表_____________。”

面对心电图,它能头头是道地讲出P波、QRS段和T波各自的生理意义,就像个医学院的学生在做课堂报告 。

而面对一位有20年肝硬化病史的患者的CT影像,它也能结合病史和影像学特点,推理出“肝细胞癌”的最可能诊断,并列出其他可能性以供鉴别 。

1

生活大冒险,如何应对“非标”难题

最后来看一些更开放、更接近生活的“非标”问题。比如这个高难度的“看图猜地方”游戏:我们要求模型根据一张图片里的建筑、植被、标识牌等线索,推断出其所在的大洲、国家、城市乃至经纬度 。R1V 3.0展现出了极强的综合认知能力,通过层层推理,最终成功锁定了地点 。

还有一个更生活化的问题:“我买一千瓶这个饮料,中奖的钱的期望是多少?” 。模型需要先通过视觉看懂瓶盖上的中奖规则,再运用数学能力进行概率计算 。

而最考验“网感”的梗图理解,它也没掉链子。面对一张涉及人物表情和双关语的梗图(Meme)图片,它能准确识别出其中的幽默感,并解释这种幽默来源于对“models”一词在技术和日常语境中不同含义的误解 。

1

通往稳健推理的后训练路径

模型表现这么好,背后用了什么巧妙的技术?Skywork R1V 3.0的技术路径很有意思,它没有依赖海量数据和算力硬堆,而是把重点放在了模型的后训练阶段,更像一场精细的调优 。

这条路径始于能力的嫁接与强化。团队基于R1V 2.0做冷启动,让模型一出生就具备不错的多模态推理基础 。随后引入GRPO强化学习算法,对模型进行深度激发,让强大的文本推理能力成功嫁接到多模态任务上 。值得一提的是,这个过程借助GRPO强化学习算法,实现高效泛化,仅用了约1.2万条高质量监督微调样本和1.3万条强化学习样本,就实现了多学科推理能力的显著提升 。

有了初步的能力,如何确保它不是在机械地模仿?为了解决这个问题,团队引入了一套独特的关键熵驱动验证机制。他们发现,真正会推理的模型,在思考的关键节点会表现出较高的不确定性,代表着思维在发散;而只会模仿的模型则非常确定 。这个机制就像一个思考质检员,能高效地识别出哪些模型版本是真正学会了推理,而不是在机械地模仿风格 。

解决了推理的真伪问题,还有一个挑战是知识的均衡。由于强化学习阶段的训练数据以数学问题为主,模型的能力会有些偏科 。为此,团队在强化学习之后,专门引入了一个针对连接器,也就是连接视觉和语言的桥梁,的微调步骤 。这一步有效地平衡了模型的知识结构,让它在保持理科优势的同时,也补上了文史、艺术等领域的短板,成了一个更全面的通才 。

1

结语

从最开始那个可能看不懂Meme的AI,到最后这个更均衡、更稳健的模型版本,Skywork R1V 3.0的迭代过程,本身就在试图解决当前AI最棘手的几个问题。它证明了,在行业普遍追求更高、更快、更强的同时,通过精细的后训练调优,让AI想得更稳、更可靠,是一条同样重要且可行的路。

这背后是对“可靠性”的追求。尤其在2025年,当AI开始被更严肃地探讨用于医疗诊断、金融合规等高风险领域时,可靠性已经从一个加分项变成了必选项。未来的AI竞争,可能不再只是参数和分数的比拼,更是看谁的系统在关键时刻更值得信赖。一个真正可用的AI,需要具备某种程度的“认知谦逊”:知道自己的能力边界,并在不确定时,懂得把决策交还给人类。

而昆仑万维选择将Skywork R1V 3.0完全开放的做法,本身就体现了这种对可靠性和透明性的追求。实际上,这也不是一次孤立的行动,而是其构建以推理能力为主线的技术体系的一部分,此前他们已陆续开源了Skywork-OR1文本推理模型和SkyReels-V1视频生成模型等多个项目。这种系统性的开源,以及将技术细节、探索发现都展示给社区的做法,让人们能够更好地检验和理解模型,这恰恰是通往信任的关键一步。

归根结底,技术的发展终究要回归到具体的人和具体的问题上,这可能比宏大的叙事要走得更远。

点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪的烟瘾被吐槽!粉丝直言他总离不开香烟,网友:人无完人啊…

张雪的烟瘾被吐槽!粉丝直言他总离不开香烟,网友:人无完人啊…

火山詩话
2026-04-19 15:31:10
李想把“理想平替”喂成了狼

李想把“理想平替”喂成了狼

市象
2026-04-17 16:42:52
季后赛父子同台!ESPN赞国王与继承人 布朗尼季后赛3场0+0+0+0+0

季后赛父子同台!ESPN赞国王与继承人 布朗尼季后赛3场0+0+0+0+0

醉卧浮生
2026-04-19 11:40:37
被豆包害惨了的大学生们!网友:豆包就是愚蠢且勤劳的老实人

被豆包害惨了的大学生们!网友:豆包就是愚蠢且勤劳的老实人

夜深爱杂谈
2025-12-02 20:51:10
成都“邓老板”的宾利,花了400多万,送去修车时,竟被维修工气笑了

成都“邓老板”的宾利,花了400多万,送去修车时,竟被维修工气笑了

刘哥谈体育
2026-04-19 14:58:27
何润东:我已经51岁了,摔下来的话,会破坏大家对项羽的感受

何润东:我已经51岁了,摔下来的话,会破坏大家对项羽的感受

懂球帝
2026-04-19 12:31:08
震惊!儿媳失业近一年,每天只买菜做饭,河南婆婆吐槽劝儿子离婚

震惊!儿媳失业近一年,每天只买菜做饭,河南婆婆吐槽劝儿子离婚

火山詩话
2026-04-19 09:20:26
普京访华行程敲定,特朗普已下命令,中国向全球通告,无惧美国

普京访华行程敲定,特朗普已下命令,中国向全球通告,无惧美国

凉羽亭
2026-04-19 18:31:03
伊朗称其补充武器能力在停火期间超过战前水平

伊朗称其补充武器能力在停火期间超过战前水平

新华社
2026-04-19 18:49:07
雨雨雨!明天下午拉开“降雨序幕”,这日雨水最明显→

雨雨雨!明天下午拉开“降雨序幕”,这日雨水最明显→

上观新闻
2026-04-19 19:38:04
沈梦辰自曝“连续4年做热玛吉,脸越打越薄”

沈梦辰自曝“连续4年做热玛吉,脸越打越薄”

天马幸福的人生
2026-04-19 18:18:18
炸锅!人民币历史性逆袭!原油结算占 41%,超越欧元打破美元霸权

炸锅!人民币历史性逆袭!原油结算占 41%,超越欧元打破美元霸权

混沌录
2026-04-17 13:22:05
湖人VS火箭G2,比赛时间确定,名记曝KD东契奇复出,乌杜卡遇危机

湖人VS火箭G2,比赛时间确定,名记曝KD东契奇复出,乌杜卡遇危机

体育大学僧
2026-04-19 19:23:57
31岁女子找不到工作,每天假装上班:其实她是躲到山上发呆

31岁女子找不到工作,每天假装上班:其实她是躲到山上发呆

阅微札记
2026-04-19 11:30:46
中央气象台五警齐发,暴雨+大雾+强对流天气+沙尘暴+大风

中央气象台五警齐发,暴雨+大雾+强对流天气+沙尘暴+大风

澎湃新闻
2026-04-19 20:27:19
国际油价爆了

国际油价爆了

最江阴
2026-04-19 09:01:06
匈牙利巨变:记者继续当喉舌是羞耻的

匈牙利巨变:记者继续当喉舌是羞耻的

黔有虎
2026-04-18 20:58:58
随着山东终结深圳15连胜 广厦翻盘北控 北京逆转青岛 CBA排名大变

随着山东终结深圳15连胜 广厦翻盘北控 北京逆转青岛 CBA排名大变

侃球熊弟
2026-04-19 21:56:16
日本人破防了:DNA检测日本祖先被证实,日本人不是徐福后代

日本人破防了:DNA检测日本祖先被证实,日本人不是徐福后代

掠影后有感
2026-04-19 10:16:27
开拓者VS马刺伤情报告出炉,文班亚马季后赛首秀,杨瀚森有望登场

开拓者VS马刺伤情报告出炉,文班亚马季后赛首秀,杨瀚森有望登场

世界体育圈
2026-04-19 20:16:28
2026-04-19 22:28:49
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
3018文章数 10489关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

印度当晚召见伊朗大使抗议两船只遭开火袭击 伊朗回应

头条要闻

印度当晚召见伊朗大使抗议两船只遭开火袭击 伊朗回应

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

张天爱评论区沦陷!被曝卷入小三风波

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

游戏
手机
数码
本地
公开课

《英雄联盟》重大更新:终于支持手柄了!

手机要闻

华为Pura 90系列再次被确认:尺寸、续航全曝光,大家会选谁?

数码要闻

何刚晒华为WATCH FIT 5 Pro手表真机,明日亮相

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版