网易首页 > 网易号 > 正文 申请入驻

全球首个工业界多模态推理模型开源!38B硬刚DeepSeek-R1

0
分享至

新智元报道

编辑:编辑部 HYZ

【新智元导读】全球首个开源多模态推理大模型来了!38B参数模型性能直逼DeepSeek-R1,同尺寸上横扫多项SOTA。而这家中国公司之所以选择无偿将技术思路开源,正是希望同DeepSeek一样,打造开源界的技术影响力。

刚刚,昆仑万维正式开源了全球首个工业界多模态推理模型Skywork R1V(以下简称「R1V」)!

R1V高效地将DeepSeek-R1这种强大的文本推理能力无缝scaling到了视觉模态,实现了多模态领域的领先表现,并以开源方式推动了技术进步。

由此,多模态推理的新时代即将开启。

R1V的实力,究竟有多强?

在视觉问答任务中,R1V直接对标Claude 3.5 Sonnet、GPT-4o等闭源模型,同时还保留了顶级文本推理能力。

在MMMU基准测试中,R1V以69分创下同等规模新高,在MathVista上拿下67.5分,达到领先的开源模型水平。

无论是复杂的数学推理,还是图像中的逻辑分析等,R1V都能轻松驾驭,堪称多模态领域的「全能战士」。

总结来说,R1V有以下三大亮点。

1. 全球第一个工业界开源多模态+推理模型
2. 性能接近甚至超越了规模大两倍的开源模型
3. 通过开源让技术可以惠及到更多人

这背后的缔造者,就是中国的AI科技公司——昆仑万维。

R1V的问世,更以开放的姿态为全球AI开源社区注入了全新活力。

即日起,模型权重、推理代码、技术报告全盘开源。

GitHub:https://github.com/SkyworkAI/Skywork-R1V

Hugging Face:https://huggingface.co/Skywork/Skywork-R1V-38B

技术报告:https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V.pdf

这标志着,昆仑万维成为全球首家开源多模态思考模型的公司,朝着AGI落地迈出重要的一步。

而选择开源R1V视觉思考模型,也正是昆仑万维为了更坚定地贯彻AGI的梦想,推动开源社区的技术进步。

R1V:全球首款开源多模态推理模型

此前,OpenAI o1和DeepSeek-R1在全球带来了长思考模型的热潮,让大模型领域进入了全新的技术范式。

而不同于长思考模型专注于多步推理的特点,视觉思考模型则专注于从图像或视频中提取信息、进行逻辑推理。

如果要给它下个定义的话,什么是视觉思考模型?

简单来说,视觉思考模型是一种,能在文本、视觉复杂任务中,展现惊人推理能力的AI。

它不仅能「读懂」文字,还能「看懂」图像,并基于此进行深度分析和逻辑推理。

首先来一道数学题:「用圆心角为120°,半径为6cm的扇形纸片卷成一个圆锥形无底纸帽,则这个纸帽的高是?」

R1V经过短暂纠错后,给出了清晰完整的解题过程,并得出正确答案,表现出了较强的逻辑推理能力。

接下来再来一道更难一些的:「函数f(x)=∣2x−3∣+1在x=2和x=5处的导数关系是?」

可以看到,R1V先找到了绝对值部分∣2x−3∣的零点:令2x-3=0得x=1.5。

然后得出,当x≥1.5时,f(x)=2x-3+1=2x-2,导数f '(x)=2;当x<1.5时,f(x)=-(2x-3)+1=-2x+4,导数f '(x)=-2。

由于题目中的x=2和x=5均大于1.5,所以都属于f(x)=2x-2部分。因此,f '(2)=2,f '(5)=2,即两点处的导数相等。

最后,R1V给出了答案:(B)等于。

以上案例中不难看出,R1V在视觉+推理上表现惊艳,所以,它是如何逆袭成功的?

炼丹之道,细节全公开

最新公开的技术报告中,揭秘了三大杀招。

昆仑万维的研究者,首次发现了跨模态的迁移学习。

R1V首次实现了将大模型的文本推理能力高效迁移至视觉模态,通过Skywork-VL视觉投影器的有效训练,显著保留了原有的推理能力。

整个过程无需从头重新训练基座语言模型和视觉编码器,且有效保留了原有的文本推理能力。

具体来说,研究者提出了一种高效的多模态迁移方法,通过MLP结构,有效地将具有推理能力的语言模型与视觉骨干对齐。

这样,就大幅减少了对大量多模态推理数据的需求。

这种方法背后的关键洞察,就在于将视觉-语言表示的对齐与推理能力的保留解耦。

直接将具有推理能力的语言模型(fl)连接到视觉骨干(fv),会需要大量的 R1风格格式的多模态推理数据,以同时实现这两个目标。

然而这种做法成本太高,不切实际。因此,研究者采用了一种相反的分阶段策略。

首先,他们训练一个MLP适配器,将fv与具有相同架构但无推理能力的替代语言模型( )对齐; 随后,他们利用 和fl之间的潜在相似性,将预训练的MLP转移,以使fv与原始的推理能力模型fl对齐。

这样,所需数据量就大幅减少。

所导致的结果就是,正如前文提到的,R1V在权威的数学推理基准测试AIME和MATH500中,分别取得72.0和94.0的高分,展现了强大的推理竞争力。

在同等规模大小模型中的推理能力遥遥领先,并且与闭源模型以及大尺寸模型相比,仍有很强的竞争力。

这样的优异的文本推理能力,直接「搬家」视觉领域,效率直接拉满。

R1V还采用了迭代监督微调(Iterative SFT)和 GRPO强化学习相结合的混合训练方法,能够动态调整思维链长度。

这个过程,一共分为三个阶段。

阶段1:使用完整数据集,进行初始训练;

阶段2:使用定制数据,进行迭代训练;

阶段3:强化学习。

混合式训练策略

具体而言,在SFT阶段,研究人员迭代训练一系列模型M₀, ..., Mₜ,其中每个后续模型Mₜ₊₁,都在奖励模型选择的高质量数据和前一迭代中处理不正确的样本上进行训练。

在RL阶段,遵循了DeepSeek R1提出的方法,利用基于规则的奖励系统GRPO,进一步提升模型的泛化能力。

强化学习训练完成后,研究人员选择一个在性能和推理合理性之间达到最佳平衡的模型作为最终模型。

经此训练后的模型,不仅提升了推理效率,还在开源模型中,率先实现SOTA。

经过强化学习训练,R1V在MMMU基准上达到69分的高分,同时在MathVista上取得67.5分,接近更大规模闭源模型的表现。

此外,研究团队还提出了一个自适应长度的思维链蒸馏(AL-CoTD)框架。

像o1这样的推理模型之所以表现出色,很大程度上归功于,它们在推理时能模拟人类长时间的思考过程。

然而,一个关键问题来了——推理模型有时会「过度思考」。

或许你也感同身受:输入一个问题后,AI有时会反复思考很多遍。

最近,来自UC伯克利CMU、UMass Amherst、上交大等国内外机构也通过研究实证,推理模型「过度思考」会导致计算资源浪费,甚至损害模型本身的性能。

某些情况下, AI生成的序列可能长达数万个token,收益却微乎其微。

昆仑万维提出的AL-CoTD框架,可根据需求动态调整思维链长度,有效缓解推理模型「过度思考」的问题,并显著提升了推理效率。

它一共包含三大核心组件:质量与难度评估模块(QDAM)、视觉-文本集成分析器(VTIA)、动态推理长度控制器(DRLC)。

自适应长度思维链蒸馏

· QDAM

质量与难度评估模块利用GPT-4o系统性地评估图文查询对,从视觉得分(Sv)和文本得分(St)两个主要维度进行分析。

视觉得分(Sv)会量化图像的视觉特征,具体包括图像清晰度和图像必要性。文本得分(St)则会分析语言特性,主要涵盖问题质量、难度级别和推理需求。

这个综合评估框架能够捕捉多模态查询中的感知复杂性和认知复杂性,从而能更准确地评估多模态任务的难度。

· VTIA

视觉-文本融合分析器(VTIA) 通过句法分析和语义分析确定跨模态融合的必要深度,并计算融合评分(SI)。

VTIA依靠GPT-4o识别图文查询中的模式,并根据查询的复杂程度动态调整融合需求。

高融合模式常见于科学解释类问题,涉及多个视觉对象的空间关系理解,需要高阶视觉推理能力。低融合模式主要出现在物体识别任务,侧重于直接物体识别,不需要复杂推理。

这样,VTIA就实现了针对查询复杂度的自适应跨模态融合,确保模型合理分配计算资源。

· DRLC

动态推理长度控制器(DRLC) 通过归一化的视觉得分( )、文本得分( )和融合评分( )来动态调节推理链的长度。

这些归一化得分通过最小-最大缩放归一化到区间 [0,1]。

推理链长度的调节遵循以下两大原则:

  1. 降低重复惩罚(促进深入推理):当图文质量高、认知难度大、视觉场景复杂时,降低重复惩罚,以允许更长的推理链。
  2. 高重复惩罚(减少冗余推理):当查询涉及低难度任务、简单视觉识别,且文本-图像的融合需求较低时,提高重复惩罚,从而缩短推理链,避免不必要的复杂推理。

· 多阶段自蒸馏管线

在DRLC模块的基础上,研究者进一步引入渐进式自蒸馏策略,以提高推理数据的质量。

总结来说,这篇论文的发表,也意味着相较于其他不开源或不免费的模型,昆仑万维无偿把上述技术思路给开源了。

这也就充分体现出R1V和DeepSeek的思路一样,希望通过开源持续打造技术影响力。

值得一提的是,当前想要打造一个全模态的模型,不仅需要在特定领域独立训练多个专业模型,而且还会面临跨模态协同的算力挑战。

为实现多模态到全模态的跨越,团队设计了一种全新的全模态扩展技术,使得R1V在单个模型中具备同时处理图像、视频、语音等多种模态信息的能力。

结果显示,「进化」后的R1V不仅能够在单个模型中同时实现图像、视频、语音的全模态思考能力,而且还能在语音和视觉理解评测中均斩获多项SOTA成绩。

敢为人先,中国AI企业硬核担当

作为中国AI领军企业,昆仑万维始终秉持着——实现AGI,让每个人更好塑造和表达自我,持续深耕AI前沿技术。

过去3年,这家公司在音乐大模型、文本大模型、视频模型等领域,取得了一系列突破,并构建起了完整的AI产品矩阵。

当世界模型能够模拟物理世界时,虚拟实验、仿真和影视创作都将迎来爆发式增长。

从AI前沿基础研究,到基座模型,再到AI矩阵产品/应用的完整布局,昆仑万维正一步步将技术愿景变为现实。

下一步,他们还将陆续开源具有空间推理能力和世界理解能力的视觉思考模型,以及全模态思考模型。

而R1V的诞生,是中国AI向世界发出的洪亮声音。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
编译|共同社民调:高市早苗内阁支持率攀升至 69.9%

编译|共同社民调:高市早苗内阁支持率攀升至 69.9%

日本评论
2025-11-16 23:35:21
疯了?瓜迪奥拉竟想花1亿买皇马“独一档” 王牌!

疯了?瓜迪奥拉竟想花1亿买皇马“独一档” 王牌!

奶盖熊本熊
2025-11-18 03:20:43
蒋介石私生活有多混乱?贴身秘书晚年才敢说破,宋美龄的做法绝了

蒋介石私生活有多混乱?贴身秘书晚年才敢说破,宋美龄的做法绝了

百态人间
2025-11-17 16:43:41
终于,一场对网贷高利贷的严控要来了!

终于,一场对网贷高利贷的严控要来了!

深度报
2025-11-17 22:51:13
北京接到通知,高市早苗求罢战,中国四张王炸见效,外资撤离日本

北京接到通知,高市早苗求罢战,中国四张王炸见效,外资撤离日本

吴欣纯Deborah
2025-11-17 19:11:11
解晓东,经抢救无效去世!

解晓东,经抢救无效去世!

华人星光
2025-11-16 13:19:17
大拉胯了!美国E-7垮台引发西方预警机雪崩,空警-500已经无敌?

大拉胯了!美国E-7垮台引发西方预警机雪崩,空警-500已经无敌?

军机Talk
2025-11-17 10:13:09
又一国产车“倒下”了,10月份仅卖了1辆,是国人不识货吗?

又一国产车“倒下”了,10月份仅卖了1辆,是国人不识货吗?

诗意世界
2025-11-16 20:00:36
回归国家队?全红婵时隔半年重返北京!一人推行李箱,乘坐公务舱

回归国家队?全红婵时隔半年重返北京!一人推行李箱,乘坐公务舱

念洲
2025-11-17 11:25:15
每个普通人,都在拼命过好自己的人生

每个普通人,都在拼命过好自己的人生

十点读书
2025-11-16 18:36:53
郭德纲王惠出行,司机停车停路中央,工作人员竟伸手拦过路自行车

郭德纲王惠出行,司机停车停路中央,工作人员竟伸手拦过路自行车

小咪侃娱圈
2025-11-17 11:21:53
全运会单打结束仅1天,名嘴爆猛料:巴黎奥运会原定庆祝仪式泡汤

全运会单打结束仅1天,名嘴爆猛料:巴黎奥运会原定庆祝仪式泡汤

大秦壁虎白话体育
2025-11-17 22:49:37
8万3苹果手机交骑手配送,订单卡6.9公里不动!骑手在虹桥站出逃

8万3苹果手机交骑手配送,订单卡6.9公里不动!骑手在虹桥站出逃

黑哥讲现代史
2025-11-18 00:16:14
为什么上海人那么好辨认?网友:我是上海人,可是我一点都不精明

为什么上海人那么好辨认?网友:我是上海人,可是我一点都不精明

带你感受人间冷暖
2025-11-18 00:15:09
比缅北更恐怖!曾经的旅游胜地,如今黄赌毒俱全,性交易随处可见

比缅北更恐怖!曾经的旅游胜地,如今黄赌毒俱全,性交易随处可见

来科点谱
2025-10-24 09:25:32
面相变了!33岁张一山“老来俏”,不要怀疑任何一张能演男主的脸

面相变了!33岁张一山“老来俏”,不要怀疑任何一张能演男主的脸

阿伧说事
2025-11-17 09:20:55
美联储沃勒:支持美联储在12月9-10日的会议上降息25个基点

美联储沃勒:支持美联储在12月9-10日的会议上降息25个基点

每日经济新闻
2025-11-18 05:19:34
吴建豪谈F4:真正让我们分道扬镳的,不是泄密,是嫉妒

吴建豪谈F4:真正让我们分道扬镳的,不是泄密,是嫉妒

不八卦掌门人
2025-11-15 16:53:06
斯诺克英锦赛:中国5人直通正赛创纪录,4将同区,共32人参赛!

斯诺克英锦赛:中国5人直通正赛创纪录,4将同区,共32人参赛!

刘姚尧的文字城堡
2025-11-18 06:31:31
从印度二本到Meta副总裁!被世界拒绝15次的他,撑起AI时代地基

从印度二本到Meta副总裁!被世界拒绝15次的他,撑起AI时代地基

新智元
2025-11-15 13:05:14
2025-11-18 09:19:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13892文章数 66259关注度
往期回顾 全部

科技要闻

京东外卖要“独立” 刘强东还宣战“点评”

头条要闻

中国多地旅行团游客退订 日本旅游股遭抛售大跌超10%

头条要闻

中国多地旅行团游客退订 日本旅游股遭抛售大跌超10%

体育要闻

当家球星受伤后,球迷乐翻了天?

娱乐要闻

金鸡奖是“照妖镜”,揭露人情冷暖?

财经要闻

英伟达遭“硅谷风投教父”清仓

汽车要闻

新增CDC后变化大吗? 试驾特斯拉model Y L

态度原创

艺术
手机
本地
家居
公开课

艺术要闻

墙上这十四个字太难读,你敢挑战吗?

手机要闻

轻薄续航神机!荣耀500确认全系8000mAh超大电池

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

家居要闻

回廊通道 强化空间秩序

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版