网易首页 > 网易号 > 正文 申请入驻

重磅!DeepSeek R1方法成功迁移到视觉领域,多模态AI迎来新突破

0
分享至

机器之心发布

机器之心编辑部

嘿,各位开发小伙伴,今天要给大家安利一个全新的开源项目 ——VLM-R1!它将 DeepSeek 的 R1 方法从纯文本领域成功迁移到了视觉语言领域,这意味着打开了对于多模态领域的想象空间!

这个项目的灵感来自去年 DeepSeek 开源的那个 R1 方法,靠着 GRPO(Generative Reward Processing Optimization)强化学习方法,在纯文本大模型上取得了惊人的效果。

现在,VLM-R1 团队直接把它应用到了视觉语言模型上,打开了一扇新的大门!

VLM-R1 验证结果惊艳

这个项目的团队在 Qwen2.5-VL 的基础上,同时对比了 R1 和传统的 SFT 方法。结果相当惊艳:

1、稳定性拉满:R1 方法在各种复杂场景下都能保持稳定的高性能,这在实际应用至关重要!

2. 泛化能力卓越:更让人震惊的是,在领域外的测试数据上,随着训练步数增加,传统 SFT 模型的性能开始下滑,而 R1 模型却能持续提升!这意味着 R1 方法帮助模型真正 “学会” 了理解视觉内容,而不是简单地记忆!

(训练和测试领域的差异对比)

(泛化性对比,绿线是 VLM-R1,在领域外泛化性显著更优)

3、上手超简单:VLM-R1 项目团队还贴心地提供了完整的训练和评估流程,四步就能开始训练,对开发者十分友好。

小编亲测之后,在此分享一个实际案例,结果让人意外。

图片里展示了一桌子丰盛的美食,包括各种蔬菜、面饼和点心。针对图片,我们向模型提出了一个问题:“在图片中找出蛋白质含量最高的食物”。

模型不仅回答得准确:

“图片中展示了桌上的各种菜品,包括蔬菜、面饼和点心。从蛋白质含量来看,面饼或面点可能含量最高,因为它们通常由全谷物制成,面粉中含有蛋白质。虽然蔬菜也含有蛋白质,但比起这些主食来说含量较少。”

更厉害的是,它还精准地在图片中框选出了那个蛋白质含量最高的鸡蛋饼!

这种精确的视觉理解能力和推理能力,让人印象深刻!

完美展示了 VLM-R1 在实际应用中的优势:

  • 准确的视觉识别能力
  • 专业的知识推理能力
  • 清晰的文本表达能力

全新思路

作为一个 AI 领域的观察者,VLM-R1 的出现也为开发者和行业提供了许多新的思路,比如:

1、证明了 R1 方法的通用性,不止文本领域玩得转;

2、为多模态模型的训练提供了新思路;

3、或许能够引领一种全新的视觉语言模型训练潮流;

完全开源

最棒的是,这个优秀的项目完全开源!

项目地址:[VLM-R1](https://github.com/om-ai-lab/VLM-R1)

对视觉语言模型感兴趣的同学,强烈建议去看看这个项目。说不定你的下一个突破性研究就从这里开始!

最后,期待看到更多开发者加入进来,一起推动多模态 AI 技术的发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
出大事了!科学家创造出了物理学上的“真随机”

出大事了!科学家创造出了物理学上的“真随机”

宇宙的秘密
2026-06-24 17:36:53
股民要做好心理准备,未来一个半月,股市或将重演20年历史!

股民要做好心理准备,未来一个半月,股市或将重演20年历史!

观察者海风
2026-07-02 12:28:59
王守业贪污1.6亿,2005年“双规”后却被放出,他叫嚣:我摆平了

王守业贪污1.6亿,2005年“双规”后却被放出,他叫嚣:我摆平了

帝哥说史
2026-06-02 21:40:03
被拜仁偷走的12年!从巴西到美加墨,德国足球丢掉了那块“铁”

被拜仁偷走的12年!从巴西到美加墨,德国足球丢掉了那块“铁”

全景体育V
2026-07-01 10:47:43
莫斯科遭遇新一轮大规模空袭!乌克兰计划获取风暴阴影导弹生产权

莫斯科遭遇新一轮大规模空袭!乌克兰计划获取风暴阴影导弹生产权

项鹏飞
2026-06-30 21:26:18
“别让女儿学舞蹈了”,荷花奖得主在酒馆兼职舞女,家长看蒙了

“别让女儿学舞蹈了”,荷花奖得主在酒馆兼职舞女,家长看蒙了

泽泽先生
2026-06-30 19:47:39
跟队:纽卡原本不愿卖托纳利,但热刺第一个匹配1亿英镑标价

跟队:纽卡原本不愿卖托纳利,但热刺第一个匹配1亿英镑标价

懂球帝
2026-07-02 17:59:09
曝湖人正在猛追库明加!若裁掉范德比尔特 可腾出约700万空间报价

曝湖人正在猛追库明加!若裁掉范德比尔特 可腾出约700万空间报价

罗说NBA
2026-07-02 12:34:14
这个1挑4,现在看,够不够炸?

这个1挑4,现在看,够不够炸?

贵圈真乱
2026-07-02 18:00:12
比亚迪海洋网旗舰海豹08上市:插混、纯电标配闪充,19.69万起

比亚迪海洋网旗舰海豹08上市:插混、纯电标配闪充,19.69万起

IT之家
2026-07-02 20:48:24
清醒得可怕!西尔斯基:夺回超 670平方公里土地,绝不吹嘘翻盘

清醒得可怕!西尔斯基:夺回超 670平方公里土地,绝不吹嘘翻盘

老马拉车莫少装
2026-07-01 17:51:01
安徽省药监局通报困难职工情况登记表相关情况

安徽省药监局通报困难职工情况登记表相关情况

界面新闻
2026-07-02 19:38:54
今年找工作确实是地狱难度了

今年找工作确实是地狱难度了

新浪财经
2026-06-29 05:06:13
苏提达最佳造型出炉,一袭金色战袍闪耀巴黎,正宫娘娘气场全开

苏提达最佳造型出炉,一袭金色战袍闪耀巴黎,正宫娘娘气场全开

红袖说事
2026-07-02 23:09:33
白酒再次被讨论!研究提示:糖尿病常喝白酒,可能影响4个方面

白酒再次被讨论!研究提示:糖尿病常喝白酒,可能影响4个方面

芹姐说生活
2026-07-02 15:58:47
最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

周军律师聊案子
2026-04-21 09:50:16
尼克斯最长寿球员离队,罗宾逊3年4740万投绿军

尼克斯最长寿球员离队,罗宾逊3年4740万投绿军

甜度百分百21
2026-07-02 00:03:28
哈兰德:晋级16强的感觉难以置信;接下来每场对我们都是额外奖励

哈兰德:晋级16强的感觉难以置信;接下来每场对我们都是额外奖励

懂球帝
2026-07-02 03:05:09
ICU工作24年的北大博士坦言自己不鸡娃原因!让所有家长警醒

ICU工作24年的北大博士坦言自己不鸡娃原因!让所有家长警醒

菁妈育儿
2026-06-21 09:39:39
为什么对同一部电影态度转变比翻书还快?

为什么对同一部电影态度转变比翻书还快?

小眼睛小世界
2026-07-02 06:30:54
2026-07-03 01:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13419文章数 142686关注度
往期回顾 全部

科技要闻

马斯克不承认,但SpaceX就该造AI手机

头条要闻

多国元首和高官将参加哈梅内伊葬礼 莫迪受邀无法出席

头条要闻

多国元首和高官将参加哈梅内伊葬礼 莫迪受邀无法出席

体育要闻

韩国人,为什么恨透了洪明甫?

娱乐要闻

众星祝福祖国,曾沛慈原形毕露?

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

有纯电有增程 还有二代VLA支持 小鹏MONA L03预售价14.38万起

态度原创

健康
游戏
亲子
家居
手机

这4类消化病患者 吃粘食管住嘴

国产外设厂"宣布"放弃实体手柄!数字化彻底解决漂移

亲子要闻

从新生儿到学龄期全覆盖:儿童被子成长型选型的策略与实用方法

家居要闻

传奇筑 日常诗

手机要闻

消息称折叠屏iPhone备货量上调,售价预计2500美元起

无障碍浏览 进入关怀版