网易首页 > 网易号 > 正文 申请入驻

重磅!DeepSeek R1方法成功迁移到视觉领域,多模态AI迎来新突破

0
分享至

机器之心发布

机器之心编辑部

嘿,各位开发小伙伴,今天要给大家安利一个全新的开源项目 ——VLM-R1!它将 DeepSeek 的 R1 方法从纯文本领域成功迁移到了视觉语言领域,这意味着打开了对于多模态领域的想象空间!

这个项目的灵感来自去年 DeepSeek 开源的那个 R1 方法,靠着 GRPO(Generative Reward Processing Optimization)强化学习方法,在纯文本大模型上取得了惊人的效果。

现在,VLM-R1 团队直接把它应用到了视觉语言模型上,打开了一扇新的大门!

VLM-R1 验证结果惊艳

这个项目的团队在 Qwen2.5-VL 的基础上,同时对比了 R1 和传统的 SFT 方法。结果相当惊艳:

1、稳定性拉满:R1 方法在各种复杂场景下都能保持稳定的高性能,这在实际应用至关重要!

2. 泛化能力卓越:更让人震惊的是,在领域外的测试数据上,随着训练步数增加,传统 SFT 模型的性能开始下滑,而 R1 模型却能持续提升!这意味着 R1 方法帮助模型真正 “学会” 了理解视觉内容,而不是简单地记忆!

(训练和测试领域的差异对比)

(泛化性对比,绿线是 VLM-R1,在领域外泛化性显著更优)

3、上手超简单:VLM-R1 项目团队还贴心地提供了完整的训练和评估流程,四步就能开始训练,对开发者十分友好。

小编亲测之后,在此分享一个实际案例,结果让人意外。

图片里展示了一桌子丰盛的美食,包括各种蔬菜、面饼和点心。针对图片,我们向模型提出了一个问题:“在图片中找出蛋白质含量最高的食物”。

模型不仅回答得准确:

“图片中展示了桌上的各种菜品,包括蔬菜、面饼和点心。从蛋白质含量来看,面饼或面点可能含量最高,因为它们通常由全谷物制成,面粉中含有蛋白质。虽然蔬菜也含有蛋白质,但比起这些主食来说含量较少。”

更厉害的是,它还精准地在图片中框选出了那个蛋白质含量最高的鸡蛋饼!

这种精确的视觉理解能力和推理能力,让人印象深刻!

完美展示了 VLM-R1 在实际应用中的优势:

  • 准确的视觉识别能力
  • 专业的知识推理能力
  • 清晰的文本表达能力

全新思路

作为一个 AI 领域的观察者,VLM-R1 的出现也为开发者和行业提供了许多新的思路,比如:

1、证明了 R1 方法的通用性,不止文本领域玩得转;

2、为多模态模型的训练提供了新思路;

3、或许能够引领一种全新的视觉语言模型训练潮流;

完全开源

最棒的是,这个优秀的项目完全开源!

项目地址:[VLM-R1](https://github.com/om-ai-lab/VLM-R1)

对视觉语言模型感兴趣的同学,强烈建议去看看这个项目。说不定你的下一个突破性研究就从这里开始!

最后,期待看到更多开发者加入进来,一起推动多模态 AI 技术的发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
余则成赴台前,在翠平衣服袖口内缝一铜扣,19年后翠平拆开看崩溃

余则成赴台前,在翠平衣服袖口内缝一铜扣,19年后翠平拆开看崩溃

星宇共鸣
2026-01-12 10:41:58
50万亿天量存款即将到期,巨量资金流向备受关注

50万亿天量存款即将到期,巨量资金流向备受关注

21世纪经济报道
2026-01-17 17:26:23
应收账款22亿元!安徽一企业申请破产重整

应收账款22亿元!安徽一企业申请破产重整

凤凰网安徽
2026-01-17 21:21:37
这竟是黄圣依,差点没认出来,气质完全不一样了呀。

这竟是黄圣依,差点没认出来,气质完全不一样了呀。

徐帮阳
2026-01-17 12:32:32
赛季首次连败,广东不敌倒数球队,粤媒发文批评,杜锋难辞其咎

赛季首次连败,广东不敌倒数球队,粤媒发文批评,杜锋难辞其咎

邹维体育
2026-01-17 22:03:03
美女白色露脐T恤配蓝色瑜伽裤,性感值拉满,简直是行走的 荷尔蒙

美女白色露脐T恤配蓝色瑜伽裤,性感值拉满,简直是行走的 荷尔蒙

小乔古装汉服
2025-09-24 07:20:03
教育部扔下重磅炸弹:2026年开始,全国一律不准买校外商业试卷​

教育部扔下重磅炸弹:2026年开始,全国一律不准买校外商业试卷​

小熊侃史
2026-01-14 07:10:07
必须马上住院!高血糖患者出现5种异常要当心,否则或有生命危险

必须马上住院!高血糖患者出现5种异常要当心,否则或有生命危险

鬼菜生活
2026-01-17 14:53:19
川普可能在航母没到前动伊朗,但更可能抓稳南美、开搞格陵兰再动

川普可能在航母没到前动伊朗,但更可能抓稳南美、开搞格陵兰再动

邵旭峰域
2026-01-16 15:11:13
缅北女魔头维嘉琳!最残酷的手段是割“小乳猪”,受害者多为男性

缅北女魔头维嘉琳!最残酷的手段是割“小乳猪”,受害者多为男性

马尔科故事会
2024-09-04 09:39:57
国产香烟加了助燃剂?测试发现只能烧4分钟,而日本烟能烧7分钟

国产香烟加了助燃剂?测试发现只能烧4分钟,而日本烟能烧7分钟

回旋镖
2026-01-01 21:00:24
苏联式解体将重演?俄罗斯专家大胆预测:美国或将分裂成3个国家

苏联式解体将重演?俄罗斯专家大胆预测:美国或将分裂成3个国家

小陈讲史
2026-01-13 11:19:27
中国航天至暗时刻,1天内实践三十二号卫星、谷神星二号发射失利

中国航天至暗时刻,1天内实践三十二号卫星、谷神星二号发射失利

胖福的小木屋
2026-01-17 23:10:27
印度赛疑遭11国选手抵制!WTT男单前21名集体缺席 被卫生问题吓怕

印度赛疑遭11国选手抵制!WTT男单前21名集体缺席 被卫生问题吓怕

风过乡
2026-01-17 15:42:39
爆!曼联新帅头号目标锁定他 世界顶级名帅点头愿意来

爆!曼联新帅头号目标锁定他 世界顶级名帅点头愿意来

奶盖熊本熊
2026-01-18 02:34:42
盘点史上最震撼的十大对联,皆是精妙绝伦的千古绝对,哪个最妙?

盘点史上最震撼的十大对联,皆是精妙绝伦的千古绝对,哪个最妙?

长风文史
2026-01-14 11:36:27
3-2!利雅得胜利终结3连败 被连追2球后绝杀 仍距榜首4分 C罗哑火

3-2!利雅得胜利终结3连败 被连追2球后绝杀 仍距榜首4分 C罗哑火

我爱英超
2026-01-18 04:25:55
许利民与周琦的矛盾才是北京首钢最大问题,俱乐部或等待李楠复出

许利民与周琦的矛盾才是北京首钢最大问题,俱乐部或等待李楠复出

姜大叔侃球
2026-01-17 10:23:01
石破茂回应中日现状,不是打得过打不过的问题,而是能不能活下去

石破茂回应中日现状,不是打得过打不过的问题,而是能不能活下去

笑谈历史阿晡
2026-01-14 11:26:05
67岁王朔也没想到,曹可凡竟在陶玉玲去世后,因一番话扭转了口碑

67岁王朔也没想到,曹可凡竟在陶玉玲去世后,因一番话扭转了口碑

好贤观史记
2026-01-16 15:45:24
2026-01-18 05:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12134文章数 142544关注度
往期回顾 全部

科技要闻

两枚火箭发射失利,具体原因正排查

头条要闻

李昊发挥神勇 U23国足点球战胜乌兹别克斯坦晋级四强

头条要闻

李昊发挥神勇 U23国足点球战胜乌兹别克斯坦晋级四强

体育要闻

三巨头走了俩,联盟笑柄却起飞了

娱乐要闻

马年春晚首次联排场外细节!

财经要闻

保不准,人民币会闪击6.8!

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

数码
房产
艺术
教育
亲子

数码要闻

ATK RS7 Air磁轴键盘开启预约,435元起配置亮眼

房产要闻

真四代来了!这次,海口楼市将彻底颠覆!

艺术要闻

你绝对想不到!央美华宜玉的水彩画竟然如此震撼!

教育要闻

医院招考重考的背后

亲子要闻

欢迎小小的新人类-卜卜

无障碍浏览 进入关怀版