网易首页 > 网易号 > 正文 申请入驻

重磅!DeepSeek R1方法成功迁移到视觉领域,多模态AI迎来新突破

0
分享至

机器之心发布

机器之心编辑部

嘿,各位开发小伙伴,今天要给大家安利一个全新的开源项目 ——VLM-R1!它将 DeepSeek 的 R1 方法从纯文本领域成功迁移到了视觉语言领域,这意味着打开了对于多模态领域的想象空间!

这个项目的灵感来自去年 DeepSeek 开源的那个 R1 方法,靠着 GRPO(Generative Reward Processing Optimization)强化学习方法,在纯文本大模型上取得了惊人的效果。

现在,VLM-R1 团队直接把它应用到了视觉语言模型上,打开了一扇新的大门!

VLM-R1 验证结果惊艳

这个项目的团队在 Qwen2.5-VL 的基础上,同时对比了 R1 和传统的 SFT 方法。结果相当惊艳:

1、稳定性拉满:R1 方法在各种复杂场景下都能保持稳定的高性能,这在实际应用至关重要!

2. 泛化能力卓越:更让人震惊的是,在领域外的测试数据上,随着训练步数增加,传统 SFT 模型的性能开始下滑,而 R1 模型却能持续提升!这意味着 R1 方法帮助模型真正 “学会” 了理解视觉内容,而不是简单地记忆!

(训练和测试领域的差异对比)

(泛化性对比,绿线是 VLM-R1,在领域外泛化性显著更优)

3、上手超简单:VLM-R1 项目团队还贴心地提供了完整的训练和评估流程,四步就能开始训练,对开发者十分友好。

小编亲测之后,在此分享一个实际案例,结果让人意外。

图片里展示了一桌子丰盛的美食,包括各种蔬菜、面饼和点心。针对图片,我们向模型提出了一个问题:“在图片中找出蛋白质含量最高的食物”。

模型不仅回答得准确:

“图片中展示了桌上的各种菜品,包括蔬菜、面饼和点心。从蛋白质含量来看,面饼或面点可能含量最高,因为它们通常由全谷物制成,面粉中含有蛋白质。虽然蔬菜也含有蛋白质,但比起这些主食来说含量较少。”

更厉害的是,它还精准地在图片中框选出了那个蛋白质含量最高的鸡蛋饼!

这种精确的视觉理解能力和推理能力,让人印象深刻!

完美展示了 VLM-R1 在实际应用中的优势:

  • 准确的视觉识别能力
  • 专业的知识推理能力
  • 清晰的文本表达能力

全新思路

作为一个 AI 领域的观察者,VLM-R1 的出现也为开发者和行业提供了许多新的思路,比如:

1、证明了 R1 方法的通用性,不止文本领域玩得转;

2、为多模态模型的训练提供了新思路;

3、或许能够引领一种全新的视觉语言模型训练潮流;

完全开源

最棒的是,这个优秀的项目完全开源!

项目地址:[VLM-R1](https://github.com/om-ai-lab/VLM-R1)

对视觉语言模型感兴趣的同学,强烈建议去看看这个项目。说不定你的下一个突破性研究就从这里开始!

最后,期待看到更多开发者加入进来,一起推动多模态 AI 技术的发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美容院老板娘大实话:55岁后脸再光也没用,脱了衣服见真章!

美容院老板娘大实话:55岁后脸再光也没用,脱了衣服见真章!

距离距离
2026-03-25 16:53:55
成都宝妈近一年狂扫5套“老破小”!地铁口+软装实现以租养贷

成都宝妈近一年狂扫5套“老破小”!地铁口+软装实现以租养贷

封面新闻
2026-03-25 21:28:05
真不能怪祖院长,就曾医生这颜值、这才华和魅力,谁遭的住?

真不能怪祖院长,就曾医生这颜值、这才华和魅力,谁遭的住?

吃瓜局
2025-11-11 16:23:49
林彪的儿子要结婚,叶群在全国选美,毛主席得知说了5个字

林彪的儿子要结婚,叶群在全国选美,毛主席得知说了5个字

扬平说史
2026-03-25 21:04:04
“戏混子”又来霍霍年代剧?老气横秋、演技拉胯,难怪观众不买账

“戏混子”又来霍霍年代剧?老气横秋、演技拉胯,难怪观众不买账

翰飞观事
2026-03-24 17:00:30
张雪峰去世后,死对头杜子建爆料节目互怼真相,哭着说彼此是知己

张雪峰去世后,死对头杜子建爆料节目互怼真相,哭着说彼此是知己

育学笔谈
2026-03-26 08:53:29
忍无可忍,委内瑞拉爆发全国大罢工,第三波抗议直逼总统府!

忍无可忍,委内瑞拉爆发全国大罢工,第三波抗议直逼总统府!

匹夫来搞笑
2026-03-26 12:01:58
“已囤一年机票”!燃油费上涨催生“提前锁票潮”,“五一”机票预订量涨近两成

“已囤一年机票”!燃油费上涨催生“提前锁票潮”,“五一”机票预订量涨近两成

封面新闻
2026-03-26 13:24:05
美军司令:一旦台海战争打响,6个航母战斗群2个陆战师将全都出动

美军司令:一旦台海战争打响,6个航母战斗群2个陆战师将全都出动

霁寒飘雪
2026-03-26 09:54:09
解放战争中,国民党军也曾策反我军,一次拉走4个师,但10天全灭

解放战争中,国民党军也曾策反我军,一次拉走4个师,但10天全灭

云霄纪史观
2026-03-26 11:51:38
欧盟冻结匈牙利的160亿欧元资金,以回应匈牙利阻挠对乌贷款发放

欧盟冻结匈牙利的160亿欧元资金,以回应匈牙利阻挠对乌贷款发放

山河路口
2026-03-26 13:00:46
王菲兜兜转转半生,原来爱的始终是同一个人!谢霆锋不过是翻版

王菲兜兜转转半生,原来爱的始终是同一个人!谢霆锋不过是翻版

可乐谈情感
2026-03-26 08:37:34
马英九基金会风波彻底失控!为何蔡正元两个词点透本质?

马英九基金会风波彻底失控!为何蔡正元两个词点透本质?

时尚的弄潮
2026-03-26 13:50:39
她出身上海名门,是国家一级演员,嫁东北丈夫,如今66岁生活幸福

她出身上海名门,是国家一级演员,嫁东北丈夫,如今66岁生活幸福

白面书誏
2026-03-23 17:38:15
苏敏旅游6年后简直不敢认,连面相都变了,网友:这16万花得值!

苏敏旅游6年后简直不敢认,连面相都变了,网友:这16万花得值!

共工之锚
2026-03-24 01:31:15
男子干活时摔成高位截瘫,妻子一看男子不能赚钱养家了,丢下男子和6岁的女儿跑了

男子干活时摔成高位截瘫,妻子一看男子不能赚钱养家了,丢下男子和6岁的女儿跑了

张晓磊
2026-03-26 11:22:06
华为Mate 90首发!鸿蒙7已在路上:打破垄断 和安卓iOS三分天下

华为Mate 90首发!鸿蒙7已在路上:打破垄断 和安卓iOS三分天下

快科技
2026-03-25 16:07:00
朱丽丽8年敛财14亿,金融才女奢华生活终落幕

朱丽丽8年敛财14亿,金融才女奢华生活终落幕

日不西沉
2026-03-26 10:27:14
张雪峰家属:周六举行追悼会!平时没胸闷、没心脏病,能放心运动吗?医生提醒

张雪峰家属:周六举行追悼会!平时没胸闷、没心脏病,能放心运动吗?医生提醒

上观新闻
2026-03-26 14:45:10
陕西97岁农民去世,国民党总部从台湾送来牌,上书4字民族之光

陕西97岁农民去世,国民党总部从台湾送来牌,上书4字民族之光

微史纪
2026-03-26 10:50:21
2026-03-26 15:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12604文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
旅游
手机
游戏
公开课

艺术要闻

哪一座桥不是风景?

旅游要闻

淡季旺销!南明住宿业今年前两月营收斩获1.18亿元

手机要闻

存储涨价苦了国产品牌、普通消费者,苹果却不受影响

外媒锐评PS去年错得离谱!发行商排名21 被微软甩开

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版