网易首页 > 网易号 > 正文 申请入驻

重磅!DeepSeek R1方法成功迁移到视觉领域,多模态AI迎来新突破

0
分享至

机器之心发布

机器之心编辑部

嘿,各位开发小伙伴,今天要给大家安利一个全新的开源项目 ——VLM-R1!它将 DeepSeek 的 R1 方法从纯文本领域成功迁移到了视觉语言领域,这意味着打开了对于多模态领域的想象空间!

这个项目的灵感来自去年 DeepSeek 开源的那个 R1 方法,靠着 GRPO(Generative Reward Processing Optimization)强化学习方法,在纯文本大模型上取得了惊人的效果。

现在,VLM-R1 团队直接把它应用到了视觉语言模型上,打开了一扇新的大门!

VLM-R1 验证结果惊艳

这个项目的团队在 Qwen2.5-VL 的基础上,同时对比了 R1 和传统的 SFT 方法。结果相当惊艳:

1、稳定性拉满:R1 方法在各种复杂场景下都能保持稳定的高性能,这在实际应用至关重要!

2. 泛化能力卓越:更让人震惊的是,在领域外的测试数据上,随着训练步数增加,传统 SFT 模型的性能开始下滑,而 R1 模型却能持续提升!这意味着 R1 方法帮助模型真正 “学会” 了理解视觉内容,而不是简单地记忆!

(训练和测试领域的差异对比)

(泛化性对比,绿线是 VLM-R1,在领域外泛化性显著更优)

3、上手超简单:VLM-R1 项目团队还贴心地提供了完整的训练和评估流程,四步就能开始训练,对开发者十分友好。

小编亲测之后,在此分享一个实际案例,结果让人意外。

图片里展示了一桌子丰盛的美食,包括各种蔬菜、面饼和点心。针对图片,我们向模型提出了一个问题:“在图片中找出蛋白质含量最高的食物”。

模型不仅回答得准确:

“图片中展示了桌上的各种菜品,包括蔬菜、面饼和点心。从蛋白质含量来看,面饼或面点可能含量最高,因为它们通常由全谷物制成,面粉中含有蛋白质。虽然蔬菜也含有蛋白质,但比起这些主食来说含量较少。”

更厉害的是,它还精准地在图片中框选出了那个蛋白质含量最高的鸡蛋饼!

这种精确的视觉理解能力和推理能力,让人印象深刻!

完美展示了 VLM-R1 在实际应用中的优势:

  • 准确的视觉识别能力
  • 专业的知识推理能力
  • 清晰的文本表达能力

全新思路

作为一个 AI 领域的观察者,VLM-R1 的出现也为开发者和行业提供了许多新的思路,比如:

1、证明了 R1 方法的通用性,不止文本领域玩得转;

2、为多模态模型的训练提供了新思路;

3、或许能够引领一种全新的视觉语言模型训练潮流;

完全开源

最棒的是,这个优秀的项目完全开源!

项目地址:[VLM-R1](https://github.com/om-ai-lab/VLM-R1)

对视觉语言模型感兴趣的同学,强烈建议去看看这个项目。说不定你的下一个突破性研究就从这里开始!

最后,期待看到更多开发者加入进来,一起推动多模态 AI 技术的发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
官方发声!李湘事件有新进展,让她甘心怀二胎的男人,这下放心了

官方发声!李湘事件有新进展,让她甘心怀二胎的男人,这下放心了

青橘罐头
2026-03-22 16:48:39
党龄满50年到底有啥待遇?说出来你可能不信,这才是顶配荣誉

党龄满50年到底有啥待遇?说出来你可能不信,这才是顶配荣誉

小鹿姐姐情感说
2026-07-03 18:16:34
心理学有个残忍发现:越是老实的人,被人算计后越不能靠愤怒或示弱来反击;真正让对方害怕的,是掌握这两种“无声的报复”

心理学有个残忍发现:越是老实的人,被人算计后越不能靠愤怒或示弱来反击;真正让对方害怕的,是掌握这两种“无声的报复”

心理观察局
2026-07-03 07:29:20
春水堂以技术破局高价壁垒,聚焦成年人独居情感补位

春水堂以技术破局高价壁垒,聚焦成年人独居情感补位

木头玩数码
2026-07-02 12:41:49
美国球迷疯了!球不看了,全场几万人掏出望远镜对准阿根廷看台

美国球迷疯了!球不看了,全场几万人掏出望远镜对准阿根廷看台

叹为观止易
2026-07-03 15:55:39
1.3亿镑砸来个病号?世界杯反倒让利物浦赚麻了

1.3亿镑砸来个病号?世界杯反倒让利物浦赚麻了

林子说事
2026-07-03 07:48:55
中国已经成为全球第一个集体拒接电话的国家

中国已经成为全球第一个集体拒接电话的国家

黯泉
2026-06-26 10:44:35
WTT美国大满贯:4强赛诞生!韩国一姐惨败 蒯曼强势剃头,下轮难了

WTT美国大满贯:4强赛诞生!韩国一姐惨败 蒯曼强势剃头,下轮难了

舟望停云
2026-07-03 12:41:15
清华教授实名举报:蒋方舟硕士论文全面造假

清华教授实名举报:蒋方舟硕士论文全面造假

观察者网
2026-07-03 18:52:19
动作巨星患阿尔茨海默症 女儿曝光首次察觉不对劲的瞬间

动作巨星患阿尔茨海默症 女儿曝光首次察觉不对劲的瞬间

赴一场山海啊
2026-07-02 00:07:22
官媒发声!没想到,2026才刚过半,董明珠竟在欧洲发了笔"横财"

官媒发声!没想到,2026才刚过半,董明珠竟在欧洲发了笔"横财"

往史过眼云烟
2026-07-03 09:55:17
FIFA:智能技术证实克罗地亚“绝平”前有球员触球,裁判判罚快速精准

FIFA:智能技术证实克罗地亚“绝平”前有球员触球,裁判判罚快速精准

懂球帝
2026-07-03 11:32:06
世界银行:5年内停贷中国!特朗普出面庆祝,中方回应让人意外!

世界银行:5年内停贷中国!特朗普出面庆祝,中方回应让人意外!

楠楠自语
2026-07-03 09:42:40
足协杯太残酷了:中超9队出战,3队爆大冷门遭低级别球队淘汰

足协杯太残酷了:中超9队出战,3队爆大冷门遭低级别球队淘汰

侧身凌空斩
2026-06-19 21:37:36
研究发现:脑梗最怕的早餐,肉包子第五,第一名很多人天天都在吃

研究发现:脑梗最怕的早餐,肉包子第五,第一名很多人天天都在吃

岐黄传人孙大夫
2026-07-03 23:40:03
3天死1000人,法国政府终于妥协,连夜从中国抢购3万台空调?

3天死1000人,法国政府终于妥协,连夜从中国抢购3万台空调?

傲傲讲历史
2026-07-04 00:43:50
上层圈子的潜规则:没人明说,但招招致命

上层圈子的潜规则:没人明说,但招招致命

细说职场
2026-06-20 15:26:11
天气预报这次真准!大冰雹砸坏玻璃盆,北京这场强对流天气您要小心了

天气预报这次真准!大冰雹砸坏玻璃盆,北京这场强对流天气您要小心了

京呈
2026-07-04 00:28:26
被韩红骂退赛的“造假歌手”孙浩,时隔多年硬刚发文:走个面道歉

被韩红骂退赛的“造假歌手”孙浩,时隔多年硬刚发文:走个面道歉

凛若秋霜
2026-07-02 23:53:25
重庆市委书记会见马善祥

重庆市委书记会见马善祥

政知新媒体
2026-07-03 10:03:56
2026-07-04 03:00:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13427文章数 142686关注度
往期回顾 全部

科技要闻

万亿富豪马斯克 舍不得特斯拉员工敞开用AI

头条要闻

美媒询问中方是否接受霍尔木兹海峡收费 外交部回应

头条要闻

美媒询问中方是否接受霍尔木兹海峡收费 外交部回应

体育要闻

C罗穿已故队友若塔球衣谢场 眼中含泪

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

游戏
旅游
教育
公开课
军事航空

R星官方又发动态!玩家们被吓到 有玩家为PS光盘开喷

旅游要闻

有游客攀爬珠峰古堡遗址打卡拍照,目击者:提醒他们有警示牌,对方没理会

教育要闻

教育部:严控暑期作业总量

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄大使馆遇袭 2年多遭袭击次数已超25次

无障碍浏览 进入关怀版