网易首页 > 网易号 > 正文 申请入驻

视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

今天给大家重磅推荐一个突破性的视觉强化微调开源项目 —— Visual-RFT (Visual Reinforcement Fine-Tuning)。

  • 论文地址: https://arxiv.org/abs/2503.01785
  • 代码地址: https://github.com/Liuziyu77/Visual-RFT

视觉强化微调 Visual-RFT 将 DeepSeek-R1 背后的基于规则奖励的强化学习方法和 OpenAI 的强化微调(Reinforcement Fine-Tuning,RFT)范式成功从纯文本大语言模型拓展到了视觉语言大模型(LVLM)。通过针对视觉的细分类、目标检测等任务设计对应的规则奖励,Visual-RFT 打破了 DeepSeek-R1 方法局限于文本、数学推理、代码等少数领域的认知,为视觉语言模型的训练开辟了全新路径!

图 1 用一张包含许多宝可梦的图片展示了这一过程,当通过多模态强化微调 Visual-RFT 训练的模型被提问什么宝可梦可以释放技能十万伏特时,模型通过 < think > 推理过程准确找出皮卡丘对应的坐标框,展示出模型的泛化能力。

图 1. Visual-RFT 首次实现将强化微调能力迁移到多模态模型中,只需 10~1000 条数据就能通过思考过程和基于规则的监督提升多模态大模型的性能

从 R1 到 Visual-RFT:强化学习的多模态突破

OpenAI o1 主打的强化微调能力(Reinforcement Fine-Tuning)能只用少量样本就将 o1 迁移到新的任务上。最近 DeepSeek-R1 解释了 o1 模型背后的强推理能力来自基于可验证奖励(Verified Rewards)/ 规则奖励(Rule-based Verifier)的强化学习策略。不过,目前主流的认知在于这种基于规则奖励的方法只适用于数学推理、代码等少数便于验证的任务。我们在 Visual-RFT 中,将这一策略迁移到了视觉语言模型。通过对细分类、目标检测等任务建立对应的可验证规则奖励,我们解决了传统方法在视觉领域中的局限性,只需少量微调样本就实现了更高效、泛化性更强的视觉理解与推理能力。

传统的视觉指令微调(Visual Instruction Tuning/Supervised Fine-Tuning,SFT)需要海量数据对模型微调,在数据量有限(例如某些难以收集数据的特定学科场景)的情况下带来的提升有限。我们提出的视觉强化微调(Visual Reinforcement Fine-Tuning)具有少样本学习能力和更强的泛化性,在数据量有限的场景下相比指令微调具有很大的优势。

为验证 Visual-RFT(视觉强化微调)的泛化能力和普适性,力求对视觉领域的全面覆盖,我们在多个视觉感知任务上对 Visual-RFT 进行验证,包含 Detection,Classification,Grounding 等。其中,Visual-RFT 在 open vocabulary,few-shot learning 等设定下,仅仅通过非常少量的数据就取得了显著的性能提升,轻松实现能力的迁移,且结果明显优于 SFT 的微调方法。在 reasoning grounding (推理定位) 的测试中,Visual-RFT 展现出强大的视觉推理能力。评测结果如图二所示,详细实验信息欢迎参见论文。

图 2. Visual-RFT(视觉强化微调)在各种任务上显著超越 SFT:包括目标检测(OD),开放目标检测(OVD),少样本检测与分类(FSOD/IC), 推理定位(Reasoning Grounding)

图 3. 框架图:Visual-RFT(视觉强化微调)通过 IoU 和 cls 奖励和强化学习策略(例如 GRPO)更新模型参数

为了在视觉多模态领域验证可验证奖励的作用,我们提出了使用基于 IoU 的 verified reward 奖励应用于 detection 和 grounding 等任务,使用基于分类正确判断的 cls reward 用于 classification 任务(如图三所示)。

图 4. 部分推理定位结果展示,通过引入思考过程和强化学习策略 Visual-RFT(多模态强化微调)显著超越 SFT,更加准确地定位物体。

图 5. 部分推理细粒度分类结果展示,通过引入思考过程和强化学习策略,(多模态强化微调)Visual-RFT 显著超越 SFT,更加准确地定位物体。

部分模型输出结果展示如图 4 和图 5 所示,相比于传统的视觉指令微调(Visual Instruction/Supervised Fine-Tuning),Visual-RFT(视觉强化微调)通过强化学习方法,对问题进行深入的 think 分析取得更佳推理性能,相较于传统的指令微调(SFT)方法取得显著提升。如询问模型图中的运动员在水下依然保持清晰的视野需要带什么物体时,通过传统指令微调的方法模型直接将整个运动员框出。而 Visual-RFT 通过引入推理过程准确地指出防水眼镜及其所在的位置并准确框出。

Visual-RFT 实验结果

Visual-RFT(视觉强化微调)在各大图文感知任务中均展现出强大的性能。我们的实验主要基于视觉语言大模型基座 QWen2-VL 2B/7B 模型,和传统的监督微调(Supervised Fine-Tuning)方法进行对比。在开放目标检测,少样本检测,细粒度分类和推理定位任务上 Visual-RFT 相比 SFT 全面实现了性能提升。值得一提的是,我们的测试数据既包含 COCO、LVIS 等通用场景,又包含从互联网中收集的卡通人物等开放场景数据。只需要几十条数据,模型通过 Visual-RFT 可以学会检测某动漫中的史莱姆形象。实验结果广泛验证了 Visual-RFT 的卓越性能和鲁棒性。

图 5. 部分实验结果展示,Visual-RFT 显著超越 SFT,建立了新的模型微调范式

Visual-RFT 已经开源!欢迎加入!

我们坚信开源的力量,Visual-RFT 项目已全面开源(包含训练、评测代码,数据)。如果你对多模态模型、强化学习、视觉语言理解感兴趣,不妨一起来探索更多可能性吧!

项目地址:https://github.com/Liuziyu77/Visual-RFT

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
心跳成为“胜负手”:从张雪峰猝然离世看网球运动员的心脏之殇

心跳成为“胜负手”:从张雪峰猝然离世看网球运动员的心脏之殇

网球之家
2026-03-25 23:38:54
人到中年才明白:再漂亮、再有趣 ,都不如遇见一个有良心的人

人到中年才明白:再漂亮、再有趣 ,都不如遇见一个有良心的人

木言观
2026-02-24 07:35:55
朱德在中南海养兰花,遭到毛主席批评, 无奈忍痛全部送人!

朱德在中南海养兰花,遭到毛主席批评, 无奈忍痛全部送人!

顾史
2026-03-26 10:04:29
女大学生住院做检查,报告竟是假的!珠海中山五院等多方回应

女大学生住院做检查,报告竟是假的!珠海中山五院等多方回应

南方都市报
2026-03-24 12:42:25
雷峰塔千年秘密曝光,不敢置信!

雷峰塔千年秘密曝光,不敢置信!

中国艺术家
2026-03-25 05:23:42
泰国U23队长:向余望表现很棒,彭啸的发挥也很出色

泰国U23队长:向余望表现很棒,彭啸的发挥也很出色

懂球帝
2026-03-26 15:47:08
志愿军功臣行刑时朝鲜姑娘冲上前,彭总感慨:让他们在一起吧

志愿军功臣行刑时朝鲜姑娘冲上前,彭总感慨:让他们在一起吧

老范谈史
2026-03-23 17:49:13
佳兆业预告扭亏为盈超500亿,深圳核心项目价值凸显

佳兆业预告扭亏为盈超500亿,深圳核心项目价值凸显

乐居财经官方
2026-03-26 10:14:46
别想再回国!中国体坛 4 大叛徒,夺冠后否认是国人,如今遭报应

别想再回国!中国体坛 4 大叛徒,夺冠后否认是国人,如今遭报应

动物奇奇怪怪
2026-03-25 14:18:48
伊朗最新回应:已被特朗普欺骗了两次,不想再被愚弄!3架F-15战机坠毁,特朗普最新回应:小意外!伊朗致函联合国,“176国传阅”

伊朗最新回应:已被特朗普欺骗了两次,不想再被愚弄!3架F-15战机坠毁,特朗普最新回应:小意外!伊朗致函联合国,“176国传阅”

每日经济新闻
2026-03-25 16:15:05
好莱坞的AI招魂术:死亡不再是劳动的终点

好莱坞的AI招魂术:死亡不再是劳动的终点

动察Beating
2026-03-26 11:06:56
最高检调研组在江苏调研

最高检调研组在江苏调研

扬州检察
2026-03-26 09:22:59
“晚打不如早打,小打不如大打,打一个,不如拉日本一起打”。

“晚打不如早打,小打不如大打,打一个,不如拉日本一起打”。

安安说
2026-03-14 18:50:59
张雪峰去世媒体人发文:我问过了,他还在,网友:最后一课很沉重

张雪峰去世媒体人发文:我问过了,他还在,网友:最后一课很沉重

蜜桔娱乐
2026-03-25 10:20:48
巴西发布首款本土组装超音速战斗机F-39E“鹰狮”

巴西发布首款本土组装超音速战斗机F-39E“鹰狮”

财联社
2026-03-25 22:24:10
来俊臣的酷刑有多狠?曾有女犯哀求:只要不上刑,杀全族都行

来俊臣的酷刑有多狠?曾有女犯哀求:只要不上刑,杀全族都行

铭记历史呀
2026-03-09 15:28:19
伊朗下手比想象中更狠!被爆收取保护费,不顾美方警告,往死里打

伊朗下手比想象中更狠!被爆收取保护费,不顾美方警告,往死里打

南宗历史
2026-03-26 15:53:20
河南郑州,10岁男孩在上课时与同桌发生矛盾。老师竟然让两...

河南郑州,10岁男孩在上课时与同桌发生矛盾。老师竟然让两...

网络易不易
2026-03-26 14:05:04
父亲去世,母亲远嫁,我结婚那天,二叔二婶给我一份惊喜

父亲去世,母亲远嫁,我结婚那天,二叔二婶给我一份惊喜

人间百态大全
2026-03-25 07:20:03
日本妹子赤裸上身做引体向上引热议!背影比男人还壮?

日本妹子赤裸上身做引体向上引热议!背影比男人还壮?

姿势跑法
2026-02-09 11:46:08
2026-03-26 16:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
时尚
艺术
亲子
数码

家居要闻

傍海而居 静观蝴蝶海

皮衣+裙,高级到炸

艺术要闻

哪一座桥不是风景?

亲子要闻

妈妈是时尚小达人爸爸是朴素老模范!我要当爸爸的专属赞助人

数码要闻

1599~2499元,英特尔酷睿Ultra 200S Plus处理器发售

无障碍浏览 进入关怀版