网易首页 > 网易号 > 正文 申请入驻

3B Image Captioning小钢炮重磅来袭,性能比肩Qwen2.5-VL-72B

0
分享至



邢龙和董潇逸为本篇文章共同第一作者。邢龙是中国科学技术大学博士生,师从林达华教授和吴枫教授,研究兴趣主要集中在 multi-modal LLMs 和 efficient AI。董潇逸是香港中文大学 MMLab 的博士后研究员,同时在上海人工智能实验室担任兼职顾问研究员,已在顶级会议和期刊(如 CVPR、ICCV、ECCV 等)上发表了 50 余篇论文,Google Scholar 上获得超过 10000 次引用。

今天推荐一个 Dense Image Captioning 的最新技术 —— CapRL (Captioning Reinforcement Learning)。CapRL 首次成功将 DeepSeek-R1 的强化学习方法应用到 image captioning 这种开放视觉任务,创新的以实用性重新定义 image captioning 的 reward。训练得到的 CapRL-3B 模型,可以成功达到与 Qwen2.5-VL-72B 相当的 captioning 水平!这是 image captioning 领域的一大进展,更是为 GRPO 策略应用于开放任务提供了重要思路!

目前 Huggingface model&dataset 总下载量已经突破 6k,并且正在迭代更强的基座模型以及升级 training recipe,欢迎使用!



  • 论文链接: https://arxiv.org/abs/2509.22647
  • 仓库链接: https://github.com/InternLM/CapRL
  • 模型链接: https://huggingface.co/internlm/CapRL-3B
  • 数据链接: https://huggingface.co/datasets/internlm/CapRL-2M



图 1. CapRL 解决了为 image captioning 这种主观任务设计 reward 的重大挑战,巧妙的以实用性定义了客观 verifiable reward,避免了使用 LVLM-as-a-Judge 带来的 reward hacking,显著提升了描述的质量

从 SFT captioner 到 RL captioner:

Reward 设计重大难点

Image Captioning 旨在为给定图像生成自然语言描述,弥合视觉与语言世界之间的鸿沟,是目前 ViT 训练以及 LVLM 预训练重要的训练语料。目前大多数 Image Captioning 模型都是基于 LVLMs 并采用监督微调(SFT)方法进行训练,但是这种训练方式有两大问题,数据方面依赖大量由人工或闭源模型标注的数据集,成本高昂且难以扩展,效果方面因为死记硬背的训练方式导致泛化与多样性不足。

SFT 的局限性促使研究者转向一种新的范式 —— 基于可验证奖励的强化学习(RLVR)。RLVR 这种训练范式在 visual grounding,detection 这种包含标准答案的视觉任务上已经得到广泛应用,然而,将 RLVR 应用于 Image Captioning 等开放性任务仍然非常具有挑战性,其关键在于如何设计一个客观可靠的 reward 函数。“什么是一个好的图片描述?”,这个问题带有很强的主观性,大家往往看法不一,同一张图片可能会存在多种不同的合理描述,这就给 verifiable reward 设计带来很大的困难。

现有的一些方法尝试使用奖励模型(reward models)或 LVLM-as-a-judge 来提供 reward,如图 1(a)所示,但是这种方法非常容易受到奖励欺骗(reward hacking)的影响。模型可能学会利用奖励模型的漏洞(偏好冗长或简短的输出形式)来获得更高分数,而非真正生成高质量的描述,这种不可靠的奖励信号很容易导致在 GRPO 训练过程中出现异常,图 1(c)中展示了训练过程中出现了 caption 过长以及过短的情况,最终导致模型的表现不及预期甚至出现训练崩溃。



图 2. CapRL 框架。 我们的 CapRL 采用了解耦的两阶段流程,首先 LVLM 生成图像描述,然后让一个 LLM 基于该图像描述回答视觉多选题,而 LLM 的回答准确率则作为 LVLM 的客观奖励信号

Reward 设计新思路:好的 caption 应当能让纯语言模型正确回答视觉问题

为了解决主观图像描述任务中 RLVR 奖励函数缺乏客观性的难题,我们提出了一种全新的视角:caption quality 与其实用性成正比。当图像描述足够详细且准确时,即使一个纯语言模型无法直接 “看到” 图像,也能回答与图像相关的视觉问答。例如图二中,对于问题 “图片里面谁在大笑?”,当描述中包含 “兔子警官 Judy 正在开怀大笑”,LLM 即可正确回答 “Judy”。

基于这一动机,我们提出了一个高效的两阶段解耦式训练框架,称为 CapRL(Captioning Reinforcement Learning)。在 CapRL 框架中,我们让一个纯语言模型根据 caption 去回答与原图像相关的多项选择题,LLM 的回答准确率即作为 RLVR 训练的客观奖励信号。基于 CapRL 训练之后,输出的描述如图 3 所示,会在准确率,细节覆盖等方面大幅度提升



图 3. CapRL 效果展示。Qwen2.5-VL-3B 经过 CapRL 训练之后描述的准确性更高,图片信息覆盖更全,含有更少幻觉。

CapRL 实验结果

我们对 CapRL 框架带来的优势进行了全面评估。

(i)我们使用 CapRL-3B 标注图片产生了 CapRL-5M 数据集,并在该数据集上对 LVLM 进行预训练,在全部 12 项基准测试中均取得了显著性能提升,与以往的 ShareGPT4V,DenseFusion dataset 的对比中展示出了巨大优势,效果如图 4 所示;(ii)此外,借助 Prism Framework 对描述质量进行直接的评估,我们观察到 CapRL-3B 的性能与 72B 模型相当,并在平均水平上超越基线模型 8.4%。



图 4. 使用不同预训练数据集的性能比较结果显示:CapRL-1M 在全部三个设置中均显著优于其他数据集,并且当数据规模扩展至 5M 时,模型性能进一步得到提升。



图 5. 在 Prism 框架下的图像描述能力对比中,CapRL-3B 的表现可与 Qwen2.5-VL-72B 相媲美,并且显著优于以 LVLM-as-a-Judge 作为奖励信号的现有方法。









图 6. 我们针对 CapRL 进行了丰富的探究实验,具体实验设置可查看原论文

我们目前已经开源了论文中的模型,数据集和 QA 构造的代码,我们还在持续迭代中,欢迎使用!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
23分14助攻4断0失误!24分18板!火箭二少生涯之夜,KD超越乔丹

23分14助攻4断0失误!24分18板!火箭二少生涯之夜,KD超越乔丹

世界体育圈
2026-03-22 12:52:13
成都“牵手门”事件女主现今状况曝光,太惨了......

成都“牵手门”事件女主现今状况曝光,太惨了......

许三岁
2026-03-17 07:34:05
作妖的董洁,又让潘粤明崩溃了

作妖的董洁,又让潘粤明崩溃了

听风听你
2026-03-13 21:53:10
相亲时,女孩坦白自己有孩子,我刚要撤退,她却指着邻桌:我弟!

相亲时,女孩坦白自己有孩子,我刚要撤退,她却指着邻桌:我弟!

罪案洞察者
2026-03-21 09:25:36
惨!伊朗巴斯基裹纸皮睡大街、翻垃圾桶求生

惨!伊朗巴斯基裹纸皮睡大街、翻垃圾桶求生

老马拉车莫少装
2026-03-21 21:17:01
爸妈!真的不要再往马桶里倒水了!

爸妈!真的不要再往马桶里倒水了!

家居设计师宅哥
2026-03-08 18:21:44
刚从印度回国,谈谈一些可能让人不太舒服的真话,有些现实太扎心

刚从印度回国,谈谈一些可能让人不太舒服的真话,有些现实太扎心

复转这些年
2026-03-21 18:25:47
藏了22年!梅姨能躲过全网通缉,靠的根本不是运气!

藏了22年!梅姨能躲过全网通缉,靠的根本不是运气!

齐鲁州
2026-03-21 21:21:46
加媒:加拿大不列颠哥伦比亚省省长尹大卫将于今年晚些时候访华

加媒:加拿大不列颠哥伦比亚省省长尹大卫将于今年晚些时候访华

环球网资讯
2026-03-21 21:03:09
西贝焖面有趣一幕:超大砂锅里面只装着薄薄一层的面条

西贝焖面有趣一幕:超大砂锅里面只装着薄薄一层的面条

另子维爱读史
2026-03-20 19:34:33
天津女博主发布“征婚贴”,宣称想结婚!网友:估计是债务要暴雷

天津女博主发布“征婚贴”,宣称想结婚!网友:估计是债务要暴雷

火山詩话
2026-03-21 06:58:08
贺子珍多年后才知毛岸英牺牲真相,当场哭喊:那是我亲生儿子啊

贺子珍多年后才知毛岸英牺牲真相,当场哭喊:那是我亲生儿子啊

老杉说历史
2026-03-21 17:38:19
细节曝光!涉嫌走私172亿AI服务器!超微电脑联合创始人被捕!A股算力巨头一度跌停,火速澄清:与我们无关!

细节曝光!涉嫌走私172亿AI服务器!超微电脑联合创始人被捕!A股算力巨头一度跌停,火速澄清:与我们无关!

雪球
2026-03-22 11:52:45
3月使劲吃这菜,一助消化,二安神,三润肺,四健脾胃,错过可惜

3月使劲吃这菜,一助消化,二安神,三润肺,四健脾胃,错过可惜

阿龙美食记
2026-03-07 12:52:40
晚上睡前刷牙、刷牙后漱口,原来都错了?医生:很多人都在“无效刷牙”

晚上睡前刷牙、刷牙后漱口,原来都错了?医生:很多人都在“无效刷牙”

人民日报健康客户端
2026-03-19 20:23:09
终于知道采购吃回扣是怎么被发现的了,网友分享真实,太开眼了

终于知道采购吃回扣是怎么被发现的了,网友分享真实,太开眼了

夜深爱杂谈
2026-03-13 22:02:43
三线开战,国运被特朗普赌上了!美媒:中国有一项能力是世界第一

三线开战,国运被特朗普赌上了!美媒:中国有一项能力是世界第一

温读史
2026-03-22 13:16:32
亚朵,挤满偷偷开房的成年人

亚朵,挤满偷偷开房的成年人

广告案例精选
2025-10-03 15:00:51
今晚首播!央视年代剧《冬去春来》来了,主演阵容强,收视要爆

今晚首播!央视年代剧《冬去春来》来了,主演阵容强,收视要爆

小丸子的娱乐圈
2026-03-22 13:57:52
Netflix权谋历史剧,这尺度也太大了!

Netflix权谋历史剧,这尺度也太大了!

追剧九号厅
2026-03-22 13:47:46
2026-03-22 14:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12555文章数 142590关注度
往期回顾 全部

科技要闻

OpenAI开启“人海战术” 冲刺8000人规模

头条要闻

女子举报干部母亲名下有巨额财产被判道歉 当事人发声

头条要闻

女子举报干部母亲名下有巨额财产被判道歉 当事人发声

体育要闻

郑钦文两盘横扫前美网冠军 迎迈阿密站开门红

娱乐要闻

《澎湖海战》重启宣传 上映时间确定了

财经要闻

睡梦中欠债1.2万?这只“虾”杀疯了

汽车要闻

14.28万元起 吉利银河星耀8远航家开启预售

态度原创

旅游
健康
教育
数码
军事航空

旅游要闻

入境游不止于“游”:九部门联合发文促进旅行服务出口,覆盖文娱、赛事等消费场景

转头就晕的耳石症,能开车上班吗?

教育要闻

【投票1】认为三中今年的录取分数线是?

数码要闻

小米推出2026款REDMI电视新品:100英寸8799元

军事要闻

伊导弹击中以核设施附近 爆炸视频公布

无障碍浏览 进入关怀版