网易首页 > 网易号 > 正文 申请入驻

3B Image Captioning小钢炮重磅来袭,性能比肩Qwen2.5-VL-72B

0
分享至



邢龙和董潇逸为本篇文章共同第一作者。邢龙是中国科学技术大学博士生,师从林达华教授和吴枫教授,研究兴趣主要集中在 multi-modal LLMs 和 efficient AI。董潇逸是香港中文大学 MMLab 的博士后研究员,同时在上海人工智能实验室担任兼职顾问研究员,已在顶级会议和期刊(如 CVPR、ICCV、ECCV 等)上发表了 50 余篇论文,Google Scholar 上获得超过 10000 次引用。

今天推荐一个 Dense Image Captioning 的最新技术 —— CapRL (Captioning Reinforcement Learning)。CapRL 首次成功将 DeepSeek-R1 的强化学习方法应用到 image captioning 这种开放视觉任务,创新的以实用性重新定义 image captioning 的 reward。训练得到的 CapRL-3B 模型,可以成功达到与 Qwen2.5-VL-72B 相当的 captioning 水平!这是 image captioning 领域的一大进展,更是为 GRPO 策略应用于开放任务提供了重要思路!

目前 Huggingface model&dataset 总下载量已经突破 6k,并且正在迭代更强的基座模型以及升级 training recipe,欢迎使用!



  • 论文链接: https://arxiv.org/abs/2509.22647
  • 仓库链接: https://github.com/InternLM/CapRL
  • 模型链接: https://huggingface.co/internlm/CapRL-3B
  • 数据链接: https://huggingface.co/datasets/internlm/CapRL-2M



图 1. CapRL 解决了为 image captioning 这种主观任务设计 reward 的重大挑战,巧妙的以实用性定义了客观 verifiable reward,避免了使用 LVLM-as-a-Judge 带来的 reward hacking,显著提升了描述的质量

从 SFT captioner 到 RL captioner:

Reward 设计重大难点

Image Captioning 旨在为给定图像生成自然语言描述,弥合视觉与语言世界之间的鸿沟,是目前 ViT 训练以及 LVLM 预训练重要的训练语料。目前大多数 Image Captioning 模型都是基于 LVLMs 并采用监督微调(SFT)方法进行训练,但是这种训练方式有两大问题,数据方面依赖大量由人工或闭源模型标注的数据集,成本高昂且难以扩展,效果方面因为死记硬背的训练方式导致泛化与多样性不足。

SFT 的局限性促使研究者转向一种新的范式 —— 基于可验证奖励的强化学习(RLVR)。RLVR 这种训练范式在 visual grounding,detection 这种包含标准答案的视觉任务上已经得到广泛应用,然而,将 RLVR 应用于 Image Captioning 等开放性任务仍然非常具有挑战性,其关键在于如何设计一个客观可靠的 reward 函数。“什么是一个好的图片描述?”,这个问题带有很强的主观性,大家往往看法不一,同一张图片可能会存在多种不同的合理描述,这就给 verifiable reward 设计带来很大的困难。

现有的一些方法尝试使用奖励模型(reward models)或 LVLM-as-a-judge 来提供 reward,如图 1(a)所示,但是这种方法非常容易受到奖励欺骗(reward hacking)的影响。模型可能学会利用奖励模型的漏洞(偏好冗长或简短的输出形式)来获得更高分数,而非真正生成高质量的描述,这种不可靠的奖励信号很容易导致在 GRPO 训练过程中出现异常,图 1(c)中展示了训练过程中出现了 caption 过长以及过短的情况,最终导致模型的表现不及预期甚至出现训练崩溃。



图 2. CapRL 框架。 我们的 CapRL 采用了解耦的两阶段流程,首先 LVLM 生成图像描述,然后让一个 LLM 基于该图像描述回答视觉多选题,而 LLM 的回答准确率则作为 LVLM 的客观奖励信号

Reward 设计新思路:好的 caption 应当能让纯语言模型正确回答视觉问题

为了解决主观图像描述任务中 RLVR 奖励函数缺乏客观性的难题,我们提出了一种全新的视角:caption quality 与其实用性成正比。当图像描述足够详细且准确时,即使一个纯语言模型无法直接 “看到” 图像,也能回答与图像相关的视觉问答。例如图二中,对于问题 “图片里面谁在大笑?”,当描述中包含 “兔子警官 Judy 正在开怀大笑”,LLM 即可正确回答 “Judy”。

基于这一动机,我们提出了一个高效的两阶段解耦式训练框架,称为 CapRL(Captioning Reinforcement Learning)。在 CapRL 框架中,我们让一个纯语言模型根据 caption 去回答与原图像相关的多项选择题,LLM 的回答准确率即作为 RLVR 训练的客观奖励信号。基于 CapRL 训练之后,输出的描述如图 3 所示,会在准确率,细节覆盖等方面大幅度提升



图 3. CapRL 效果展示。Qwen2.5-VL-3B 经过 CapRL 训练之后描述的准确性更高,图片信息覆盖更全,含有更少幻觉。

CapRL 实验结果

我们对 CapRL 框架带来的优势进行了全面评估。

(i)我们使用 CapRL-3B 标注图片产生了 CapRL-5M 数据集,并在该数据集上对 LVLM 进行预训练,在全部 12 项基准测试中均取得了显著性能提升,与以往的 ShareGPT4V,DenseFusion dataset 的对比中展示出了巨大优势,效果如图 4 所示;(ii)此外,借助 Prism Framework 对描述质量进行直接的评估,我们观察到 CapRL-3B 的性能与 72B 模型相当,并在平均水平上超越基线模型 8.4%。



图 4. 使用不同预训练数据集的性能比较结果显示:CapRL-1M 在全部三个设置中均显著优于其他数据集,并且当数据规模扩展至 5M 时,模型性能进一步得到提升。



图 5. 在 Prism 框架下的图像描述能力对比中,CapRL-3B 的表现可与 Qwen2.5-VL-72B 相媲美,并且显著优于以 LVLM-as-a-Judge 作为奖励信号的现有方法。









图 6. 我们针对 CapRL 进行了丰富的探究实验,具体实验设置可查看原论文

我们目前已经开源了论文中的模型,数据集和 QA 构造的代码,我们还在持续迭代中,欢迎使用!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
制定“两制”台湾方案,努力实现和平统一,驻军是唯一选择

制定“两制”台湾方案,努力实现和平统一,驻军是唯一选择

荐史
2025-11-13 20:57:19
美军“堤丰”中导系统撤离日本 

美军“堤丰”中导系统撤离日本 

新华社
2025-11-17 21:45:41
X欲最强的星座,没有之一!

X欲最强的星座,没有之一!

同道大叔
2025-11-15 22:01:52
2.2亿遗产飞了!具俊晔不装了,拒赴鸿门宴,S妈彻底沦为“笑话”

2.2亿遗产飞了!具俊晔不装了,拒赴鸿门宴,S妈彻底沦为“笑话”

小杨侃事
2025-09-28 11:41:20
多名省部级干部职务调整:“70后”中候补任省委副书记,“最强地级市”迎新任一把手

多名省部级干部职务调整:“70后”中候补任省委副书记,“最强地级市”迎新任一把手

上观新闻
2025-11-17 16:48:31
日本专家:投降不是因为美国的原子弹,而是因为苏联发的1个公告

日本专家:投降不是因为美国的原子弹,而是因为苏联发的1个公告

寻途
2025-11-12 18:54:46
女排张常宁身高193,一身休闲装照片,看起来眉眼清秀,十分明亮

女排张常宁身高193,一身休闲装照片,看起来眉眼清秀,十分明亮

阿废冷眼观察所
2025-11-17 11:16:59
沈伯洋逃出台湾,国民党拒绝救人,郑丽文已通告全岛,蒋万安笑了

沈伯洋逃出台湾,国民党拒绝救人,郑丽文已通告全岛,蒋万安笑了

墨兰史书
2025-11-17 05:10:03
李施嬅官宣分手,入行22年有过五段感情,其中一旧爱与胡杏儿结婚

李施嬅官宣分手,入行22年有过五段感情,其中一旧爱与胡杏儿结婚

东方不败然多多
2025-11-17 16:00:43
无视中国警告!美军派B1B给高市早苗助威,却只能被歼20猎火鸡!

无视中国警告!美军派B1B给高市早苗助威,却只能被歼20猎火鸡!

古史青云啊
2025-11-17 21:45:11
全运会!女排4强名单出炉,河南惨败,朱婷出局后的举止令人感动

全运会!女排4强名单出炉,河南惨败,朱婷出局后的举止令人感动

知轩体育
2025-11-17 16:00:31
兑现承诺!民主刚果进入世界杯最后附加赛:每人获100万美金

兑现承诺!民主刚果进入世界杯最后附加赛:每人获100万美金

邱泽云
2025-11-17 15:29:50
将“候选”宣传为获得“广厦奖”,海口海府大院房屋渗漏遭质疑调查

将“候选”宣传为获得“广厦奖”,海口海府大院房屋渗漏遭质疑调查

海南地产界
2025-11-17 15:11:17
“快来逮捕我”,沈伯洋窜德发挑衅,不到24小时,大陆对其出重拳

“快来逮捕我”,沈伯洋窜德发挑衅,不到24小时,大陆对其出重拳

闻识
2025-11-17 18:30:36
又暴雷!48小时卷走129亿,200万会员血本无归,“传销巨头”凉了

又暴雷!48小时卷走129亿,200万会员血本无归,“传销巨头”凉了

墨印斋
2025-11-11 16:31:34
国际刑事法院爆出丑闻,被杜特尔特抓住了把柄,终于扳回了一局!

国际刑事法院爆出丑闻,被杜特尔特抓住了把柄,终于扳回了一局!

万国明信片
2025-11-17 14:41:42
沉默4天,郑丽文勇敢喊出一中,新党也发声促统,两岸在上海会谈

沉默4天,郑丽文勇敢喊出一中,新党也发声促统,两岸在上海会谈

小小科普员
2025-11-17 22:37:47
再也藏不住了,深扒之后才发现,原来陈梦和樊振东是'同病相怜'

再也藏不住了,深扒之后才发现,原来陈梦和樊振东是'同病相怜'

丁隗解说
2025-11-17 03:35:37
陈妤颉创今年亚洲第一+U18世界第一好成绩,成历史最具天赋非黑人

陈妤颉创今年亚洲第一+U18世界第一好成绩,成历史最具天赋非黑人

杨华评论
2025-11-17 22:19:51
哈登19秒9分!跟麦迪35秒13分和穆雷32秒12分相比,哪个难度大?

哈登19秒9分!跟麦迪35秒13分和穆雷32秒12分相比,哪个难度大?

大卫的篮球故事
2025-11-17 10:31:56
2025-11-18 00:32:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11737文章数 142506关注度
往期回顾 全部

科技要闻

京东外卖要“独立” 刘强东还宣战“点评”

头条要闻

韩国向日本表示强烈抗议 中方表态

头条要闻

韩国向日本表示强烈抗议 中方表态

体育要闻

当家球星受伤后,球迷乐翻了天?

娱乐要闻

金鸡奖是“照妖镜”,揭露人情冷暖?

财经要闻

高市早苗的算计,将让日本割肉5000亿

汽车要闻

新增CDC后变化大吗? 试驾特斯拉model Y L

态度原创

时尚
旅游
艺术
手机
亲子

王妃精致到发丝,王子直接变秃子

旅游要闻

三亚发布“四张清单” 全场景守护旅游旺季玩海安全

艺术要闻

这雪景,太美了!

手机要闻

华为Pura80 Pro更新鸿蒙6.0.112 SP22:不吐不快,说说真实感受

亲子要闻

表姐难产大出血病危,我守在产房外哭到发抖,她清醒后低声说句话

无障碍浏览 进入关怀版