网易首页 > 网易号 > 正文 申请入驻

北航开源,小尺寸模型在通用视频问答数据上也能复现Aha Moment!

0
分享至

当前,基于强化学习提升多模态模型的推理能力已经取得一定的进展。但大多研究者们选择 7B+ 的模型作为基座,这对于许多资源有限的科研人员而言仍存在显著的门槛。

同时,在视频推理领域,由于高质量强推理性数据较为稀少,通用问答数据较难激发模型的深层次逻辑推理能力,因此先前一些初步尝试的效果大多不尽如人意。

近日,北京航空航天大学的研究团队推出小尺寸视频推理模型TinyLLaVA-Video-R1,其模型权重、代码以及训练数据全部开源!

该工作验证了小尺寸模型在通用问答数据集上进行强化学习也能有不错的效果,与使用相同数据进行监督微调的模型相比,TinyLLaVA-Video-R1 在多个 benchmark 上都有性能提升。同时,模型还能在训练与测试的过程中多次展现自我反思与回溯行为!

  • 论文标题:TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning
  • 论文地址:https://arxiv.org/abs/2504.09641
  • Github:https://github.com/ZhangXJ199/TinyLLaVA-Video-R1

在推特上,HuggingFace AK 也连续两次转发推荐了这篇文章:

为什么选择 TinyLLaVA-Video 作为 Base Model?

图表 1 TinyLLaVA-Video 整体框架

虽然现有的开源视频理解模型基座具有强大的理解与感知能力,但由于其训练数据不透明,使用开源视频数据进行后训练可能会引入不可控的变量,从而影响实验结果和结论的可靠性。

因此,北航团队选择训练过程完全可溯源的 TinyLLaVA-Video 作为 Base Model,该模型采用 Qwen2.5-3B 作为语言模型,SigLIP 作为视觉编码器。虽然 TinyLLaVA-Video 仅有 3.6B 的参数,且在预训练阶段为了控制训练时长并未使用大量数据,但其仍能在多个 Benchmark 上能够优于现有的多个 7B+ 模型。

TinyLLaVA-Video-R1 主要做了什么?

引入少量人工标注的高质量冷启动数据

该工作发现,受限于小尺寸模型的能力,当直接使用 TinyLLaVA-Video 作为基础模型,随着训练的进行,模型有一定的概率学会「偷懒」,所有的响应虽然符合格式要求,但并不给出思考过程,响应均为 ,同时在 Qwen2-VL-2B 上进行实验也得到相似的实验现象。

option

而当使用人工标注的 16 条 CoT 数据为模型进行冷启动后,在实验的过程中就不再出现这样的现象,同时,模型也将更快学会遵守格式要求。因此该工作认为,冷启动对于小尺寸模型推理是必要的,即使是极少量的冷启动数据,对于稳定模型训练也是很有帮助的。

引入长度奖励与答案错误惩罚

现有的许多推理工作仅仅设置格式奖励而没有添加长度奖励,但受限于小尺寸语言模型的能力,在这种设置下进行训练并不会使模型的响应长度增加,甚至出现一点下降。

在引入连续长度奖励后,模型的响应长度在训练过程中显著增加,如图所示。然而在这种设置下,模型为了增加响应长度而进行了一些无意义的推理,这不仅没有提高性能,反而导致训练时间显著增加。

因此,TinyLLaVA-Video-R1 进一步将答案错误惩罚纳入总奖励,观察到模型响应的质量有所提升,并且在整个训练过程中输出长度和奖励也能够保持增长。

为 GRPO 的优势计算引入微小噪声

同时,TinyLLaVA-Video-R1 在实验中也观察到了优势消失的问题:当集合中的所有响应都是正确的,并且给予相同的奖励时,它们计算出的优势会消失到零。这一现象影响了策略更新,降低了样本效率。为了最大化对每个样本的利用,TinyLLaVA-Video-R1 在优势计算时引入了额外的高斯噪声,尽管这种噪声仅引起轻微的扰动,但它能够确保组内响应优势的多样性。

实验结果

首先,TinyLLaVA-Video-R1 验证了使用强化学习能够明显提升模型性能,与使用相同数据进行监督微调的 TinyLLaVA-Video-SFT 相比,TinyLLaVA-Video-R1 在多个 benchmark 中均有更佳的表现。

同时,TinyLLaVA-Video-R1 能够理解和分析视频内容,逐步评估每个选项,并最终给出答案。与仅输出最终答案的模型相比,该模型能够生成有意义的思考过程,使其回答更加可解释且有价值。这也是视频推理模型相对于传统视频理解模型的重要提升与优势。

与其他使用强化学习提升模型推理能力的工作相似,北航团队也在 TinyLLaVA-Video-R1 上复现了「Aha Moment」,即模型在思考的过程中引发紧急验证等行为。实验结果也验证了,即使使用弱推理的通用视频数据对小尺寸模型进行训练,也能够引发模型的回溯与自我反思。

后续,北航团队也将进一步研究小尺寸视频推理模型,未来工作将包括引入高质量视频推理数据与强化学习算法改进。

同时,TinyLLaVA 系列项目也始终致力于在有限计算资源下研究小尺寸模型的训练与设计空间,坚持完全开源原则,完整公开模型权重、源代码及训练数据,为资源有限的研究者们理解与探索多模态模型提供平台。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

复转这些年
2026-03-26 09:26:17
晚清首富盛宣怀:家有两女佣,一个生了宋美龄,另一个生了赵一荻

晚清首富盛宣怀:家有两女佣,一个生了宋美龄,另一个生了赵一荻

曹焋解说
2026-03-20 21:05:34
著名学者、顶尖大学教授、千万粉丝经济学家巴曙松疑涉非法集资案 被办案机关带走:一辈子搭桥

著名学者、顶尖大学教授、千万粉丝经济学家巴曙松疑涉非法集资案 被办案机关带走:一辈子搭桥

新浪财经
2026-03-26 20:40:02
伊朗媒体:伊朗或在曼德海峡开辟新战线

伊朗媒体:伊朗或在曼德海峡开辟新战线

新京报
2026-03-26 07:20:20
75年春节,蒋介石带病给毛主席发电报,电报中提到了自己最后心愿

75年春节,蒋介石带病给毛主席发电报,电报中提到了自己最后心愿

芳芳历史烩
2026-03-26 15:04:03
纽卡斯尔5年了,几乎一无所获!如果是穆帅执教,绝无可能!

纽卡斯尔5年了,几乎一无所获!如果是穆帅执教,绝无可能!

福酱的小时光
2026-03-27 00:03:20
这就是钱学森后人真实的样貌,女儿定居美国,儿子长孙精忠报国!

这就是钱学森后人真实的样貌,女儿定居美国,儿子长孙精忠报国!

旧史新谭
2026-03-25 13:15:22
上映4天,仅3个观众,总票房104元,2026年最惨电影诞生

上映4天,仅3个观众,总票房104元,2026年最惨电影诞生

错过美好
2026-03-24 23:41:07
送走马蓉又来冯清,43岁的"老实人"王宝强,还是没逃出"女人圈"

送走马蓉又来冯清,43岁的"老实人"王宝强,还是没逃出"女人圈"

趣知史馆
2026-03-10 20:20:03
如今的黄金价格成了一个天大的笑话:买黄金可笑到什么程度?

如今的黄金价格成了一个天大的笑话:买黄金可笑到什么程度?

激情与荣耀并存
2026-03-27 03:48:19
真实的GDP数据,让印度有些尴尬!看来,尬吹实在吹不动了!

真实的GDP数据,让印度有些尴尬!看来,尬吹实在吹不动了!

小陆搞笑日常
2026-03-26 08:01:19
中国禁止AI公司Manus两名高管离境?外交部回应

中国禁止AI公司Manus两名高管离境?外交部回应

澎湃新闻
2026-03-26 15:36:31
宋喆直播卖枣笑塌全网!百万流量零成交,满屏王宝强弹幕扎心到爆

宋喆直播卖枣笑塌全网!百万流量零成交,满屏王宝强弹幕扎心到爆

誮惜颜a
2026-01-13 01:12:10
小佩顿已连续命中16球!勇士队史纪录为张伯伦的连中19球

小佩顿已连续命中16球!勇士队史纪录为张伯伦的连中19球

北青网-北京青年报
2026-03-26 20:51:05
旧手机回收价狂涨五六倍!回收商:开不了机的照样高价收

旧手机回收价狂涨五六倍!回收商:开不了机的照样高价收

快科技
2026-03-25 14:53:24
余承东正式宣布问界M6订单超6万台后,一个奇怪的现象就出现了

余承东正式宣布问界M6订单超6万台后,一个奇怪的现象就出现了

春雨说科技
2026-03-26 14:46:46
1955年授衔,11位国军起义将领,都授什么军衔?

1955年授衔,11位国军起义将领,都授什么军衔?

幽州校尉
2026-03-04 07:25:03
徐州女孩远嫁天水,婚姻不幸身患重病,42岁去世!网友:不要远嫁

徐州女孩远嫁天水,婚姻不幸身患重病,42岁去世!网友:不要远嫁

火山詩话
2026-03-27 06:47:18
新加坡预测:印度将赶中超美!美印争世界老大,中国将成新阿三

新加坡预测:印度将赶中超美!美印争世界老大,中国将成新阿三

荷兰豆爱健康
2026-03-26 08:26:08
450亿颗芯片悬空!荷兰突然宣布光刻机决定,欧媒:一切都结束了

450亿颗芯片悬空!荷兰突然宣布光刻机决定,欧媒:一切都结束了

小涛叨叨
2026-03-25 17:12:14
2026-03-27 08:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142595关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普再表态:伊朗必须达成协议 否则将面临猛烈攻势

头条要闻

特朗普再表态:伊朗必须达成协议 否则将面临猛烈攻势

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
数码
手机
本地
教育

艺术要闻

最美花卉图谱!记住后保你啥花都认识!

数码要闻

8.8英寸天玑9500小钢炮!REDMI K Pad 2入网:下月见

手机要闻

三星阔折叠渲染图曝光,Galaxy Z Fold 8宽屏版

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

教育要闻

健康第一理念下,校长管理的智慧:有所为,有所不为

无障碍浏览 进入关怀版