网易首页 > 网易号 > 正文 申请入驻

让多模态模型学会主动说话:主动交互从训练到评估的完整方案

0
分享至



本文综合北京大学王选计算机研究所发布的 ProactiveVideoQA 和 MMDuet2 两篇论文,介绍视频多模态大模型如何实现 “主动交互”—— 在视频播放过程中自主决定何时发起回复,而非等待用户提问。ProactiveVideoQA 提出评估指标和 benchmark,MMDuet2 则通过强化学习训练方法实现了 SOTA 性能,无需精确的回复时间标注即可训练出及时、准确的主动交互模型。

MMDuet2: Enhancing Proactive Interaction of Video MLLMs with Multi-Turn Reinforcement Learning



  • 论文链接:https://www.arxiv.org/abs/2512.06810
  • 论文主页:https://github.com/yellow-binary-tree/MMDuet2

ProactiveVideoQA: A Comprehensive Benchmark Evaluating Proactive Interactions in Video Large Language Models



  • 论文链接:https://arxiv.org/abs/2507.09313
  • 论文主页:https://github.com/yellow-binary-tree/ProactiveVideoQA

背景:为什么视频模型需要 "主动交互"

想象这样一个场景:你正在使用一个基于多模态大模型的语音助手指导你做饭;对于大多数已有的多模态大模型,它只能在你提出问题后做出回复。也就是说,你在手忙脚乱地操作厨具的同时,还要一次一次地提问 “现在我该怎么做?”。但更理想的体验是,模型可以在看你操作的时候,不需要你给出指令,就主动提供讲解。



这就是 "主动交互"(Proactive Interaction)要解决的问题。如上图所示,与传统的离线交互(offline,先提供整个视频,然后基于视频内容展开对话)和在线交互(online,用户每次提问后模型回复)不同,主动交互要求模型自主决定何时回复,即能根据视频的进展自主选择合适的时机主动向用户提供信息。

这种能力对很多真实场景至关重要:例如直播管理、智能监控、第一人称视角助手等应用场景都需要模型能够主动、及时地响应视频中的关键事件。下面是 MMDuet2 模型在处理游戏直播时的一个例子:用户在视频开始时提出一个需要关注的事件(屏幕上出现表示游戏中重要事件的大字),每次这个事件发生时,MMDuet2 模型就会及时给出解释。



视频地址:https://mp.weixin.qq.com/s/pGnyUMZmBq0RBD0fAmlQ8A?click_id=36

但目前这个问题仍然没有受到足够的重视;虽然有一些工作训练的多模态大模型声称具备主动交互能力,他们也并没有对这种能力进行定量的评估。这背后反映的问题是:如何评估主动交互能力?如何训练主动交互能力?这两个基础问题一直缺乏系统性的解决方案。ProactiveVideoQA 和发表在 ICLR 2026 上的 MMDuet2 这两篇工作恰好构成了一个完整的方案:前者定义了问题和评估标准,后者提供了训练解决方案并达到了最佳性能。

ProactiveVideoQA:首个主动交互评估基准

ProactiveVideoQA 是首个专门评估视频多模态模型主动交互能力的综合基准测试。它的核心特征有三个:

1.多轮开放式问答:不同于大多数视频问答基准使用选择题,ProactiveVideoQA 要求模型生成多轮、完全开放的文本回复,更接近真实对话场景。

2.多样化的任务和多模态输入:ProactiveVideoQA 涵盖网络视频、第一人称视角、电视剧、监控视频四大类任务,整合文本、视频、语音多种模态,共 1377 个视频、1427 个问题。Benchmark 的数据示例如下图所示,每条数据含有一个问题和一个以上的答案,每个答案对应一个时间片段:



3.提出和回复时间相关的评估指标 PAUC:提出 Proactive Area Under Curve(PAUC)指标,通过绘制 “时间 - 质量” 曲线并计算曲线下面积来评估模型回复的及时性和准确性,而非仅评估文本内容。



PAUC 的计算方式如上图所示:受到人机交互领域中的用户旅程地图(User Journey Map)的启发,我们将模型在每个时间点的累积回复质量分数绘制成折线图,并计算折线下面积与最大可能面积的比值(蓝色面积与黄色面积 + 蓝色面积的比值):





关于这个指标为什么可以兼顾回复的及时性和准确性,下图有一个直观的几何解释:







MMDuet2:基于强化学习的主动交互训练方法

MMDuet2 是在 ProactiveVideoQA 基准上达到 SOTA 性能的支持主动交互的视频多模态模型。它的主要贡献包括:

1.高质量训练数据:构建了包含 52k 条视频的主动交互对话数据集,根据对话中问题个数的不同分为两种对话类型(1QnA 和 nQnA)。

2.训练和推理框架兼容性:基于 Qwen2.5-VL 模型,每个回复轮次输出回复内容或 "NO REPLY",无需额外模块或手动调整阈值,与主流训练 / 推理框架完全兼容。

3.多轮强化学习训练:提出基于 GRPO 的 RL 训练方法,通过精心设计的基于 PAUC 指标的复合奖励函数,在无需精确标注最佳回复时间的情况下训练模型生成及时、准确的回复。

主动交互训练数据集的构建

本文提出的主动交互对话数据集的构建流程如下:

1.场景分割与描述:将视频根据 scene 分成多个片段,为每个时间段生成详细的视频 caption。

2.QA 生成:用 LLM 根据所有片段的 caption 生成问题和一组答案(每个片段对应一个答案;如果某个片段中的视频无法回答问题,则认为答案是 "NO REPLY")。对于每个视频,我们用这种方式可以生成多个问题和多组答案。

3.对话构建:根据每个视频对应的多个问题和多组答案生成两种类型的对话:

  • 1QnA:视频开始时提出一个问题,模型需要在对应的时间段中给出对应的答案
  • nQnA:视频中多个随机时间点每个时间点提出一个问题;模型需要在问题提出时立刻给出前面已经经过的时间段对应的答案,并在接下来的每个时间段回复对应的答案,直到用户提出下一个问题为止。





纯文本 Chat Template

MMDuet2 使用了如下的 chat template 来表示主动交互的过程:



  • 首先,我们使用自定义的 system prompt 作为一个主动交互对话的开头。这不仅为模型提供了对话规则,还通过不同的 system prompt 来区分主动和离线视频任务。
  • user 输入一条消息,其中包括来自视频的少量(本文中为 1 或 2 帧)帧和可选的文本输入。
  • 在 assistant 的回合中,模型可以选择生成一些文本内容作为回复,或生成 "NO REPLY" 来表示它不想在这一轮中回复。
  • 随后,user 重新获得发言权并继续输入包含帧和可选的文本的消息。这个循环持续到视频中的所有帧都已被输入完成。

在这个 chat template 中,视频中每个 user 回合或 assistant 回合的时间点可以通过将此回合之前的帧数乘以帧之间的时间间隔来计算得出。例如,在每秒 1 帧的帧采样率下,上图中的对话表示用户在第 2 秒说 "What are the people doing in office?",模型在第 4 秒回复 "People are working...",在第 8 秒回复 "A reporter is speaking..."。

MMDuet2 的 SFT 和 RL 两阶段训练

MMDuet2 的训练分为两个阶段。在监督微调(SFT)阶段,模型基于 Qwen2.5-VL 3B 初始化,使用 52k 条主动交互对话数据进行训练,并混合 25k 离线视频 QA 和 25k 条 video captioning 数据以保持通用视频理解能力。为了避免模型产生幻觉,SFT 阶段我们将模型回复的时间点选为每个时间段的末尾,确保相关内容在回复前已经发生。整个 SFT 阶段在 16 张 H800 GPU 上训练 8 小时。

然而,纯监督学习存在明显的局限性:因为我们将模型回复的时间点选在了每个时间段的末尾,这导致模型学会了看到关键信息出现时不立刻回复相关内容而是等这段视频播放完了再说,这造成了一个我们并不想要的回复延迟。另外,由于 SFT 数据中模型输出 "NO REPLY" 的频率远高于输出有实际意义的回复内容的概率,这导致模型在测试时也更倾向于输出 "NO REPLY"。



通过这种方式,模型能够在无需精确时间标注的情况下学习到最优的回复时机。整个 RL 阶段用了 1900 个视频,在 8 张 H800 GPU 上训练 20 小时,最终在 ProactiveVideoQA 基准上达到了 SOTA 性能。



上图中在 ProactiveVideoQA 的 [WEB] [EGO] 子任务上的回复轮数统计显示,RL 训练后模型的回复次数明显提升,解决了 SFT 模型 "回复过少" 的问题。

实验结果

主动交互 benchmark 上的 SOTA 表现





上图中展示了在 StreamingBench Proactive Output 任务上的表现,以及 ProactiveVideoQA benchmark 上的 PAUC 指标和回复重复率。我们的 MMDuet2 模型达到最佳性能且明显降低回复重复率。

和本工作中使用强化学习引导模型学会回复时机判断相比,之前的主动交互模型 VideoLLM-Online 和 MMDuet 通过在每帧后预测代表回复概率的分数,并比较分数是否大于阈值来决定是否在该帧后插入回复。他们的做法的缺点是测试时很难找到合适的阈值,从而导致模型总是不回复或生成大量重复回复。

保持离线视频理解能力



在 Video-MME、MVBench、LongVideoBench 等离线基准上,MMDuet2 的性能与训练前的原模型 Qwen2.5-VL 基本持平,说明 SFT+RL 训练没有损害通用视频理解能力。

训练和推理阶段的帧采样密度影响

帧采样密度是影响主动交互体验的关键因素。本文在 SFT、RL 和推理三个阶段测试了不同的帧采样间距:



  • SFT 阶段:帧间距设为 1 秒时,模型会坍缩为每轮都输出 "NO REPLY",因为训练数据中不回复(即输出 "NO REPLY")的占比过高。因此后续实验中 SFT 使用 2 秒帧间距。
  • RL 阶段:不同帧间距对性能影响不大。
  • 推理阶段:将帧间距从 2 秒降至 1 秒带来显著性能提升。原因是更高的决策频率让模型能更早(提前 1 秒)感知到合适的回复时机,这对 PAUC 指标(尤其是 ground truth 回复时间段很短时)和用户体验都更有利。

这一发现表明 MMDuet2 在 RL 阶段对不同帧采样策略具有良好的鲁棒性,且在推理时使用更密集的帧采样能显著改善交互体验。

总结与展望

MMDuet2 和 ProactiveVideoQA 共同构建了视频多模态模型主动交互的完整解决方案:

  • ProactiveVideoQA提出了 PAUC 评估指标,提供了测试 benchmark
  • MMDuet2通过无需精确时间标注的 RL 方法解决了训练问题,构建了训练数据,达到了 SOTA 性能。

对多模态大模型主动交互能力的关注和探索代表了我们关注从 “用户驱动” 到 “AI 主动” 的多模态大模型使用范式的转变。本文主要关注通用领域的视频问答和对话场景,未来我们希望通过构建特定领域的训练数据的方式将主动交互技术扩展到更多实际应用场景中。

作者介绍

本工作的第一作者为北京大学王选计算机研究所博士研究生王越千,研究方向为多模态大模型,尤其是视频对话、视频问答、多模态强化学习。

导师为王选计算机研究所助理教授张辉帅、研究员赵东岩。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
排名继续下滑!郑钦文跌至世界第30,下周将丢掉金花一姐之位

排名继续下滑!郑钦文跌至世界第30,下周将丢掉金花一姐之位

全景体育V
2026-03-30 08:17:45
巴基斯坦、土耳其、埃及和沙特阿拉伯四国外长举行会谈

巴基斯坦、土耳其、埃及和沙特阿拉伯四国外长举行会谈

澎湃新闻
2026-03-30 00:58:07
注意:家里这8样东西是“玻璃纤维品”,一旦坏了赶紧扔掉!

注意:家里这8样东西是“玻璃纤维品”,一旦坏了赶紧扔掉!

抠搜侠
2026-03-29 14:10:03
1982年血色使馆:中国外交官唐健生为了生存杀光了所有同事

1982年血色使馆:中国外交官唐健生为了生存杀光了所有同事

阿校谈史
2026-03-20 11:03:27
吴京新片对标好莱坞大片,成本高达7亿,票房将超越《战狼2》

吴京新片对标好莱坞大片,成本高达7亿,票房将超越《战狼2》

影视高原说
2026-03-30 18:44:46
焕新Model Y车主:统一刷表显是认真的吗?看来电池管理没那么严谨

焕新Model Y车主:统一刷表显是认真的吗?看来电池管理没那么严谨

华庭讲美食
2026-03-30 06:32:46
交通银行北京市分行行长人选落定 零售女将王冠正式履新

交通银行北京市分行行长人选落定 零售女将王冠正式履新

21金融圈
2026-03-30 13:00:43
当不成总统了?美国迎三大噩耗,百万人逼宫,他承认对中国上头了

当不成总统了?美国迎三大噩耗,百万人逼宫,他承认对中国上头了

知法而形
2026-03-29 11:53:37
肠道推粪机已揭晓,香蕉未上榜,医生建议多吃,大肚腩或消失

肠道推粪机已揭晓,香蕉未上榜,医生建议多吃,大肚腩或消失

今日养生之道
2026-03-28 16:51:49
台湾拦不住!大陆官宣定调:厦金大桥照常施工,直通金门一步到位

台湾拦不住!大陆官宣定调:厦金大桥照常施工,直通金门一步到位

安珈使者啊
2026-03-29 09:55:55
坐实了!南京,最成功的省会,没有之一

坐实了!南京,最成功的省会,没有之一

城市财经
2026-03-28 11:48:40
江苏沸腾了!这两大重点工程迎来新进展↓

江苏沸腾了!这两大重点工程迎来新进展↓

荷兰豆爱健康
2026-03-30 16:30:13
低价新股来了,就在今日!中签率或较高

低价新股来了,就在今日!中签率或较高

证券时报
2026-03-30 08:14:05
猪肝再次成为关注对象!医生发现:常吃猪肝,可能会收获4大好处

猪肝再次成为关注对象!医生发现:常吃猪肝,可能会收获4大好处

摇感军事
2025-11-30 18:57:30
张雪峰换帅背后:狠人武亮杀出重围,全网唱衰终被实力打脸

张雪峰换帅背后:狠人武亮杀出重围,全网唱衰终被实力打脸

一口娱乐
2026-03-30 14:47:29
张雪峰去世仅三天,女儿再也忍不住了:爸爸曾偷偷睡在会议桌上

张雪峰去世仅三天,女儿再也忍不住了:爸爸曾偷偷睡在会议桌上

潮鹿逐梦
2026-03-27 20:16:27
伊朗为什么不启用内贾德?

伊朗为什么不启用内贾德?

可乐谈情感
2026-03-29 19:57:09
女生要主动起来跟想象中完全不一样!网友:让我递毛巾 瞬间开窍了

女生要主动起来跟想象中完全不一样!网友:让我递毛巾 瞬间开窍了

另子维爱读史
2026-01-26 18:39:06
【列国鉴】记者观察:伊朗战事持续一月,特朗普政府陷入四重困境

【列国鉴】记者观察:伊朗战事持续一月,特朗普政府陷入四重困境

新华社
2026-03-29 13:47:07
比赌博还可怕!这5个“有去无回”的烧钱行业,普通人千万别碰

比赌博还可怕!这5个“有去无回”的烧钱行业,普通人千万别碰

鲸探所长
2026-03-17 17:12:45
2026-03-30 19:47:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12640文章数 142599关注度
往期回顾 全部

科技要闻

一句谎言引发的硅谷血案

头条要闻

河南女子举报母亲去世后被结婚 官方通报

头条要闻

河南女子举报母亲去世后被结婚 官方通报

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

单依纯凌晨发长文道歉!李荣浩再回应

财经要闻

本轮地缘冲突,A股凭什么走出独立行情

汽车要闻

理想i9要来了!外形似小号MEGA 能冲击高端纯电市场?

态度原创

亲子
房产
本地
公开课
军事航空

亲子要闻

儿科医生提醒,这些药千万不要混着吃!

房产要闻

重磅!番禺20宗涉宅地亮相,万博CBD宅地将上新!

本地新闻

用Color Walk的方式解锁城市春日

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

第三艘航母出动数千名士兵抵达 美军大举增兵中东战场

无障碍浏览 进入关怀版