网易首页 > 网易号 > 正文 申请入驻

让多模态模型学会主动说话:主动交互从训练到评估的完整方案

0
分享至



本文综合北京大学王选计算机研究所发布的 ProactiveVideoQA 和 MMDuet2 两篇论文,介绍视频多模态大模型如何实现 “主动交互”—— 在视频播放过程中自主决定何时发起回复,而非等待用户提问。ProactiveVideoQA 提出评估指标和 benchmark,MMDuet2 则通过强化学习训练方法实现了 SOTA 性能,无需精确的回复时间标注即可训练出及时、准确的主动交互模型。

MMDuet2: Enhancing Proactive Interaction of Video MLLMs with Multi-Turn Reinforcement Learning



  • 论文链接:https://www.arxiv.org/abs/2512.06810
  • 论文主页:https://github.com/yellow-binary-tree/MMDuet2

ProactiveVideoQA: A Comprehensive Benchmark Evaluating Proactive Interactions in Video Large Language Models



  • 论文链接:https://arxiv.org/abs/2507.09313
  • 论文主页:https://github.com/yellow-binary-tree/ProactiveVideoQA

背景:为什么视频模型需要 "主动交互"

想象这样一个场景:你正在使用一个基于多模态大模型的语音助手指导你做饭;对于大多数已有的多模态大模型,它只能在你提出问题后做出回复。也就是说,你在手忙脚乱地操作厨具的同时,还要一次一次地提问 “现在我该怎么做?”。但更理想的体验是,模型可以在看你操作的时候,不需要你给出指令,就主动提供讲解。



这就是 "主动交互"(Proactive Interaction)要解决的问题。如上图所示,与传统的离线交互(offline,先提供整个视频,然后基于视频内容展开对话)和在线交互(online,用户每次提问后模型回复)不同,主动交互要求模型自主决定何时回复,即能根据视频的进展自主选择合适的时机主动向用户提供信息。

这种能力对很多真实场景至关重要:例如直播管理、智能监控、第一人称视角助手等应用场景都需要模型能够主动、及时地响应视频中的关键事件。下面是 MMDuet2 模型在处理游戏直播时的一个例子:用户在视频开始时提出一个需要关注的事件(屏幕上出现表示游戏中重要事件的大字),每次这个事件发生时,MMDuet2 模型就会及时给出解释。



视频地址:https://mp.weixin.qq.com/s/pGnyUMZmBq0RBD0fAmlQ8A?click_id=36

但目前这个问题仍然没有受到足够的重视;虽然有一些工作训练的多模态大模型声称具备主动交互能力,他们也并没有对这种能力进行定量的评估。这背后反映的问题是:如何评估主动交互能力?如何训练主动交互能力?这两个基础问题一直缺乏系统性的解决方案。ProactiveVideoQA 和发表在 ICLR 2026 上的 MMDuet2 这两篇工作恰好构成了一个完整的方案:前者定义了问题和评估标准,后者提供了训练解决方案并达到了最佳性能。

ProactiveVideoQA:首个主动交互评估基准

ProactiveVideoQA 是首个专门评估视频多模态模型主动交互能力的综合基准测试。它的核心特征有三个:

1.多轮开放式问答:不同于大多数视频问答基准使用选择题,ProactiveVideoQA 要求模型生成多轮、完全开放的文本回复,更接近真实对话场景。

2.多样化的任务和多模态输入:ProactiveVideoQA 涵盖网络视频、第一人称视角、电视剧、监控视频四大类任务,整合文本、视频、语音多种模态,共 1377 个视频、1427 个问题。Benchmark 的数据示例如下图所示,每条数据含有一个问题和一个以上的答案,每个答案对应一个时间片段:



3.提出和回复时间相关的评估指标 PAUC:提出 Proactive Area Under Curve(PAUC)指标,通过绘制 “时间 - 质量” 曲线并计算曲线下面积来评估模型回复的及时性和准确性,而非仅评估文本内容。



PAUC 的计算方式如上图所示:受到人机交互领域中的用户旅程地图(User Journey Map)的启发,我们将模型在每个时间点的累积回复质量分数绘制成折线图,并计算折线下面积与最大可能面积的比值(蓝色面积与黄色面积 + 蓝色面积的比值):





关于这个指标为什么可以兼顾回复的及时性和准确性,下图有一个直观的几何解释:







MMDuet2:基于强化学习的主动交互训练方法

MMDuet2 是在 ProactiveVideoQA 基准上达到 SOTA 性能的支持主动交互的视频多模态模型。它的主要贡献包括:

1.高质量训练数据:构建了包含 52k 条视频的主动交互对话数据集,根据对话中问题个数的不同分为两种对话类型(1QnA 和 nQnA)。

2.训练和推理框架兼容性:基于 Qwen2.5-VL 模型,每个回复轮次输出回复内容或 "NO REPLY",无需额外模块或手动调整阈值,与主流训练 / 推理框架完全兼容。

3.多轮强化学习训练:提出基于 GRPO 的 RL 训练方法,通过精心设计的基于 PAUC 指标的复合奖励函数,在无需精确标注最佳回复时间的情况下训练模型生成及时、准确的回复。

主动交互训练数据集的构建

本文提出的主动交互对话数据集的构建流程如下:

1.场景分割与描述:将视频根据 scene 分成多个片段,为每个时间段生成详细的视频 caption。

2.QA 生成:用 LLM 根据所有片段的 caption 生成问题和一组答案(每个片段对应一个答案;如果某个片段中的视频无法回答问题,则认为答案是 "NO REPLY")。对于每个视频,我们用这种方式可以生成多个问题和多组答案。

3.对话构建:根据每个视频对应的多个问题和多组答案生成两种类型的对话:

  • 1QnA:视频开始时提出一个问题,模型需要在对应的时间段中给出对应的答案
  • nQnA:视频中多个随机时间点每个时间点提出一个问题;模型需要在问题提出时立刻给出前面已经经过的时间段对应的答案,并在接下来的每个时间段回复对应的答案,直到用户提出下一个问题为止。





纯文本 Chat Template

MMDuet2 使用了如下的 chat template 来表示主动交互的过程:



  • 首先,我们使用自定义的 system prompt 作为一个主动交互对话的开头。这不仅为模型提供了对话规则,还通过不同的 system prompt 来区分主动和离线视频任务。
  • user 输入一条消息,其中包括来自视频的少量(本文中为 1 或 2 帧)帧和可选的文本输入。
  • 在 assistant 的回合中,模型可以选择生成一些文本内容作为回复,或生成 "NO REPLY" 来表示它不想在这一轮中回复。
  • 随后,user 重新获得发言权并继续输入包含帧和可选的文本的消息。这个循环持续到视频中的所有帧都已被输入完成。

在这个 chat template 中,视频中每个 user 回合或 assistant 回合的时间点可以通过将此回合之前的帧数乘以帧之间的时间间隔来计算得出。例如,在每秒 1 帧的帧采样率下,上图中的对话表示用户在第 2 秒说 "What are the people doing in office?",模型在第 4 秒回复 "People are working...",在第 8 秒回复 "A reporter is speaking..."。

MMDuet2 的 SFT 和 RL 两阶段训练

MMDuet2 的训练分为两个阶段。在监督微调(SFT)阶段,模型基于 Qwen2.5-VL 3B 初始化,使用 52k 条主动交互对话数据进行训练,并混合 25k 离线视频 QA 和 25k 条 video captioning 数据以保持通用视频理解能力。为了避免模型产生幻觉,SFT 阶段我们将模型回复的时间点选为每个时间段的末尾,确保相关内容在回复前已经发生。整个 SFT 阶段在 16 张 H800 GPU 上训练 8 小时。

然而,纯监督学习存在明显的局限性:因为我们将模型回复的时间点选在了每个时间段的末尾,这导致模型学会了看到关键信息出现时不立刻回复相关内容而是等这段视频播放完了再说,这造成了一个我们并不想要的回复延迟。另外,由于 SFT 数据中模型输出 "NO REPLY" 的频率远高于输出有实际意义的回复内容的概率,这导致模型在测试时也更倾向于输出 "NO REPLY"。



通过这种方式,模型能够在无需精确时间标注的情况下学习到最优的回复时机。整个 RL 阶段用了 1900 个视频,在 8 张 H800 GPU 上训练 20 小时,最终在 ProactiveVideoQA 基准上达到了 SOTA 性能。



上图中在 ProactiveVideoQA 的 [WEB] [EGO] 子任务上的回复轮数统计显示,RL 训练后模型的回复次数明显提升,解决了 SFT 模型 "回复过少" 的问题。

实验结果

主动交互 benchmark 上的 SOTA 表现





上图中展示了在 StreamingBench Proactive Output 任务上的表现,以及 ProactiveVideoQA benchmark 上的 PAUC 指标和回复重复率。我们的 MMDuet2 模型达到最佳性能且明显降低回复重复率。

和本工作中使用强化学习引导模型学会回复时机判断相比,之前的主动交互模型 VideoLLM-Online 和 MMDuet 通过在每帧后预测代表回复概率的分数,并比较分数是否大于阈值来决定是否在该帧后插入回复。他们的做法的缺点是测试时很难找到合适的阈值,从而导致模型总是不回复或生成大量重复回复。

保持离线视频理解能力



在 Video-MME、MVBench、LongVideoBench 等离线基准上,MMDuet2 的性能与训练前的原模型 Qwen2.5-VL 基本持平,说明 SFT+RL 训练没有损害通用视频理解能力。

训练和推理阶段的帧采样密度影响

帧采样密度是影响主动交互体验的关键因素。本文在 SFT、RL 和推理三个阶段测试了不同的帧采样间距:



  • SFT 阶段:帧间距设为 1 秒时,模型会坍缩为每轮都输出 "NO REPLY",因为训练数据中不回复(即输出 "NO REPLY")的占比过高。因此后续实验中 SFT 使用 2 秒帧间距。
  • RL 阶段:不同帧间距对性能影响不大。
  • 推理阶段:将帧间距从 2 秒降至 1 秒带来显著性能提升。原因是更高的决策频率让模型能更早(提前 1 秒)感知到合适的回复时机,这对 PAUC 指标(尤其是 ground truth 回复时间段很短时)和用户体验都更有利。

这一发现表明 MMDuet2 在 RL 阶段对不同帧采样策略具有良好的鲁棒性,且在推理时使用更密集的帧采样能显著改善交互体验。

总结与展望

MMDuet2 和 ProactiveVideoQA 共同构建了视频多模态模型主动交互的完整解决方案:

  • ProactiveVideoQA提出了 PAUC 评估指标,提供了测试 benchmark
  • MMDuet2通过无需精确时间标注的 RL 方法解决了训练问题,构建了训练数据,达到了 SOTA 性能。

对多模态大模型主动交互能力的关注和探索代表了我们关注从 “用户驱动” 到 “AI 主动” 的多模态大模型使用范式的转变。本文主要关注通用领域的视频问答和对话场景,未来我们希望通过构建特定领域的训练数据的方式将主动交互技术扩展到更多实际应用场景中。

作者介绍

本工作的第一作者为北京大学王选计算机研究所博士研究生王越千,研究方向为多模态大模型,尤其是视频对话、视频问答、多模态强化学习。

导师为王选计算机研究所助理教授张辉帅、研究员赵东岩。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“爸妈,我开辅助驾驶,你们放心”:一家三口全死了,智驾1分钟

“爸妈,我开辅助驾驶,你们放心”:一家三口全死了,智驾1分钟

江山挥笔
2026-06-02 18:47:02
突发!黄仁勋拿下宇树科技

突发!黄仁勋拿下宇树科技

李东阳朋友圈
2026-06-02 13:43:42
形势到底有多严峻?国人心心念念的特斯拉竟会裁员,评论区炸锅…

形势到底有多严峻?国人心心念念的特斯拉竟会裁员,评论区炸锅…

慧翔百科
2026-06-02 08:27:57
收拾完菲日,中方代表离开香会,不到24小时,南部战区亮剑黄岩岛

收拾完菲日,中方代表离开香会,不到24小时,南部战区亮剑黄岩岛

流史岁月
2026-06-02 19:40:03
男子自驾青海失联9个月,家属再赴事发地寻找 救援人员计划向牧民发寻人信息寻找目击者

男子自驾青海失联9个月,家属再赴事发地寻找 救援人员计划向牧民发寻人信息寻找目击者

红星新闻
2026-06-02 17:40:41
女员工嘲讽顾客“穷逛”后续:本人火到香港已社死,商场也被坑惨

女员工嘲讽顾客“穷逛”后续:本人火到香港已社死,商场也被坑惨

哄动一时啊
2026-06-01 19:30:38
离谱!早高峰,京藏高速加油站,3分钟36辆车驶入仅1车加油,35车“借道加塞”……

离谱!早高峰,京藏高速加油站,3分钟36辆车驶入仅1车加油,35车“借道加塞”……

91.6陕西交通广播
2026-06-02 10:58:00
国乒完成新老交替!王皓宣布王楚钦任男队队长,马龙结束12年任期

国乒完成新老交替!王皓宣布王楚钦任男队队长,马龙结束12年任期

乒谈
2026-06-02 20:49:37
零跑汽车爆卖80000台,打脸全行业

零跑汽车爆卖80000台,打脸全行业

科技头版Pro
2026-06-02 14:54:41
被特朗普怒斥后内塔尼亚胡强硬表态

被特朗普怒斥后内塔尼亚胡强硬表态

财联社
2026-06-02 17:14:20
开启智驾40秒后撞上半挂!一家三口当场殒命。长安承认没激光雷达

开启智驾40秒后撞上半挂!一家三口当场殒命。长安承认没激光雷达

听心堂
2026-06-02 10:48:19
上海丢G4现最大弊端!体能问题开始影响攻守,G5或成关键战!

上海丢G4现最大弊端!体能问题开始影响攻守,G5或成关键战!

篮球资讯达人
2026-06-02 22:17:45
美伊临时停火以来 最戏剧化的一天

美伊临时停火以来 最戏剧化的一天

看看新闻Knews
2026-06-02 18:32:59
孙正义重登亚洲首富,旗下软银超越丰田成日本市值第一公司

孙正义重登亚洲首富,旗下软银超越丰田成日本市值第一公司

界面新闻
2026-06-02 21:51:57
学历大放水!清华一年毕业3000多博士,比哈佛耶鲁等五所世界名校加起来多出30%

学历大放水!清华一年毕业3000多博士,比哈佛耶鲁等五所世界名校加起来多出30%

爆角追踪
2026-06-02 22:12:58
12国掀桌子,全面限制原矿出口,中企没有退路,只剩一条路可以走

12国掀桌子,全面限制原矿出口,中企没有退路,只剩一条路可以走

影孖看世界
2026-06-01 23:20:57
躺赢!孙铭徽重回替补总决赛第2次0分 受困伤病下半场惨遭弃用

躺赢!孙铭徽重回替补总决赛第2次0分 受困伤病下半场惨遭弃用

醉卧浮生
2026-06-02 21:41:19
“你儿子已经黑棘皮了”,家长晒半夜吃生西葫芦,过来人无奈提醒

“你儿子已经黑棘皮了”,家长晒半夜吃生西葫芦,过来人无奈提醒

熙熙说教
2026-06-02 19:10:18
杭州限狗令正式落地,养狗人月花上千,凭什么让不养狗的人买单?

杭州限狗令正式落地,养狗人月花上千,凭什么让不养狗的人买单?

奇思妙想草叶君
2026-06-01 19:40:34
口交、肛交等进入式性服务是卖淫行为吗?最高院定调了!

口交、肛交等进入式性服务是卖淫行为吗?最高院定调了!

黯泉
2026-06-02 11:54:54
2026-06-02 23:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13151文章数 142660关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

小学教师疑因打井纠纷杀害邻居 死者留下两未成年儿子

头条要闻

小学教师疑因打井纠纷杀害邻居 死者留下两未成年儿子

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

家居
房产
游戏
亲子
教育

家居要闻

流线型轮廓 包容多元身形

房产要闻

5200巨量投资曝光!未来五年,海南格局大变!

黑神话后遗症!海外玩家见中式动作一律默认悟空新作

亲子要闻

进口针一支1.7万,年生长11厘米,国人怒了

教育要闻

逐梦盛夏 全城护航 | 冲刺高考政治:把握命题新导向 精准发力稳拿分

无障碍浏览 进入关怀版