阿里巴巴未来生活实验室的研究团队针对多模态大模型视频推理痛点推出解决方案,相关论文已被ICLR 2026录用。
![]()
研究团队指出,数学推理与视频推理存在任务性质的根本差异,前者是纯文本空间的逻辑推导,后者需要在视觉内容与文本逻辑间反复穿梭验证,直接套用文本思维链易导致模型产生臆测与幻觉。
为解决这一问题,研究团队构建了高质量视频推理数据集ReWatch,并推出可像人类一样“回看”视频思考的SOTA模型ReWatch-R1。
ReWatch数据集包含1万条视频、17万组问答对和13.5万条思维链,针对现有训练数据视频描述粗糙、问答过于简单、思维链依赖文本常识而非视频内容的痛点,具备三大核心优势:一是通过分层字幕生成方法制作高保真时序字幕,为长视频生成带精确时间戳的详细事件描述;二是采用“摘要vs精读”对比生成策略与三层过滤机制打造高难度视频问答,确保问题需依赖视频细节解答;三是首创多智能体ReAct框架生成视频接地的思维链,通过“推理智能体”与“观察智能体”协作,记录“去视频哪里看”与“看到了什么”的推理轨迹。
在模型训练方面,研究团队采用SFT+RL范式,核心为带过程奖励的强化学习。该机制将推理过程拆解为视频+问题→观察+推理→答案,针对中间环节设置观察奖励与推理奖励:观察奖励将模型生成的观察结果与数据集中的高保真字幕比对,匹配度越高奖励越高;推理奖励验证模型能否仅凭自身观察结果推导出正确答案,以此抑制推理幻觉,让模型学会基于视频证据进行过程导向的思考。
实验结果显示,ReWatch-R1在五个主流视频推理基准上,平均性能显著超越所有同量级开源模型,取得SOTA成绩。研究团队还发现,监督微调阶段“思考模式”性能未能超越“直接回答”模式,而经过强化学习阶段后,“思考模式”性能实现飞跃,证明强化学习是释放模型思考潜力的关键。
该研究通过智能体合成数据方法解决了高质量视频推理数据稀缺的瓶颈,借助过程奖励强化学习教会模型基于视频证据深度思考,为高阶视频智能发展提供了可行路径。
市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。
本文源自:市场资讯
作者:观察君
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.