大多数视频推理模型只能用文字描述自己的思考过程,却无法告诉我们“关键证据出现在视频的哪里、什么时候”。最近像 OpenAI-o3 这样的模型,让图像推理能指明“看到什么得出结论”,但要让这种能力扩展到视频就困难得多,因为视频是动态的,模型必须同时追踪时间变化和定位空间位置。为了解决这个问题,字节推出了 Open-o3 Video, 一个非代理(non-agent)视频推理框架。它能在回答问题的同时,标出视频中的关键时刻、重要物体和对应的边界框,让AI的推理不再只是“猜”,而是有据可依、可视可查。(链接在文章底部)
为赋予模型这一能力,团队构建了两个高质量数据集:用于监督微调的 STGR-CoT-30k 和用于强化学习的 STGR-RL-36k,涵盖精细的时空标注,弥补了以往数据只关注时间或空间的不足。随后,研究者采用冷启动强化学习(cold-start RL)并设计多重奖励机制,使模型在训练中同步提升答案准确性、时间对齐与空间定位。最终,Open-o3 Video 让 AI 能像“福尔摩斯”一样在视频中找出关键线索并解释其推理过程。
Open-o3 Video 的整体框架概览。采用两阶段训练范式:(a) 冷启动初始化,用于学习结构化、具备时空落地能力的输出;(b) 强化学习阶段,通过复合奖励机制进一步提升时间对齐和空间精度,其中包括自适应时间接近度与时间门控机制的设计。
每组样例展示了输入视频(左)及其对应的时空推理可视化结果(右)。模型不仅给出文字推理,还会标出关键事件在视频中发生的时间(时间证据,即时间戳)和位置(空间证据,即边界框),从而提供清晰、可解释的视觉依据,使推理过程“有迹可循”。
Open-o3 Video 通过精心构建的 STGR 数据集和两阶段 SFT→RL 训练策略,将显式的时空证据(关键时间戳与边界框)融入视频推理,在 V-STAR 上取得了最先进的成果,并为视频理解提供了可验证且可靠的推理能力。
![]()
Open-o3 Video数据构建流程与数据集组成概览。左图: 标注流程包括 Gemini 2.5 Pro 初始标注、边界框筛选 和 自一致性检查。右图: 展示了 STGR-CoT-30k(用于 SFT) 和 STGR-RL-36k(用于 RL) 中的数据类别分布,涵盖时间类、空间类、时空类以及通用问答类任务,整体分布均衡。
尽管Open-o3 Video框架展现出强劲的性能,但仍存在一些局限。首先,对于场景复杂、物体较小的长视频,处理仍具挑战,因为此类情境下的高质量时空数据仍然相对稀缺。其次,对于需要多步推理、超越直接证据对齐的复杂推理型问题,模型仍难以完全应对。最后,目前的设计尚未融合音频或语音信息,而这些往往是理解视频内容的重要线索。
https://arxiv.org/pdf/2510.20579
https://github.com/marinero4972/Open-o3-Video
https://huggingface.co/marinero4972/Open-o3-Video欢迎交流~,带你学习AI,了解AI
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.