尽管现在有很多专门的 AI 模型能在单一视频任务上表现很好,比如只负责生成或只负责理解,但现实中的视频需求往往更复杂,需要把多种能力组合到一个流程里。为了解决这个问题,新加坡管理大学提出了UniVA一个开源的、多智能体协作框架,让 AI 能像“全能视频助手”一样,把理解、分割、编辑、生成等能力统一到一条连贯的工作流里。(链接在文章底部)
UniVA 的核心是“规划—执行”双智能体架构。规划智能体负责听懂用户想做什么,并把任务拆成一系列清晰的视频处理步骤;执行智能体再调用各种可插拔的工具(如分析、生成、编辑、跟踪等)按步骤完成任务。依靠多层记忆系统(包括通用知识、任务上下文、用户习惯),UniVA 能保持长时间推理、跨步骤协作,以及智能体之间的沟通一致性。这让它可以完成非常灵活的、可反复迭代的视频创作流程,例如“文本生成视频 → 多轮编辑 → 目标分割 → 合成新场景”等,以前单一模型或封闭式视频语言模型很难做到的复杂操作也能轻松实现。
UniVA 系统的整体架构建立在“规划—执行(Plan–Act)”范式之上。其中,规划智能体(Plan Agent)会利用全局记忆(历史轨迹)和用户记忆(已存素材),将用户输入(文本、图像或视频)分解成多个子任务。
![]()
执行智能体(Act Agent) 则负责检索任务相关的记忆,通过 MCP 协议执行这些子任务,并与外部 MCP 服务器(视频工具、AI 工具和非 AI 工具)进行协同。最终,系统能够生成多模态输出,包括文本、图像、视频和音频。
![]()
UniVA 通过 Model Context Protocol 将视频、视觉、语言和实用工具连接起来。智能体能够动态选择并串联工具,使系统支持即插即用的扩展和多步骤处理流程,而不再是孤立的黑箱式调用。
![]()
分层记忆设计能够维护故事状态、用户偏好和工具上下文,从而在长视频和多轮编辑中保持角色、风格和约束的一致性。
UniVA保持对象一致性(女孩舞蹈):
UniVA处理复杂任务(面包广告片):
UniVA输入视频到新视频输出(故事片视频重制):
表达特定情绪或氛围的视频:
视频到视频—风格迁移:
此外还提出UniVA-Bench,一个涵盖理解、编辑、分割与生成的多步骤视频任务基准套件,用于对这类智能体视频系统进行严格评测。
https://ngrok-univa.chrisprox599.workers.dev/欢迎关注交流~,带你学习AI,了解AI
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.