生成式模型在生成专业教育视频时仍面临诸多限制。这类视频通常要求具备扎实的学科知识、精确的视觉结构以及连贯的镜头过渡,因此传统的生成模型在教育场景中的应用效果有限。相比之下,教育视频的这些特性更适合通过可渲染环境的逻辑化控制实现。基于这一思路,新加坡国立大学Show Lab 提出了 Code2Video,一个以代码为中心的智能体框架,能够通过可执行的Python 代码自动生成高质量的教育视频。(链接在文章底部)
Code2Video框架由三个协作智能体组成:Planner(规划者)负责将讲解内容结构化为时间上连贯的流程,并准备相应的视觉素材;Coder(编码者)将结构化指令转化为可执行的 Python 代码,并引入“作用域引导的自动修正”(scope-guided auto-fix)机制以提升生成效率;Critic(评审者)基于视觉锚点提示的视觉语言模型(VLM),对空间布局与视觉清晰度进行优化。
01 技术原理
当用户提出一个学习主题后,Code2Video 旨在通过编写Manim代码来生成教育视频:(i)Planner(规划者)将学习主题转化为故事板,并检索相应的视觉素材;(ii)Coder(编码者)以并行方式执行代码生成,并通过“作用域引导的优化”(scope-guided refinement)确保生成的高效性与时间一致性;(iii)Critic(评审者)利用带有视觉锚点提示的迭代调整机制,优化视频的空间布局与视觉清晰度,最终生成可复现、具教学结构化特征的教育视频。
基于像素的模型整体表现较差,尤其在讲解流畅度(LF)上受限于文本定位、动画时序与跨帧一致性控制;而基于 LLM 的 Manim 代码生成显著提升了视频质量,验证了代码在可控性与连贯性上的优势。
三智能体架构进一步带来稳定提升,如在Claude Opus 4.1上,AES 提高50%、TeachQuiz 提高46%。视觉锚点优化了布局,Planner增强了动画流畅性,但在注意力转场(AT)与视觉连贯性(VC)上仍有改进空间。
人工制作视频依然在叙事与细节上占优,但 Code2Video 正逐步缩小差距。其生成的视频文字清晰、布局稳定、节奏契合,而像素模型(如 Veo3)常出现模糊与漂移。总体而言,代码驱动的生成在空间稳定性与知识呈现清晰度上显著优于像素生成方法。
https://github.com/showlab/Code2Video/
http://arxiv.org/pdf/2510.01174
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.