字节跳动与南洋理工大学近期联合发布了开源视频生成框架StoryMem,旨在解决AI视频生成中长期存在的跨镜头一致性问题。该框架通过引入动态记忆机制,使生成的视频能在长达一分钟以上的时长内保持角色、场景与细节的统一。
![]()
StoryMem的核心在于其M2V设计理念。系统在生成首个镜头后,会提取关键帧信息存入动态记忆库。此后每个新镜头的生成请求,都会触发M2V LoRA模块介入,将记忆库中的视觉特征注入当前的扩散模型,从而强制新画面与先前内容保持逻辑关联。
在技术指标上,StoryMem在跨镜头一致性这一核心评测中,相比现有主流方法实现了29%的提升。
为验证框架能力,研发团队同步推出了包含300个复杂场景的ST-Bench基准测试集。该框架保留了Wan2.2等基础模型的高画质特性,并支持对用户提示词的精准理解,能够处理自然的转场与复杂的运镜。
在应用层面,该技术被认为能降低广告营销、影视制作等领域的故事板可视化成本,并为独立创作者提供制作连贯叙事短片的技术工具。
项目开源后,开发者社区已开始探索本地化部署方案,部分工作流已在ComfyUI中初步搭建完成。
市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。
本文源自:市场资讯
作者:观察君
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.