2月26日消息,昨晚,阿里云深夜宣布开源视觉生成基座模型万相2.1(Wan),并以Apache 2.0协议发布。
此次开源包含14B和1.3B两种参数规格的推理代码与权重,支持文生视频和图生视频任务。
14B模型在VBench评测中,凭借86.22%的得分超越Sora、Luma等竞品,稳居榜首。1.3B版本可以在仅需8.2GB显存的消费级显卡上生成高质量视频,适用于学术研究与二次开发。
值得一提的是,万相2.1是是首个具备支持中文文字生成能力,且同时支持中英文文字特效生成的视频生成模型。
此外,该模型基于DiT架构与Flow Matching范式,优化了3D VAE与预训练策略,并实现了特征缓存机制,支持1080P视频编解码。
据介绍,万相2.1在复杂运动和物理规律模拟方面有显著提升,能够稳定呈现人物的旋转、跳跃等高难度动作,并逼真模拟物体碰撞、反弹等物理效果。(袁宁)
