本文授权转自: 应谋鬼计 (ID:shejishiyj )
文生图大模型已经火了很长一段时间了,而随着技术与模型算法的不断提升,文生视频模型也越来越多。今天就介绍一下字节跳动发布的MagicVideo-V2文生视频大模型。
从文本描述生成高保真视频的需求日益增长,这催生了该领域的大量研究。在这项工作中,MagicVideo-V2将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块集成到一个端到端的视频生成流程中。
"A lone traveller walks in a misty forest."
一位孤独的旅行者走在迷雾缭绕的森林中。
"Teddy bears holding hands, walking down rainy 5th ave."
“泰迪熊手牵手,走在雨中的第五大道上。”
"Ironman flying over a burning city, very detailed surroundings, cities are blazing, shiny iron man suit, realistic, 4k ultra high defi."“钢铁侠飞越一座燃烧的城市,周围环境非常详细,城市火光冲天,钢铁侠战衣闪亮,画面逼真,4K超高清。”
"A panda standing on a surfboard, in the ocean in sunset, 4k, high resolution."“一只熊猫站在冲浪板上,在夕阳下的海洋中,4K高清。”
A medieval witch making a poison."
“一位中世纪的女巫正在制作毒药。”
"A giant dragon sitting in a snow covered landscape, breathing fire." "一条巨龙坐在白雪皑皑的风景中,喷出火焰。"
得益于这些架构设计,MagicVideo-V2可以生成具有高保真度和流畅性的高分辨率视频。大量用户评估,MagicVideo-V2在性能上超越了其他的一些视频模型工具,如Runway、Pika 1.0、Morph、Moon Valley和Stable Video Diffusion模型。
MagicVideo-V2的T2I模块会先创建一个1024×1024的图像,接着,I2V模块将这张静态图像进行动画处理,生成一系列600×600×32的帧动画,V2V模块在细化视频内容的同时,将这些帧增强至1048×1048的分辨率。最后,插值模块将序列扩展至94帧,得到一部1048×1048分辨率的视频,该视频既具有高审美品质又具备时间平滑性。
人们将MagicVideo-V2与其他最先进的文本到视频生成方法进行了比较,结果显示出对MagicVideo-V2的强烈偏好。
评价者偏好的分布情况显示,与其他最先进的文本到视频(T2V)生成方法相比,他们更倾向于MagicVideo-V2。绿色、灰色和粉色条分别代表MagicVideo-V2被评为更好、相当或较差的试验次数。
目前,magicvido-v2已经上线,但是还没有开源,大家也可以先行关注一下,项目地址:https://magicvideov2.github.io/
文章转载: 应谋鬼计 ,版 权归原作者所有
https://mp.weixin.qq.com/s/T0wU_qXqAyLGx7C52ujVvQ
版权声明:“IXDC”所推送的文章,除非确实无法确认,我们都会注明作者和来源,本公众号对转载、分享的内容、陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完善性提供任何明或暗示的保证,仅供读者参考。部分文章推送时未能与原作者取得联系,若涉及内容或作品等版权问题,烦请原作者联系我们,给出内容所在的网址并提供相关证明资料,我们会核查后立即更正或者删除有关内容!本公众号不承担任何责任,并拥有对此声明的最终解释权。
联系微信:18802086168
联系电话:18802086168
编辑 | 梁芊芊
终审 | 苏 菁
点这里,学习更多设计知识!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.