网易首页 > 网易号 > 正文 申请入驻

「平替版 Sora」何时能追上?

0
分享至

专题解读 事件: 随着 OpenAI 正式发布文生视频大模型 Sora,直接带动了国内外文生视频、文生图模型的热潮出现。Stability AI、Pika、阿里达摩院、腾讯、华为等国内外大厂先后推出自家生成模型。近期,华为诺亚方舟实验室发布了同样基于 DiT 架构的文生图模型 PixArt-Σ。

上月,OpenAI 正式发布文生视频大模型 Sora,因其生成效果惊艳,可以生成不同时长、长宽比和分辨率的视频和图像,且最多可以输出长达一分钟的高清视频,打开了文生视频的新格局。有人称,文生视频的 GPT 时刻已经到来。与此同时,据 a16z 统计,在 2023 年,文生视频领域发布相关工具与产品即达到了 21 种,且发布产品的多为初创企业。国内外的文生视频模型随着 Sora 的热潮频出,其他文生视频能否作为「Sora 平替版」追赶上 Sora?

平替模型们与 Sora 对比,效果如何?

以下整理了较为热门的国内外大厂的文生视频模型,从模型架构、模型创新点、技术特点、生成视频表现等维度进行了比对。[27] -[46]

1、Sora:由 OpenAI 开发的一款文本到视频生成模型,能够根据文本提示生成长达一分钟的高清视频。

① 架构方面,Sora 基于扩散模型和 Transformer 架构,通过将视频数据转换为时空 patches,从而实现对视频内容的生成。

② 技术特点方面,Sora 使用了时空 patches 作为 Transformer 的 tokens,patches 是从压缩后的潜在空间中提取的,代表了视频的时间和空间信息。

③ Sora 可以处理多种时长、长宽比和分辨率的视频和图像。

2、W.A.L.T(Window Attention Latent Transformer):由斯坦福大学(Stanford University)、谷歌研究(Google Research)、佐治亚理工学院(Georgia Institute of Technology)开发的一款视频生成模型,除文本提示生成视频外,还可以将静态图像转换为动态视频。

① 架构方面,W.A.L.T 第一阶段使用因果编码器将视频和图像映射到统一的低维隐空间。第二阶段设计了一种新的 Transformer 块,包含自注意力层,这些层在非重叠、窗口限制的空间和时空注意力之间交替。

② 技术特点方面,W.A.L.T 采用了隐视频扩散模型(Latent Video Diffusion Models, LVDMs)的技术路径,结合了 Transformer 架构的优势。

③ W.A.L.T 模型能够从文本提示生成高分辨率、时间上连贯的逼真视频,并且能够将静态图像转换为动态视频,支持 3D 摄像机运动的视觉效果。

3、Zeroscope:由阿里达摩院 ModelScope 社区开发的一款文本到视频的生成模型,能够生成高达 1024×576 分辨率的高清视频。

① 架构方面,Zeroscope 由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间的 3 个子网络组成。

② 技术特点方面,Zeroscope 基于 17 亿参数的文生视频大模型改造,采用 Unet3D 结构的扩散模型。

4、Stable Diffusion 3:由 Stability AI 开发的一款基于 Transformer 的文本到图像生成模型。

① 架构方面,Stable Diffusion 3 采用 MMDiT 架构,使用单独的权重组处理图像和文本模态,实现双向信息流动。同时,采用 Rectified Flow 技术,通过直线连接数据和噪声,简化采样过程......

表:文生视频模型表现对比


「平替模型们」 离追上 Sora 还有多远?

在 Sora 正式发布之后,出现了关于国内外其他文生视频模型能否追赶上 Sora 的探讨。目前,国内科技大厂仍停留在内部探索、研发 Demo 的阶段。目前,普遍认为算法实现、算力和数据是导致「复现」Sora 困难的主要因素。

1、技术方面,OpenAI 并未公布 Sora 的技术细节,路径模糊。

① 出门问问创始人李志飞认为,目前仍处于早期,技术没有收敛,各种视频相关模型的分类或讲法比较混乱。OpenAI「狡猾」,Sora 的技术报告只是很笼统地引用了几篇谷歌的文章,但没说到底用了什么,怎么用的,以及做了哪些创新。[16]

② 同样也有类似观点。360 集团创始人周鸿祎认为 OpenAI 最强的能力其一是找方向,另一个是工程化思路非常严谨。因此,现在重要的是需要把工程化思路探索出来。[17]

2、算力方面,Sora 坚守了 OpenAI 的核心理念,即 Scaling Law,「大力出奇迹」,随着训练计算量增加,视频质量显著提升。而大模型训练数据量的剧增,意味着需要强大的算力支持,而初创企业难以实现。

① 有人工智能算法工程师分析......

Sora 之外还有有哪些值得关注的文生视频模型?这些模型与 Sora 有何区别?「平替模型们」 为何追不上 Sora?为什么都在用 DiT?视频生成是如何从 GAN 演进到 DiT 的?...查看完整解读请前往「机器之心PRO」业内通讯 · 2024年度#Week 11

本期完整版通讯含3个专题解读 +31项 AI & Robotics 赛道要事收录

1.Figure 用的 VLM 和 「机器人 LLM」 是同一回事吗?

Figure、Covariant 和谷歌都发什么成果了?Sergey Levine 也创业了?Figure 01 用了哪些技术?Covarian 的 RFM-1 是基于 LLM 的吗?...

2. 「平替版 Sora」 何时能追上?

Sora 之外还有有哪些值得关注的文生视频模型?这些模型与 Sora 有何区别?「平替模型们」 为何追不上 Sora?为什么都在用 DiT?视频生成是如何从 GAN 演进到 DiT 的?...

3.Yann LeCun 万字播客专访要点解读

Yann LeCun 在 3 小时里都聊了啥?LeCun 为什么批评强化学习?LeCun 本人觉得 JEPA 能理解物理世界吗?Llama 3 有新进展了?...

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
3比1逆袭世界第一!女排劲旅把中国队推向险境,巴黎门票悬了?

3比1逆袭世界第一!女排劲旅把中国队推向险境,巴黎门票悬了?

体坛知识分子
2024-05-20 06:05:02
上海百亿储能龙头,董事长突遭留置!

上海百亿储能龙头,董事长突遭留置!

21世纪商业评论
2024-05-20 21:38:31
世联赛中国女排巴西站总结,这3人试验失败,蔡斌二阵容毫无突破

世联赛中国女排巴西站总结,这3人试验失败,蔡斌二阵容毫无突破

极度说球
2024-05-20 10:16:15
1993年,中俄列车遭暴徒洗劫强奸140个小时,邓公批示:跨国抓捕

1993年,中俄列车遭暴徒洗劫强奸140个小时,邓公批示:跨国抓捕

旧闻档案
2023-09-27 21:39:31
祖上真阔英超历史总积分榜:曼联仍领跑曼城第6,Big6均前六

祖上真阔英超历史总积分榜:曼联仍领跑曼城第6,Big6均前六

直播吧
2024-05-20 11:02:32
乒乓球太原赛今天开打!5月21日赛程公布,国乒3位选手率先登场

乒乓球太原赛今天开打!5月21日赛程公布,国乒3位选手率先登场

全言作品
2024-05-21 00:02:17
解放军绕台路线变了,台海一旦有变,台退将:第一目标是拿下澎湖

解放军绕台路线变了,台海一旦有变,台退将:第一目标是拿下澎湖

大白话瞰世界
2024-05-20 10:03:20
全球封神! 华为新机突然官宣:重回巅峰第一

全球封神! 华为新机突然官宣:重回巅峰第一

奇奇怪怪的冒险
2024-05-20 10:00:36
雷霆离队第一人!把3150万顶薪打成底薪,今夏或成自由市场香饽饽

雷霆离队第一人!把3150万顶薪打成底薪,今夏或成自由市场香饽饽

你的篮球频道
2024-05-20 07:25:41
知名博主实名举报郭有才发表不良言论,此前曾发文质疑他的人设…

知名博主实名举报郭有才发表不良言论,此前曾发文质疑他的人设…

火山诗话
2024-05-20 18:07:52
记者扮男客潜入采耳店,偷拍服务全过程:女技师、柔式按摩别有洞天

记者扮男客潜入采耳店,偷拍服务全过程:女技师、柔式按摩别有洞天

古今档案
2024-05-07 13:04:58
一夫一妻制会不会消亡?专家:可能趋于“开放式婚姻”

一夫一妻制会不会消亡?专家:可能趋于“开放式婚姻”

户外阿崭
2024-05-11 07:30:24
将中国排除在外!德国正式表态,从5G核心网络中移除中国关键组件

将中国排除在外!德国正式表态,从5G核心网络中移除中国关键组件

大卫聊科技
2024-05-20 22:30:03
网友曝朱婷体测没过,排协不让进国家队!网友:张常宁体测过了吗

网友曝朱婷体测没过,排协不让进国家队!网友:张常宁体测过了吗

金毛爱女排
2024-05-20 10:34:50
小因扎吉:球迷们可以对国米未来放心 对于张康阳我只能表达感谢

小因扎吉:球迷们可以对国米未来放心 对于张康阳我只能表达感谢

直播吧
2024-05-20 15:30:25
刘大锤曝光黄晓明离婚内幕!一个后悔一个受够了,黄妈妈也没招

刘大锤曝光黄晓明离婚内幕!一个后悔一个受够了,黄妈妈也没招

娱乐八卦木木子
2024-05-20 07:10:12
泽连斯基:只有25%

泽连斯基:只有25%

环球时报国际
2024-05-18 12:37:27
经济大萧条下,这些行业都是暴利,赚的盆满锅满

经济大萧条下,这些行业都是暴利,赚的盆满锅满

临床饮冰
2023-12-24 11:40:21
布林肯痛批以色列,认为以军应撤出加沙,内塔尼亚胡两面承压

布林肯痛批以色列,认为以军应撤出加沙,内塔尼亚胡两面承压

青松解局
2024-05-18 21:15:03
《庆余年2》直到王启年被杀,范闲才发现,陈萍萍所隐藏的真相

《庆余年2》直到王启年被杀,范闲才发现,陈萍萍所隐藏的真相

娱乐圈酸柠檬
2024-05-20 12:04:31
2024-05-21 02:56:49
机器之能
机器之能
探索人工智能应用场景及商业化
1913文章数 4355关注度
往期回顾 全部

科技要闻

理想 Q1营收同比增长36% 交付指引不及预期

头条要闻

媒体:与蔡英文8年前相比 赖清德就职讲话出现大倒退

头条要闻

媒体:与蔡英文8年前相比 赖清德就职讲话出现大倒退

体育要闻

8年半,讲不出再见

娱乐要闻

王俊凯现身蔡依林演唱会,牵手唱歌!

财经要闻

韵达快递乱象:管理以罚代管 新政落地难

汽车要闻

智驾升级/月底上市 问界新M7 MAX焕新版

态度原创

艺术
教育
健康
游戏
家居

艺术要闻

挖掘艺术界未来的璀璨星辰 | 莱俪青年艺术奖获奖艺术家邓启鹏

教育要闻

温州中学附属中学今秋开始招生、温州二外在瓯海划定施教区!瓯海区义务教育阶段学校招生解读来啦~

在中国,到底哪些人在吃“伟哥”?

为了避免浪费玩家时间 樱井政博曾放弃使用杜比环绕声

家居要闻

家成幸福 朝昏看开落·一笑小窗中

无障碍浏览 进入关怀版