网易首页 > 网易号 > 正文 申请入驻

OpenAI空降视频生成模型:一口气生成60s,风格画质尺寸灵活定制 | 最前线

0
分享至

文 | 周鑫雨

编辑 | 苏建勋

2023年4月,成立于纽约的Runway AI发布了一段用AI生成的视频:模糊卡顿、物体扭曲,且仅4秒;

四个月后,Runway将文生视频的视频效果拉到了4K的超逼着高度,实现了镜头的连贯稳定。而视频的最大长度也从4秒,提升到了18秒——这也是2023年文生视频的“时长天花板”。

然而,就在北京时间2024年2月16日凌晨,“天花板”又被打破——OpenAI又出王炸,发布了可以生成60秒视频的AI模型Sora


OpenAI官宣Sora。

同样在2月16日发布的谷歌最新多模态模型Gemini Pro 1.5,则被Sora迅速夺走了关注度。


网友为Gemini和Sora制作的梗图。

根据OpenAI官方发布的推文和技术报告,Sora能力的革命性可以被提炼为:最长生成60s视频、镜头的前后一致性、超逼真

从官方发布的视频demo而言,Sora只需要输入包含“构成元素、环境、行为及发生顺序、视频风格”等关键因素的Prompt(提示词),就能生成不同风格的高清、连贯,且具有丰富运镜和转场的60s级视频。

比如生成包含人物和城市元素的视频:

提示词:一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。


Sora生成视频(原视频为60s,文中截取20s,画质受gif大小限制有所压缩)。图源:OpenAI

Sora也能生成动物和自然风光:

提示词:几只巨大的毛茸茸的猛犸象踏着白雪皑皑的草地走近,它们长长的毛茸茸的皮毛在风中轻轻飘动,远处覆盖着积雪的树木和雄伟的雪山,午后的阳光下有缕缕云彩,太阳高高地挂在空中距离产生温暖的光芒,低相机视角令人惊叹地捕捉到大型毛茸茸的哺乳动物,具有美丽的摄影和景深。


Sora生成视频(画质受gif大小限制有所压缩)。图源:OpenAI

Sora生成的视频已经能够达到逼真的效果。不过,用3D和动漫风格生成虚拟场景对Sora而言也不在话下:

提示词:动画场景的特写是一个毛茸茸的小怪物跪在融化的红蜡烛旁边。艺术风格是 3D 和现实的,重点是灯光和纹理。这幅画的气氛是一种惊奇和好奇,怪物睁大眼睛、张开嘴巴凝视着火焰。它的姿势和表情传达出一种天真和俏皮的感觉,就好像它第一次探索周围的世界一样。暖色调和戏剧性灯光的使用进一步增强了图像的舒适氛围。


Sora生成视频(画质受gif大小限制有所压缩)。图源:OpenAI

突破时长和逼真的瓶颈, Sora摸着DALL-E过河

在半年前,在保证生成画质的前提下时长仅仅是突破10秒,对于多数视频模型而言都是难以企及的高度。

这是由于循环网络、生成对抗网络、Diffusion模型等主流视频建模范式,通常只能学习某一小类的视觉数据、较短的视频或者固定大小的视频。

这意味着,此前主流范式下的视频生成模型对训练数据有较高的要求,需要将训练数据处理为具有标准大小、裁剪尺寸的视频。

Sora的技术报告显示,为了构建Sora,OpenAI创新性地采用了文生图模型DALL-E 3的相关技术:将Diffusion模型(可以将随机像素大致转换为图像)与Transformer神经网络(支持处理长数据序列)相结合

这意味着,Sora可以像处理文字和图像数据一样,对视觉数据进行分块式地理解分析,不用进行标准化的预先处理。

比如对应大语言模型中将文本分割为最小的处理单位Token,Sora也通过压缩视频到较低维度,将视觉数据分割为可分块处理的补丁(patch)。并且随着训练计算量的规模式(Scaling)提升,视频生成质量会显著提高。


基于基础计算量生成的样本效果。图源:OpenAI


基于4倍计算量生成的样本效果。图源:OpenAI


基于16倍计算量生成的样本效果。图源:OpenAI

基于原始数据而非标准化处理数据的训练,不仅可以让Sora初步拥有理解真实或虚拟世界的能力,还能灵活生成时长不同、分辨率和尺寸各异的视频(目前可生成的尺寸范围是:宽屏1920x1080p~竖屏1080x1920p),以适应不同场景和设备的使用需求。


Sora生成不同尺寸下的同主题视频。图源:OpenAI

不过,仍有不少专家以审慎的态度看待这次技术突破。伊利诺伊大学厄巴纳-尚佩恩分校信息科学教授Ted Underwood在华盛顿邮报的采访中表示,OpenAI可能会挑选可以展示模型最佳表现的一些视频。

再比如,普林斯顿大学计算机科学教授 Arvind Narayanan在X推文中指出,Sora生成的时尚女子在东京街头行走的视频中,女子的左右腿交换了位置,背景中的人物在被前进物体短暂遮挡后消失了。


Arvind Narayanan的推文,可仔细观察原视频14-16秒处的双腿交换。

OpenAI官方也放出了一些“Sora翻车视频”,展示了Sora在理解复杂场景的物理原理、因果关系、空间细节、时间推移上的弱点。比如,它搞反了人在跑步机上跑步的方向。


Sora生成的视频截图。提示词:打印一个人跑步的场景,35 毫米电影胶片。

Sora杀死Runway们, 伦理安全引发大众担忧

2022年,TikTok观看量Top 10的视频平均时长为44.2秒,最长的一个视频长达2分16秒;

广告分析公司Integral Ad Science的统计数据显示,移动网络展示广告和移动应用的广告平均时长分别为15.6秒和20.2秒。

这意味着,一旦文生视频模型突破了60s的时长瓶颈、画质达到商用级别,对于用户的生产和娱乐方式,都会产生巨大的影响。《马戏之王》导演Michael Gracey告诉华盛顿邮报:“电影制作者不再需要一个由 100 或 200 名艺术家组成的团队,在三年内制作他们的动画长片。这让我很兴奋。”

然而,他依然对AI工具可能会造成的版权争议、失业问题而感到担忧:“它(AI)剥夺了其他人的创造力、工作、想法和执行力,却没有给予他们应有的荣誉和经济报酬时,那就不好了。”

由于Sora生成的视频质量远高于多数视频生成模型,尤其现实风格让人真假难辨,不少专家也表达了对视频深度伪造(Deepfake)的担忧。政治竞选虚假信息识别组织True Media创始人、华盛顿大学教授Oren Etzioni在纽约时报的采访中表示:“我非常害怕这种事情会影响一场势均力敌的选举。”

目前,OpenAI为Sora生成的视频自动添加了水印标记,以表明由AI生成。OpenAI创始人兼CEO Sam Altman在X上表示,目前Sora正在展开红队测试(Red-Teaming,一种安全评估方法),并只对少数人开放测试。


Sam Altman的推文。

不过,即便尚未正式对公众开放,Sora的能力已经引起了不少视频模型创业者的恐慌。

“当一个质量更好、时长更长、应用场景更广泛的视频模型摆在面前,没有人还想用‘Runway们’。”一名AI创业者告诉36氪,“对模型层创业者来说,当务之急还是赶紧找场景、做应用。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国老百姓对于枪械的理解是什么?网友:拿枪指着头,人敢反抗!

中国老百姓对于枪械的理解是什么?网友:拿枪指着头,人敢反抗!

生活百态小故事
2024-06-06 10:13:59
“一旦和美国开战,直接选择投降”,这样的言论让人寒心!

“一旦和美国开战,直接选择投降”,这样的言论让人寒心!

文雅笔墨
2024-06-05 14:07:21
突然决定离队!CBA自由市场又一大牌!“底薪”加盟广东队成首选

突然决定离队!CBA自由市场又一大牌!“底薪”加盟广东队成首选

绯雨儿
2024-06-06 13:02:54
何炅缺席《歌手2024》第五期,官微发起串讲人选拔,两人呼声最高

何炅缺席《歌手2024》第五期,官微发起串讲人选拔,两人呼声最高

岚仔小弟
2024-06-07 00:27:34
汽车音响之王!全球汽车音响厂商TOP10:Bose第7,哈曼排名第2

汽车音响之王!全球汽车音响厂商TOP10:Bose第7,哈曼排名第2

柳先说
2024-06-06 18:14:57
中方忍耐已到极限,无差别拦截仁爱礁菲律宾船只,补给全倒海里

中方忍耐已到极限,无差别拦截仁爱礁菲律宾船只,补给全倒海里

咖啡店的老板娘
2024-06-05 20:55:38
71年毛主席来到杭州休息,看见陈励耘时,厌烦道:你怎么又来了

71年毛主席来到杭州休息,看见陈励耘时,厌烦道:你怎么又来了

让时间说真话
2024-06-05 22:10:13
国足大难不死?韩国7-0狂胜新加坡是“神助攻”:送来5大利好

国足大难不死?韩国7-0狂胜新加坡是“神助攻”:送来5大利好

足球大腕
2024-06-07 00:26:41
伊朗很生气怒批中国,国民党型国家实属搞笑

伊朗很生气怒批中国,国民党型国家实属搞笑

百花谷周伯通
2024-06-06 13:42:58
肖战晒照暴走老家重庆,重庆文旅:重庆会惩罚每一个不爱运动的人!欢迎大家来打卡喔!

肖战晒照暴走老家重庆,重庆文旅:重庆会惩罚每一个不爱运动的人!欢迎大家来打卡喔!

鱼真香综艺
2024-06-06 19:22:14
丁丁尺寸越大,女的越快乐?这5个羞羞的硬知识男女都要知道

丁丁尺寸越大,女的越快乐?这5个羞羞的硬知识男女都要知道

装修大队队长
2024-06-06 11:58:11
有高人预测,再这样搞下去,农村80%的家庭将要被拖垮

有高人预测,再这样搞下去,农村80%的家庭将要被拖垮

农家乐一乐
2024-06-06 21:03:38
国足平泰国头号罪人曝光,挥霍3次天赐良机,伊万弃用他不能再等

国足平泰国头号罪人曝光,挥霍3次天赐良机,伊万弃用他不能再等

家乡体育
2024-06-06 23:10:15
乌克兰频繁与中国互动,副外长抵达中国,执意要求中方出席峰会?

乌克兰频繁与中国互动,副外长抵达中国,执意要求中方出席峰会?

三分亮剑
2024-06-06 14:09:38
为什么一定要“封杀”郭有才?

为什么一定要“封杀”郭有才?

落纸生花创意手工
2024-06-02 12:07:34
三年前立志“拱城里白菜”的衡中考生,被自己打脸了

三年前立志“拱城里白菜”的衡中考生,被自己打脸了

独角鲸工作坊
2024-06-05 15:30:46
51岁妻子出轨11年,当她准备回归家庭后,丈夫却拿出了离婚协议书

51岁妻子出轨11年,当她准备回归家庭后,丈夫却拿出了离婚协议书

纸鸢奇谭
2024-06-05 15:47:36
日本女优的一天:14小时赶三场,幕后内情让人唏嘘

日本女优的一天:14小时赶三场,幕后内情让人唏嘘

听风听你
2024-06-05 22:06:06
彻底倒向美囯?拒绝中方移民,驱离中方工人,中方大怒:永不合作

彻底倒向美囯?拒绝中方移民,驱离中方工人,中方大怒:永不合作

星辰故事屋
2024-04-27 19:04:44
美媒:前NBA球员德隆蒂-韦斯特因违反缓刑条例和拒捕被捕

美媒:前NBA球员德隆蒂-韦斯特因违反缓刑条例和拒捕被捕

直播吧
2024-06-06 23:12:11
2024-06-07 10:48:49
36氪
36氪
让一部分人先看到未来
144593文章数 2839357关注度
往期回顾 全部

科技要闻

马斯克创造人类历史,SpaceX星舰试飞成功

头条要闻

菲香蕉对华出口锐减 越南成中国最大的香蕉进口来源国

头条要闻

菲香蕉对华出口锐减 越南成中国最大的香蕉进口来源国

体育要闻

国足进球功臣捂脸沮丧 伊万表情凝重

娱乐要闻

汤唯抵达巴黎将担任奥运火炬手

财经要闻

身陷退市股的投资者:我的钱瞬间没了

汽车要闻

蔚来第三品牌"萤火虫"首款车型定位10-20万元级

态度原创

数码
时尚
家居
房产
本地

数码要闻

24年后 3Dfx Voodoo4 GPU被疯狂DIY玩家用在笔记本电脑上

颜值不够穿搭来凑,年过40岁的女人这么搭,一点没有大妈感

家居要闻

悠享时光 打造家的一隅避风港

房产要闻

震撼!8800亩存量宅地清单曝光!未来的三亚楼市,太炸裂!

本地新闻

我和我的家乡|踏浪营口,心动不止一夏!

无障碍浏览 进入关怀版