网易首页 > 网易号 > 正文 申请入驻

Sora 会颠覆电影制作吗?3 人团队使用 Sora 制作短片完整技术细节&踩坑分享

0
分享至

今年 2 月份,OpenAI 发布了人工智能文生视频大模型 Sora,并放出了第一批视频片段,掀起了 AI 生成视频浪潮。目前,Sora 仍未进行公测,只有一些视觉艺术家、设计师、电影制作人等获得了 Sora 的访问权限。他们发布了一些 Sora 生成的视频短片,其连贯、逼真的生成效果令人惊艳。

最近,被誉为「朋克摇滚皮克斯」的加拿大多媒体制作公司 Shy Kids 发布了一段借助 Sora 制作的视频短片《Air Head》,在社交媒体上迅速引起广泛关注。

据悉,这部制作精美的短片主要由 3 个人完成,花费不到 2 周的时间。其中,Sidney Leeder 担任制片人,Walter Woodman 担任编剧和导演,而 Patrick Cederberg 负责后期制作。

本周,知名视觉特效总监 Mike Seymour 采访了 Patrick Cederberg,就《Air Head》制作过程、技术难点等信息展开了提问,并在 fxguide 上发布一篇文章介绍了 Sora 在视频实际制作过程中发挥的作用和存在的问题。


Patrick Cederberg

其中,Patrick 表示:「Sora 是一款非常强大的工具,我们已经在思考如何把它融入现有电影制作流程中,但目前 Sora 仍处于测试阶段,在影片制作过程中也会『翻车』。例如,气球的颜色在每次生成中都会改变、镜头中会出现一些瑕疵等等,要想获得最佳表现效果,仍需大量后期制作。」 AI 生成视频并非仅仅是图像生成器的进阶版。更准确地说,它们可能是我们向通用人工智能(AGI) 迈出的重要一步。但正如 Sora 开发团队本周接受采访时所说的,当前的 AI 视频模型仍处于早期阶段。

OpenAI 研究科学家,Sora 项目领导者 Tim Brooks 之前曾表示:我觉得现在 Sora 位置,就像是视觉模型新范式的 GPT-1 阶段。

《Air Head》是如何完成的?机器之心对 Mike Seymour 的文章进行了不改变原意的编译、整理,Founder Park 进行了部分增删。

01

交互全靠 prompt

Sora 的用户界面允许用户输入一段文本 prompt,然后 ChatGPT 将其转换为一个更长的字符串,再触发视频片段的生成。目前,没有其他输入方式——还没有实现多模态输入。这一点很重要,因为尽管 Sora 因其生成结果中的对象一致性而受到称赞,但目前还没有任何方法来帮助匹配两个镜头(即两次生成)的内容。即使第二次运行相同的 prompt,生成结果也会不同。

Patrick 介绍说:「我们尽可能做到的是在我们的 prompt 中给出超级详细的描述,例如解释角色的服装、气球的类型。这是我们获得一致性的方法。从一个镜头到另一个镜头 / 一次生成到下一次生成,还没有完全控制一致性的方法。」


单个视频片段的确可以展现 Sora 令人惊叹的技术,但使用这些片段取决于你对隐式或显式镜头生成的理解。

假设你要求 Sora 在厨房里进行一个长镜头跟踪拍摄,桌子上有一个香蕉。在这种情况下,它将依赖其对「香蕉属性」的隐式理解来生成一个展示香蕉的视频。通过训练,Sora 已经学习了一些香蕉属性:比如「黄色」、「弯曲」、「有深色的末端」等等。没有香蕉的实际记录图像。没有「香蕉数据库」,而是有一个更小的、压缩的、隐藏的「潜在空间」,描述了香蕉是什么,每次运行都会展示对潜在空间的一种新解释。你的 prompt 依赖于对香蕉属性的隐式理解。

02

保持角色固定有点困难

为了制作《Air Head》,团队根据大致的剧本生成了多个视频片段,但是没有明确的方式来确保黄色气球头在每个镜头中都保持相同。

有时,当 prompt 要一个黄色气球时,生成结果甚至可能不是黄色的。有时,气球上可能嵌入了一张脸,或者似乎在气球的正面画了一张脸。由于现实生活中许多气球都有绳子,因此生成结果中称为 Sonny 的气球人经常会在衣服前襟处有一根绳子。这是因为 Sora 隐式地将绳子与气球联系起来,因此在后期制作中这些需要被移除。


03

分辨率越大、渲染越耗时

《Air Head》只使用了 Sora 生成的镜头,但其中很多镜头都经过了调色、处理和稳定化,所有镜头都被提高了分辨率。团队处理的这些片段最初是以较低分辨率生成的,然后使用 Sora 或 OpenAI 之外的 AI 工具进行超分。


「你可以采用 720p 的分辨率,我相信已经有 1080p 了,但它需要一段时间来渲染。为了速度,《Air Head》的所有镜头都是以 480p 制作的,然后使用 Topaz 来提高分辨率」,Patrick 介绍道。

一般来说,每次渲染需要 10 到 20 分钟,可以生成 3-20 秒的视频。根据经验,选择的片段时长对渲染时间的影响不大。

在关键帧方面,Patrick 解释道:「在实际生成中,不同动作的发生有一点时间控制,但并不精确,甚至有点像是碰运气——目前还不确定 Sora 是否真的能完成这一点。」不过,Shy Kids 使用的是最早版本的模型,Sora 仍在不断开发中。

除了选择分辨率,Sora 还允许用户选择长宽比,比如肖像模式或风景模式(或正方形)。这在从 Sonny 的牛仔裤向上摇摄到他的气球头的镜头中非常有用。遗憾的是,Sora 无法原生渲染这样的移动,总是希望镜头的主要焦点——气球头出现在镜头中。因此,团队以肖像模式渲染了这个镜头,然后通过后期的裁剪手动创建了向上摇摄的效果。

视频片段可以以不同长度的时间段进行渲染,如 3 秒、5 秒、10 秒、20 秒,最长可达一分钟。渲染时间取决于一天中的时间段(例如早、中、晚)以及云服务的需求量。

Patrick 介绍:「一般来说,每次渲染大约需要 10 到 20 分钟。根据我的经验,我选择的渲染时长对渲染时间的影响很小。如果渲染时长是 3 到 20 秒,渲染时间往往不会在 10 到 20 分钟的范围内变化太大。」

04

摄像机方向的局限性

对于许多生成式 AI 工具来说,训练数据附带的元数据是宝贵的信息来源,比如摄像机元数据。例如,如果在静态照片上进行训练,摄像机元数据将提供镜头尺寸、光圈值以及其他许多对模型训练至关重要的信息。

在电影镜头中,「跟踪」、「平摇」、「竖摇」、「推进」等概念都不是元数据所能捕捉的术语或概念。

描述镜头对影片制作来说非常重要,Patrick 指出:「最初 Sora 中并没有这个功能。不同的人描述电影镜头的方法也不同。OpenAI 的研究人员在艺术家使用这个工具之前,并没有真正像电影制作人那样思考。」

Shy Kids 知道他们使用的是 Sora 早期版本,但「初始版本的 Sora 在摄像机角度方面有点随机。」Sora 是否真的能理解 prompt 还不得而知,OpenAI 的研究人员只是专注于视觉生成,或许不考虑故事讲述者将如何使用它。

「Sora 正在改进,生成控制还没有完全到位。输入一个『摄像机摇摄』,我认为十次中有六次会得到想要的结果」,Patrick 说道。OpenAI 的研究人员在与艺术家合作之前,并没有真正从电影制作的角度来思考这个问题。

这不是一个个例问题,几乎所有 AI 视频生成公司都面临着同样的问题,Runway AI 可能是在提供描述摄像机运动方面最先进的,但 Runway 渲染片段的质量和长度都不如 Sora。

05

很依赖于后期制作

Roto(抠像)

除了将气球分离出来以便调整颜色,有时 Sonny 的气球上会出现一张脸,看起来像是有人用马克笔画上去的,需要在 AfterEffects 中去除。其他类似的瑕疵也经常被清理掉。

虽然所有画面都是 Sora 生成的,但《Air Head》仍然需要大量后期工作。例如,有时会有一张脸在气球人 Sonny 上,就好像是用记号笔画上去的,这些瑕疵将在后期工作中被移除。


原始素材 vs 最终成品——300:1

Shy Kids 的方法是像制作纪录片一样进行后期制作和编辑,即有很多镜头,你需要从这些素材中编织出一个故事,而不是严格按照剧本拍摄。虽然这部短片有一个剧本,但团队需要灵活适应。

「这就像是得到一大堆镜头,然后尝试以一种有趣的方式剪辑到旁白中」,Patrick 介绍道。

对于最终出现在影片中的 90 秒镜头,Patrick 估计他们生成了「数百个 10 到 20 秒的片段」。他补充说:「我猜原始素材和最终成品的比例大概是 300:1。」

奇怪的「慢动作」

《Air Head》的许多片段生成时就好像是以慢动作拍摄的,尽管这并没有在 prompt 中被要求。这种情况发生的原因尚不清楚,但许多片段因此需要重新调整时间,以使其看起来像是实时拍摄的。这似乎与训练数据有关。

值得一提的是,Shy Kids 在他们的 prompt 中使用了「35 mm film(35 毫米胶片)」这个关键词,并发现这在一定程度上给了他们所追求的一致性。

灯光和调色

Shy Kids 在提示中使用"35mm 胶片"作为关键词,并发现"35mm"这个提示通常能给他们想要的一致性。

「如果我们需要高对比度,我们可以说高对比度,说关键光通常会给我们接近的东西,」Patrick 说,「我们仍然需要对它进行完整的色彩分级,我们做了自己的数字电影效果,我们在其中应用了颗粒和闪烁,只是为了将这一切融合在一起。」

Sora 没有提供额外的 pass,如遮罩或深度 pass 的选项。

06

版权问题

OpenAI 试图尊重版权,不允许生成可能侵犯版权或侵犯肖像权的内容。例如,如果用户的 prompt 类似于「35 毫米胶片,在一个未来主义的太空船中,一个男人拿着光剑向前走」,Sora 将不允许生成该片段,因为它太接近《星球大战》了。

Patrick 回忆说,当他们最初只是想测试 Sora 时:「我不假思索地输入了『阿罗诺夫斯基类型的镜头』,然后就被告知不能这样做。」Sora 出于版权问题会拒绝这类 prompt。

值得注意的是,Sora 生成的视频都是没有声音的,《Air Head》中主角 Sonny 的声音是 Patrick 本人的声音。Shy Kids 团队表示已经开始为《Air Head》制作一部精彩的、人物有自我意识的、或许带点讽刺意味的续集。但对于电影制作等实际项目来说,Sora 可能还需要一段时间才能达到创作者所需的精确度。

https://www.fxguide.com/fxfeatured/actually-using-sora/

https://www.youtube.com/watch?v=reMnn6bV_fI

https://twitter.com/dotey/status/1783765343975960915

如果你关注大模型领域,欢迎扫码加入我们的大模型交流群,来一起探讨大模型时代的共识和认知,跟上大模型时代的这股浪潮。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
陆毅女儿的腿真的太长了,我都开始怀疑是P的了

陆毅女儿的腿真的太长了,我都开始怀疑是P的了

圈里的甜橙子
2024-05-29 14:15:58
梵蒂冈国务卿表示希望在中国设立常设办事处,国台办回应

梵蒂冈国务卿表示希望在中国设立常设办事处,国台办回应

澎湃新闻
2024-05-29 11:34:34
2换1,再见鲍威尔!快船或酝酿五巨头交易,哈登夺冠倒计时?

2换1,再见鲍威尔!快船或酝酿五巨头交易,哈登夺冠倒计时?

元爸体育
2024-05-29 11:43:51
逼良为娼,被强迫拍了50部三级片:从车模到女优,她只走错了一步

逼良为娼,被强迫拍了50部三级片:从车模到女优,她只走错了一步

爱过的人去了哪里
2022-06-19 16:40:26
“人乳交易”乱象,成人1500竟能躺在怀里喝,暗访画面不堪入目!

“人乳交易”乱象,成人1500竟能躺在怀里喝,暗访画面不堪入目!

亿通电子游戏
2024-05-29 07:35:18
汪小菲额头有抓痕,婚后直播马筱梅未跟随,马筱梅长相太像S妈!

汪小菲额头有抓痕,婚后直播马筱梅未跟随,马筱梅长相太像S妈!

花花lo先森
2024-05-29 11:39:38
华为享界S9发布会定档5月31日

华为享界S9发布会定档5月31日

鞭牛士
2024-05-29 10:56:15
尼克-杨:我找科比在阿迪上签名 科比直接扔进垃圾桶说他只签耐克

尼克-杨:我找科比在阿迪上签名 科比直接扔进垃圾桶说他只签耐克

直播吧
2024-05-28 17:09:15
男子驾驶“老头乐”上路被上海警方拘留

男子驾驶“老头乐”上路被上海警方拘留

新民晚报
2024-05-29 13:40:06
福建舰和辽宁舰疑似联动!或测试舰载机A飞B收,演练双航母战法?

福建舰和辽宁舰疑似联动!或测试舰载机A飞B收,演练双航母战法?

看度时政观望
2024-05-29 10:39:24
突然卖不动!关店撤场,经销商集体逼宫

突然卖不动!关店撤场,经销商集体逼宫

21世纪经济报道
2024-05-27 16:33:57
大衣哥为孙子摆满月宴,亲家喝8699元的茅15,村民喝400元剑南春

大衣哥为孙子摆满月宴,亲家喝8699元的茅15,村民喝400元剑南春

谈娱新语
2024-05-28 22:13:05
周琦拒绝和广东队谈感情,王牌球员和杜锋撕破脸,胡明轩宣传大使

周琦拒绝和广东队谈感情,王牌球员和杜锋撕破脸,胡明轩宣传大使

宗介说体育
2024-05-29 13:53:28
蓝色泳装:夏日时尚之选

蓝色泳装:夏日时尚之选

室内设计师阿喇
2024-05-28 21:28:53
探花李寻欢翻车过程:跟女生扫二维码加好友时被网友截图曝光

探花李寻欢翻车过程:跟女生扫二维码加好友时被网友截图曝光

挪威森林
2024-05-26 16:50:02
比亚迪第五代DM-i技术:一箱油,穿越中国!

比亚迪第五代DM-i技术:一箱油,穿越中国!

小诺诺在路上
2024-05-28 22:06:57
忽悠年轻人社保缴满15年等退休,你退休了他们可不会给你养老

忽悠年轻人社保缴满15年等退休,你退休了他们可不会给你养老

唠叨张师傅
2024-04-27 14:57:28
他是原中央政治局常委,连任三大省委书记,1969年被秘密处决

他是原中央政治局常委,连任三大省委书记,1969年被秘密处决

历史1949
2024-05-28 00:38:22
毛晓彤求你别再整了!在《庆余年》里假体都要飞出来了,太吓人

毛晓彤求你别再整了!在《庆余年》里假体都要飞出来了,太吓人

谈娱新语
2024-05-24 22:23:27
千门八将大结局,乔巴担下一切

千门八将大结局,乔巴担下一切

金昔说故事
2024-05-29 13:38:28
2024-05-29 14:58:44
FounderPark
FounderPark
关注AI创业,专注和创业者聊真问题
149文章数 10关注度
往期回顾 全部

科技要闻

王传福再放狠话,燃油车要成“非主流”

头条要闻

白天辉4年受贿11亿元获死刑 曾在反腐片里揭露赖小民

头条要闻

白天辉4年受贿11亿元获死刑 曾在反腐片里揭露赖小民

体育要闻

阿根廷一代神锋,击碎了沙特的金元足球梦

娱乐要闻

张若昀怎么剧外比剧内更惨兮兮…

财经要闻

东方通收购藏雷 花6亿买来"业绩变脸"

汽车要闻

新哈弗H6苦练内功 向燃油车绝缘智能SAY NO

态度原创

房产
亲子
艺术
旅游
公开课

房产要闻

有点猛!最新房价:海南每㎡跌了2000多!

亲子要闻

家有萌娃,萌娃看电视模仿跳水!

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

旅游要闻

希尔顿一会员退房时被罚3000元,理由令人震惊

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版