参考消息网2月22日报道 澳大利亚“对话”网站2月20日刊登题为《什么是Sora?一种新的生成式人工智能工具可能改变视频制作并放大虚假信息风险》的文章,作者是澳大利亚莫纳什大学人机交互专业博士研究生瓦希德·普尔优素福和瑞典林雪平大学数据可视化专业助理教授洛妮·贝桑松,内容编译如下:
上周晚些时候,开放人工智能研究中心(OpenAI)宣布了一款名为“天空”(Sora)的新生成式人工智能系统,该系统可以根据文本提示生成短视频。虽然Sora尚未向公众开放,但迄今为止发布的高质量样本已经引起了既兴奋又担忧的反应。
OpenAI发布的样本视频(该公司称这些视频是由Sora直接制作,未经修改)显示了文本提示得到的结果,比如“两艘海盗船在一杯咖啡内航行时互相战斗的逼真特写视频”和“加利福尼亚州在淘金热期间的历史影像资料”。
乍一看,由于视频、纹理、场景动态、镜头运动的高质量以及良好的连贯性,人们往往很难看出它们是由人工智能生成的。
OpenAI首席执行官萨姆·奥尔特曼还在X平台(前身为推特)上发布了一些根据用户建议的提示生成的视频,以展示Sora的功能。
两大基础
Sora将文本和图像生成工具的功能结合在所谓的“扩散Transformer模型”中。
Transformer是谷歌公司2017年首次推出的一种神经网络。其因在ChatGPT和“双子座”(Gemini)等大型语言模型中的应用而闻名。
而另一方面,扩散模型是许多人工智能图像生成器的基础。它们的工作原理是从随机噪声开始,然后迭代到符合输入提示的“洁净”图像。
视频可以由一系列此类图像制成。而在一段视频中,各帧图像之间的连贯性和一致性至关重要。
Sora使用Transformer架构来处理帧之间的关系。虽然Transformer最初设计用于在表示文本的标记中查找模式,但Sora却是使用标记来表示小块空间和时间。
领先群雄
Sora并不是第一个文本转视频模型。早期的模型包括元宇宙平台公司的Emu、“跑道”人工智能公司的Gen-2、“稳定”人工智能公司的Stable Video Diffusion以及谷歌公司最近推出的Lumiere。
几周前发布的Lumiere号称可以制作比其前身更好的视频。但Sora至少在某些方面似乎比Lumiere更强大。
Sora可以生成分辨率高达1920×1080像素和多种画面比例的视频,而Lumiere的视频仅限于512×512像素。Lumiere的视频长度约为5秒,而Sora的视频可长达60秒。
Lumiere无法制作由多个镜头组成的视频,而Sora可以。据说,与其他模型一样,Sora也能够执行视频编辑任务,例如从图像或其他视频创建视频、组合不同视频的元素和及时扩展视频。
这两种模型都能生成大体真实的视频,但可能会产生幻像。Lumiere的视频可能更容易被认出是人工智能生成的。Sora的视频看起来更具动态,元素之间有更多的互动。
然而,在许多示例视频中,人们仔细观察就会发现有明显的矛盾之处。
大有前途
目前,视频内容都是通过拍摄现实世界或使用特效来制作的,这两种方式可能会成本高昂且非常耗时。如果Sora以合理的价格上市,人们可能就会开始用它作为原型设计软件,从而以更低的成本将想法可视化。
根据对Sora功能的了解,它甚至可以用于为娱乐、广告和教育领域的某些应用程序创建短视频。
OpenAI关于Sora的技术论文标题为《视频生成模型作为世界模拟器》。论文称,像Sora这样的更大版本视频生成器可以作为“物理和数字世界以及置身其中的物体、动物和人的有效模拟器”。
如果真是这样,未来的版本可能会在物理、化学甚至社会实验方面具有科学应用。例如,人们也许能够测试不同规模的海啸对不同类型的基础设施以及附近人们的身心健康的影响。
实现这种水平的模拟非常具有挑战性,一些专家表示,像Sora这样的系统根本无法做到这一点。
一个完整的模拟器需要以宇宙中最详细的水平来计算物理和化学反应。不过,在未来几年内,也许可以实现对世界的粗略近似模拟并制作以人眼看来逼真的视频。
暗藏风险
人们对Sora这样的工具的主要担忧是其社会和道德影响。在一个已经被虚假信息困扰的世界中,像Sora这样的工具可能会让事情变得更糟。
我们很容易看出,生成任何可描述场景的逼真视频的能力将能够如何被用来传播令人信服的假新闻或让人对真实镜头产生怀疑。它可能会危及公共卫生措施,被用来影响选举,甚至可能产生虚假证据而给司法系统造成负担。
视频生成器还可能通过深度伪造(尤其是色情内容)对目标个人造成直接威胁。这可能会对受影响个人及其家人的生活产生可怕的影响。
除了这些问题之外,还存在版权和知识产权问题。生成式人工智能工具需要大量数据来进行训练,而OpenAI尚未透露Sora的训练数据来自何处。
大型语言模型和图像生成器也因此受到批评。在美国,一些著名作者因他们的作品可能被滥用而起诉了OpenAI。该案诉称,大型语言模型和使用它们的公司正在窃取著作者的作品来创建新内容。
近年来,技术走在法律前面已经不是第一次了。例如,社交媒体平台审核内容的义务问题在过去几年引发了激烈争论,其中大部分围绕《美国法典》第230条展开。
虽然这些担忧是真实存在的,但根据过去的经验,它们并不会阻止视频生成技术的开发。OpenAI表示,在向公众开放Sora之前,它正在“采取几项重要的安全措施”,包括与“错误信息、仇恨内容和偏见”方面的专家合作,以及“构建帮助识别误导性内容的工具”。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.