日前有消息显示,OpenAI于今年2月推出的全新视频生成大模型Sora三位负责人接受了一位海外科技博主的采访。据了解,这三位负责人分别是Bill Peebles、Tim Brooks、Aditya Ramesh,其中Aditya Ramesh同时也是OpenAI图像生成模型DALL·E的开发者。
在此次采访中,他们谈及了Sora的原理、优缺点、发展路线、安全性,以及对创造力的影响等话题,并明确表示Sora目前处于反馈获取阶段,还不是一个产品,短期内不会向公众开放。
据悉,Sora可根据文本提示词输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。相较之下,同类产品的平均单个视频生成长度为4秒。同时Sora还具备根据静态图像生成视频的能力,可以让图像内容动起来,并关注细节部分,使得所生成的视频更加生动逼真。
在被问及Sora的工作原理时,Sora这三位负责人表示,Sora融合了扩散模型(如DALL-E)和大型语言模型(如GPT系列)的技术,架构上Sora类似于介于两者之间,训练方式类似于DALL-E,但在结构上更像GPT。而关于Sora的优缺点,他们则表示,Sora擅长生成写实类视频,并且可以生成1分钟时长的视频,但仍然存在一些问题,比如手部细节、摄像机轨迹、物理现象变化等。此外,Sora这三位负责人还强调,Sora不仅支持根据文本提示词生成视频,还能够用视频合成的方式生成视频,实现在完全不同主题和场景构成的视频之间无缝过渡。
对于“Sora的训练数据来源于哪里”这一问题,Tim Brooks并未正面回应,仅表示使用的是公开数据和OpenAI被授权使用的数据。同时他还分享了Sora在训练过程的所采用的一个“技术创新”,即其能在不同时长、宽高比、分辨率的视频上训练。相比之下,其他图像或视频生成模型的训练素材的尺寸通常是非常固定的。据Tim Brooks透露,Sora可以采样1920×1080、1080×1920,以及介于两者之间的所有视频。
面对“Sora现在生成的视频中为什么没有声音,你们计划何时为视频加入声音”这一问题,Bill Peebles表示,初代Sora就是一个视频生成模型,该团队的重心在于改进其生成视频的能力。同时他还透露,虽然加入其他类型的内容会使视频更具有沉浸式体验,而且这也是该团队正在考虑的事情,但目前还很难给出确切的实现时间表。
对于“Sora是否真的能够生成以假乱真的视频,以及是否有相关举措用以应对Sora被滥用”这一问题,这三位负责人则表示,“这确实是可能的,当然,当我们快要接近时,必须小心谨慎,确保相关的功能不被用来传播虚假信息”。据他们透露,作为安全措施的一部分,OpenAI为DALL·E 3训练的可以识别图像是否由模型生成的溯源分类器(provenance classifier)也将适用于Sora。
在谈及Sora将给世界带来的影响时,Aditya Ramesh表示,他能感受到人们对此产生的焦虑,并承诺团队将以负责、安全的方式部署这项技术。同时他也认为,Sora将带来很多新的机会和可能,“例如,如果一个人有制作电影的想法,但拿到投资真正地制作电影很难,因为制作公司必须衡量预算和风险,而AI可以极大地降低从产生创意到完成视频的成本,这就很酷”。
【本文图片来自网络】
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.