相关负责人透露，Sora短期内还不会向公众开放|原理|sora|视频生成模型

相关负责人透露，Sora短期内还不会向公众开放

2024-03-13 18:30:06　来源: 三易生活

湖北举报

分享至

日前有消息显示，OpenAI于今年2月推出的全新视频生成大模型Sora三位负责人接受了一位海外科技博主的采访。据了解，这三位负责人分别是Bill Peebles、Tim Brooks、Aditya Ramesh，其中Aditya Ramesh同时也是OpenAI图像生成模型DALL·E的开发者。

在此次采访中，他们谈及了Sora的原理、优缺点、发展路线、安全性，以及对创造力的影响等话题，并明确表示Sora目前处于反馈获取阶段，还不是一个产品，短期内不会向公众开放。

据悉，Sora可根据文本提示词输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。相较之下，同类产品的平均单个视频生成长度为4秒。同时Sora还具备根据静态图像生成视频的能力，可以让图像内容动起来，并关注细节部分，使得所生成的视频更加生动逼真。

在被问及Sora的工作原理时，Sora这三位负责人表示，Sora融合了扩散模型（如DALL-E）和大型语言模型（如GPT系列）的技术，架构上Sora类似于介于两者之间，训练方式类似于DALL-E，但在结构上更像GPT。而关于Sora的优缺点，他们则表示，Sora擅长生成写实类视频，并且可以生成1分钟时长的视频，但仍然存在一些问题，比如手部细节、摄像机轨迹、物理现象变化等。此外，Sora这三位负责人还强调，Sora不仅支持根据文本提示词生成视频，还能够用视频合成的方式生成视频，实现在完全不同主题和场景构成的视频之间无缝过渡。

对于“Sora的训练数据来源于哪里”这一问题，Tim Brooks并未正面回应，仅表示使用的是公开数据和OpenAI被授权使用的数据。同时他还分享了Sora在训练过程的所采用的一个“技术创新”，即其能在不同时长、宽高比、分辨率的视频上训练。相比之下，其他图像或视频生成模型的训练素材的尺寸通常是非常固定的。据Tim Brooks透露，Sora可以采样1920×1080、1080×1920，以及介于两者之间的所有视频。

面对“Sora现在生成的视频中为什么没有声音，你们计划何时为视频加入声音”这一问题，Bill Peebles表示，初代Sora就是一个视频生成模型，该团队的重心在于改进其生成视频的能力。同时他还透露，虽然加入其他类型的内容会使视频更具有沉浸式体验，而且这也是该团队正在考虑的事情，但目前还很难给出确切的实现时间表。

对于“Sora是否真的能够生成以假乱真的视频，以及是否有相关举措用以应对Sora被滥用”这一问题，这三位负责人则表示，“这确实是可能的，当然，当我们快要接近时，必须小心谨慎，确保相关的功能不被用来传播虚假信息”。据他们透露，作为安全措施的一部分，OpenAI为DALL·E 3训练的可以识别图像是否由模型生成的溯源分类器（provenance classifier）也将适用于Sora。

在谈及Sora将给世界带来的影响时，Aditya Ramesh表示，他能感受到人们对此产生的焦虑，并承诺团队将以负责、安全的方式部署这项技术。同时他也认为，Sora将带来很多新的机会和可能，“例如，如果一个人有制作电影的想法，但拿到投资真正地制作电影很难，因为制作公司必须衡量预算和风险，而AI可以极大地降低从产生创意到完成视频的成本，这就很酷”。

【本文图片来自网络】

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.