网易首页 > 网易号 > 正文 申请入驻

揭秘Sora:开发团队成立不到1年,核心成员包含多位华人

0
分享至

每经记者:文巧 每经编辑:兰素英

2月16日,OpenAI的AI视频模型Sora炸裂出道,生成的视频无论是清晰度、连贯性和时间上都令人惊叹,一时间,诸如“现实不存在了”的评论在全网刷屏。

Sora是如何实现如此颠覆性的能力的呢?这就不得不提到其背后的两项核心技术突破——Spacetime Patch(时空Patch)技术和Diffusion Transformer(DiT,或扩散型 Transformer)架构。

《每日经济新闻》记者查询这两项技术的原作论文发现,时空Patch的技术论文实际上是由谷歌DeepMind的科学家们于2023年7月发表的。DiT架构技术论文的一作则是Sora团队领导者之一William Peebles,但戏剧性的是,这篇论文曾在2023年的计算机视觉会议上因“缺少创新性”而遭到拒绝,仅仅1年之后,就成为Sora的核心理论之一。

如今,Sora团队毫无疑问已经成为世界上最受关注的技术团队之一。记者查询OpenAI官网发现,Sora团队由Peebles等3人领导,核心成员包括12人,其中有多位华人。值得注意的是,这支团队十分年轻,成立时间尚未超过1年。

创新“站在谷歌肩上”

此前,OpenAI在X平台上展示了Sora将静态图像转换为动态视频的几个案例,其逼真程度令人惊叹。Sora是如何做到这一点的呢?这就不得不提到该AI视频模型背后的两项核心技术——DiT架构和Spacetime Patch(时空Patch)。

据外媒报道,Spacetime Patch是Sora创新的核心之一,该 项 技 术 是 建 立 在 谷 歌DeepMind对NaViT(原生分辨率视觉Transformer)和ViT(视觉Transformer)的早期研究基础上。

Patch可以理解为Sora的基本单元,就像GPT-4 的基本单元是Token。Token是文字的片段,Patch则是视频的片段。GPT-4被训练以处理一串Token,并预测出下一个Token。Sora遵循相同的逻辑,可以处理一系列的Patch,并预测出序列中的下一个Patch。

Sora之所以能实现突破,在于其通过Spacetime Patch将视频视为补丁序列,Sora保持了原始的宽高比和分辨率,类似于NaViT对图像的处理。这对于捕捉视觉数据的真正本质至关重要,使模型能够从更准确的表达中学习,从而赋予Sora近乎完美的准确性。由此,Sora能够有效地处理各种视觉数据,而无需调整大小或填充等预处理步骤。

记者注意到,OpenAI发布的Sora技术报告中透露了Sora的主要理论基础,其中Patch的技术论文名为Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution。记者查询预印本网站arxiv后发现,该篇论文是由谷歌DeepMind的科学家们于2023年7月发表的。

相关论文曾遭拒绝

除此之外,Sora的另一个重大突破是其所使用的架构,传统的文本到视频模型(如Runway、Stable Diffusion)通常是扩散模型(Diffusion Model),文本模型例如GPT-4则是Transformer模型,而Sora则采用了DiT架构,融合了前述两者的特性。

据报道,传统的扩散模型的训练过程是通过多个步骤逐渐向图片增加噪点,直到图片变成完全无结构的噪点图片,然后在生成图片时,逐步减少噪点,直到还原出一张清晰的图片。Sora采用的架构是通过Transformer的编码器-解码器架构处理包含噪点的输入图像,并在每一步预测出更清晰的图像。DiT架构结合时空Patch,让Sora能够在更多的数据上进行训练,输出质量也得到大幅提高。

OpenAI发布的Sora技术报告透露,Sora采用的DiT架构是基于一篇名为Scalable diffusion models with transformers的学术论文。记者查询预印本网站arxiv后发现,该篇原作论文是2022年12月由伯克利大学研究人员William (Bill) Peebles和纽约大学的一位研究人员Saining Xie共同发表。William (Bill) Peebles之后加入了OpenAI,领导Sora技术团队。

然而,戏剧化的是,Meta的AI科学家Yann LeCun在X平台上透露,“这篇论文曾在2023年的计算机视觉会议(CVR2023)上因‘缺少创新性’而遭到拒绝,但在2023年国际计算机视觉会议(ICCV2023)上被接受发表,并且构成了Sora的基础。”

作为最懂DiT架构的人之一,在Sora发布后,Saining Xie在X平台上发表了关于Sora的一些猜想和技术解释,并表示,“Sora确实令人惊叹,它将彻底改变视频生成领域。”

“当Bill和我参与DiT项目时,我们并未专注于创新,而是将重点放在了两个方面:简洁性和可扩展性。”他写道:“简洁性代表着灵活性。关于标准的ViT,人们常忽视的一个亮点是,它让模型在处理输入数据时变得更加灵活。例如,在遮蔽自编码器(MAE)中,ViT帮助我们只处理可见的区块,忽略被遮蔽的部分。同样,Sora可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的尺寸。”

不过,他认为,关于Sora仍有两个关键点尚未被提及。一是关于训练数据的来源和构建,这意味着数据很可能是Sora成功的关键因素;二是关于(自回归的)长视频生成,Sora的一大突破是能够生成长视频,但OpenAI尚未揭示相关的技术细节。

开发团队还有“00后”

随着Sora的爆火,Sora团队也来到世界舞台的中央,引发了持续的关注。记者查询OpenAI官网发现,Sora团队由William Peebles等3人领导,核心成员包括12人。从团队领导和成员的毕业和入职时间来看,这支团队成立的时间较短,尚未超过1年。

从年龄上来看,这支团队也非常年轻,两位研究负责人都是在2023年才刚刚博士毕业。William (Bill) Peebles于去年5月毕业,其与Saining Xie合著的扩散Transformer论文成为Sora的核心理论基础。Tim Brooks于去年1月毕业,是DALL-E 3的作者之一,曾在谷歌和英伟达就职。

团队成员中甚至还有“00后”。团队中的Will DePue生于2003年,2022年刚从密西根大学计算机系本科毕业,在今年1月加入Sora项目组。

此外,团队还有几位华人。据媒体报道,Li Jing是DALL-E 3的共同一作,2014年本科毕业于北京大学物理系,2019年获得MIT物理学博士学位,于2022年加入OpenAI。Ricky Wang则是今年1月刚刚从Meta跳槽到OpenAI。其余华人员工包括Yufei Guo等尚未有太多公开资料介绍。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东人打广东人!中国最惨烈的汉族民系内战,为什么发生在广东?

广东人打广东人!中国最惨烈的汉族民系内战,为什么发生在广东?

环球情报员
2026-05-08 15:12:22
一艘中国船东所有的油轮遇袭,外交部:船上有中国籍船员,目前暂无伤亡情况

一艘中国船东所有的油轮遇袭,外交部:船上有中国籍船员,目前暂无伤亡情况

澎湃新闻
2026-05-08 15:36:29
外籍银行高层虐杀两名女子,香港湾仔豪宅双尸案首次解密

外籍银行高层虐杀两名女子,香港湾仔豪宅双尸案首次解密

半岛晨报
2026-05-08 18:59:32
国乒幕后功臣浮出水面!能战胜韩国有原因,王皓躲过一劫太幸运

国乒幕后功臣浮出水面!能战胜韩国有原因,王皓躲过一劫太幸运

三十年莱斯特城球迷
2026-05-08 22:57:55
保住纳税人的钱!美国防部长宣布采购革命:企业自己掏钱建厂,交不出货就换人

保住纳税人的钱!美国防部长宣布采购革命:企业自己掏钱建厂,交不出货就换人

爆角追踪
2026-05-08 08:22:25
小马云范小勤成年后首次直播:礼物刷屏不断 在线人数一度破7万

小马云范小勤成年后首次直播:礼物刷屏不断 在线人数一度破7万

快科技
2026-05-08 14:42:08
富士山上挥舞国旗,被美军嘲笑?

富士山上挥舞国旗,被美军嘲笑?

十柱
2026-05-08 17:04:52
“汉坦病毒”来势汹汹,建议:每家备好5样东西,关键时刻能救命

“汉坦病毒”来势汹汹,建议:每家备好5样东西,关键时刻能救命

健康科普365
2026-05-08 15:00:16
中国队3-0横扫韩国!赛后传来3不可思议2事实,闫安点评一针见血

中国队3-0横扫韩国!赛后传来3不可思议2事实,闫安点评一针见血

曹说体育
2026-05-08 10:43:08
国务院一纸令下!六月起强制执行,骑电动车再也不用见警就躲了

国务院一纸令下!六月起强制执行,骑电动车再也不用见警就躲了

今朝牛马
2026-05-07 20:58:21
新华社快讯:美军说向两艘伊朗油轮开火,使其丧失航行能力

新华社快讯:美军说向两艘伊朗油轮开火,使其丧失航行能力

新华社
2026-05-08 22:18:31
39岁男子在公司外猝死,事前曾说“身上冷”,家属认为其在岗期间身体不适申请工伤,公司:他已正常下班几个小时

39岁男子在公司外猝死,事前曾说“身上冷”,家属认为其在岗期间身体不适申请工伤,公司:他已正常下班几个小时

极目新闻
2026-05-08 16:11:52
浏阳烟花厂爆炸37人死亡,湖南省委书记召开调度会,现场全体默哀;芒果TV宣布《亲爱的·客栈2026》《乘风2026》《你好,星期六》推迟播出

浏阳烟花厂爆炸37人死亡,湖南省委书记召开调度会,现场全体默哀;芒果TV宣布《亲爱的·客栈2026》《乘风2026》《你好,星期六》推迟播出

大风新闻
2026-05-08 14:15:10
36岁名校海归博士求职无门:不上班最难受的不是没钱,是精神失重

36岁名校海归博士求职无门:不上班最难受的不是没钱,是精神失重

三言四拍
2026-05-08 09:01:06
谁是五一“吸金王”?这5座城市让游客心甘情愿掏钱包

谁是五一“吸金王”?这5座城市让游客心甘情愿掏钱包

晓栗
2026-05-08 01:08:33
“我妈有两个‘老公’”,OPPO就母亲节文案致歉:创作初衷,是希望打破刻板印象,呈现更多元、更立体的当代母亲形象,已下架相关物料

“我妈有两个‘老公’”,OPPO就母亲节文案致歉:创作初衷,是希望打破刻板印象,呈现更多元、更立体的当代母亲形象,已下架相关物料

扬子晚报
2026-05-08 17:38:48
114国拒绝签字,美式“全球标准”遭群嘲,中国禁令已先行3天

114国拒绝签字,美式“全球标准”遭群嘲,中国禁令已先行3天

流史岁月
2026-05-08 13:40:32
快讯!国际足联还是低头了!

快讯!国际足联还是低头了!

故事终将光明磊落
2026-05-08 16:00:50
许家印认罪10天后,“保护伞”终于被扒出,想跑?

许家印认罪10天后,“保护伞”终于被扒出,想跑?

阿甘天天传
2026-05-08 11:09:57
汉坦病毒阳性乘客登上邮轮的前一天,中国乘客陈勇下船离开:已向防疫部门报备并在家自我隔离

汉坦病毒阳性乘客登上邮轮的前一天,中国乘客陈勇下船离开:已向防疫部门报备并在家自我隔离

极目新闻
2026-05-08 19:09:52
2026-05-09 00:44:49
每日经济新闻 incentive-icons
每日经济新闻
中国主流财经全媒体平台。
1563373文章数 2725794关注度
往期回顾 全部

科技要闻

SK海力士平均奖金600万 工服成相亲神器

头条要闻

外籍银行高层在香港豪宅性虐及杀害两女子 内幕解密

头条要闻

外籍银行高层在香港豪宅性虐及杀害两女子 内幕解密

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

估值3000亿 DeepSeek寻求500亿元融资

汽车要闻

MG 4X实车亮相 将于5月11日开启盲订

态度原创

亲子
家居
教育
游戏
军事航空

亲子要闻

家长的五个坏习惯,可能影响孩子一生!

家居要闻

流动的尺度 打破家的形式主义

教育要闻

摒弃打压式教育,让家庭教育走出攀比阴影

PS未发售重磅独占要完!同类项目崩盘 新作悬了

军事要闻

伊朗:最高领袖穆杰塔巴全面掌控局势

无障碍浏览 进入关怀版