网易首页 > 网易号 > 正文 申请入驻

Sora如何降维打击其他文生视频大模型?记者实测对比

0
分享至

OpenAI的文生视频大模型Sora已经发布两天,其冲击力依然不减。

2月18日,新京报贝壳财经记者进行了Sora与其他文生视频大模型的对比测试,发现Sora在时间和视频生成质量上均对“同行”产生了“降维打击”:其他文生视频大模型仅能生成3至4秒的视频,而Sora生成的视频时间最多可达1分钟,且景物也更加清晰稳定、符合描述。

不过,随着越来越多使用Sora制作的视频出现以及部分技术细节的公开,业界开始对其进行全方位审视,其中,赞扬和惊叹声不少,但Sora生成的视频也被发现存在诸多不合理之处。

文生视频对比实测:Sora从“动图”升级到“短片”

“一个时髦的女人走在东京的街道上,街道上充满了温暖发光的霓虹灯和生动的城市标志。她穿着一件黑色的皮夹克,一件红色的长裙,一双黑色的靴子,还带着一个黑色的钱包。她戴着太阳镜,涂着红色的口红。她自信而随意地走着。街道是潮湿和反光的,创造了一个五颜六色的灯的镜面效果。许多行人走来走去。”这是OpenAI官网介绍Sora时,出现的第一组提示词。

在OpenAI推出Sora之前,文生视频领域的创业公司主要包括Pika、Runway等,为了验证Sora的能力,新京报贝壳财经记者将上述同样的提示词输入Pika文生视频模型,以及Runway旗下的Gen-2video文生视频模型进行了实测。

在相同提示词下,新京报贝壳财经记者使用Pika生成的视频截图。

在相同提示词下,新京报贝壳财经记者使用runway旗下Gen-2video生成的视频截图。

OpenAI官网上Sora生成的视频。

贝壳财经记者发现,在相同的提示词下,Pika仅能生成3秒的视频,Gen-2video则可以生成4秒的视频。其中,Pika的视频为“时髦女人”的背影,无法体现她“戴着太阳镜,涂着红色的口红”的描述,不过对于提示词中“潮湿反光的街道和五颜六色灯的镜面效果”体现得较好,但整体上视频较为模糊。

Gen-2video则跳出了“无法输入这么多提示词”的弹窗,并根据能够输入的部分生成了一个4秒的视频,该视频相比Pika显然精细很多,也符合提示词描述的人物形象,包括“街道、人群、黑钱包”等。

但可以发现,无论是Pika还是Gen-2video,都忽略了“一件红色的长裙”这个细节,且贝壳财经记者通过观看视频发现,这两段视频仍能看出AI生成的影子,特别是Gen-2video的人物脸部,有细微的形变,这正是AI生成视频的特点之一:难以始终保持同一人物的连贯性。

而Sora不仅体现了提示词中的全部细节,而且还很好地保持了人物的连贯性,使得该视频几乎可以“以假乱真”。当然,如果仔细观察,可以发现该视频中人物的脚步在某几个帧会出现不自然的扭曲,以及该视频中的背景广告牌虽然酷似日文,但由于目前AI还无法直接在视频中“认识”文字,其只能生成似是而非的“日文”,这都是AI生成视频的特点之一。

但即便如此,Sora还是用事实显现出了同其他文生视频大模型的代差。

在谷歌和推特都有从业经历的AI创业者Gabor Cselle也发布了使用相同提示词,在其他四个文生视频模型中“复现”Sora“穿过下雪、樱花飞舞的东京街道……”的场景,并表示“其他模型达不到能和Sora比较的效果”。

Gabor Cselle社交账号截图。

在国内,也有不少AI从业者直观地感受到了Sora带来的冲击。

清华大学沈阳教授团队一直聚焦AI在各个领域的应用,并也一直在使用AI模型进行文生视频的操作。2月17日,他在朋友圈发布了一条团队成员花两天制作的“半失败”AI视频,并表示“从这里可以看出和Sora的差距,我让她暂时放弃这个作品,等算法升级再重做一下。”

对于Sora出现后,使用AI制作视频的工作能否继续,沈阳回复贝壳财经记者“慢慢弄,往前挪呗”。

理解物理世界 颠覆影视、游戏行业 Sora是“通用世界模型”吗?

为何Sora能够在视频生成的质量上明显领先同业产品?OpenAI在官方网站上表示,Sora是能够理解和模拟现实世界的模型的基础,相信这一能力将是实现通用人工智能的重要里程碑。不过,Sora还存在很多不完善之处,仍然处于世界模型研究应用的初期阶段。

什么是世界模型?贝壳财经了解到,实际上runway公司在去年12月就提出过要开发通用世界模型(General World Model),用其旗下的Gen-2模型来模拟整个世界,“我们相信,人工智能的下一个重大进步将来自理解视觉世界及其动态的系统,这就是为什么我们要围绕通用世界模型开始一项新的长期研究工作。”

从效果上看,目前OpenAI已经通过Sora部分做到了这一点,因为只有理解物理世界的运行法则,文生视频模型才能创造出更加逼真的视频。英伟达高级科学家Jim Fan就对此表示,Sora是一个数据驱动的物理引擎,“它是对许多世界的模拟,无论是真实的,还是虚构的。该模拟器通过去噪和梯度学习方式,学习了复杂的渲染、直观的物理、长期推理和语义理解。”

而理解现实世界的物理法则,也正是通往通用人工智能这一“终极目标”的必经之路。

对此,不少科技圈名人都发出了惊叹,马斯克直接在社交平台上发布短评“GG世界”(GG是网络游戏的用语之一,原指游戏结束时玩家互相致意,后引申为“游戏结束”)。

360公司董事长周鸿祎则直接在朋友圈发文称,一旦AI能够接上摄像头,观看并理解世界上所有的电影,它对世界的理解能力将远远超过仅仅通过文字学习所能达到的水平。在这种情况下,实现通用人工智能不再是遥不可及的梦想。周鸿祎甚至预测,这一天可能在一两年内就会到来,而不是十年或二十年。

在现实层面,有更多人担心文生视频大模型可能直接冲击影视和游戏行业。美国旧金山早期投资人Zak Kukoff预测,在5年内,一个不到5人的团队将可能用文生视频模型制作出一部票房收入超过5000万美元的电影。

值得注意的是,日前大火的游戏《幻兽帕鲁》的开发团队就仅有4人,有许多人质疑该团队使用了AI生成技术制作游戏角色,以节省成本。而根据OpenAI 发布的最新Sora技术报告,Sora能够模拟视频游戏的数字化过程,Sora能在控制 Minecraft 游戏角色进行基本操作的同时,高质量动态渲染游戏世界。这意味着,个人开发制作游戏的门槛可能会被进一步降低。

前阿里巴巴副总裁,Lepton AI公司创始人贾扬清则直接评价Sora“真的非常牛”,他表示Sora的问世可能会给对作OpenAI的公司带来一波被大厂FOMO(害怕错过机会而导致的收购)收购的机会。贾扬清预测,大模型市场长期仍将呈现闭源寡头的格局,开源大模型仍然需要一段时间才能追赶上,而从算法小厂的角度来看,要么在算法上与OpenAI媲美,要么深耕垂直领域的应用,要么选择开源道路;最后,基础设施的需求将继续猛增。

记者联系邮箱:luoyidan@xjbnews.com

新京报贝壳财经记者 罗亦丹

编辑 岳彩周

校对 卢茜

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
难以置信!第一神童宁铂,17岁留校任教,27岁被关监狱,38岁出家

难以置信!第一神童宁铂,17岁留校任教,27岁被关监狱,38岁出家

从零到一研究所
2026-06-25 17:45:36
香港演员苗金凤去世,享年81岁!《女人俱乐部》成最后作品

香港演员苗金凤去世,享年81岁!《女人俱乐部》成最后作品

TVB剧评社
2026-06-25 21:39:08
1-0!3-0!随着韩国队“爆冷”输球,亚洲首支晋级32强赛球队诞生

1-0!3-0!随着韩国队“爆冷”输球,亚洲首支晋级32强赛球队诞生

童叔不飙车
2026-06-26 00:56:19
3场3助攻!巴西28岁中场大师创队史60年神迹:辅佐维尼修斯冲冠

3场3助攻!巴西28岁中场大师创队史60年神迹:辅佐维尼修斯冲冠

李喜林篮球绝杀
2026-06-25 16:19:40
0-3,将欧洲球队脸都丢光了,水平和国足差不多,怎么进世界杯的

0-3,将欧洲球队脸都丢光了,水平和国足差不多,怎么进世界杯的

我就是一个说球的
2026-06-25 19:03:20
世界杯比赛前瞻丨厄瓜多尔2-1德国:击败德国出线?谁来进球呢?

世界杯比赛前瞻丨厄瓜多尔2-1德国:击败德国出线?谁来进球呢?

体育世界
2026-06-25 15:12:23
美军震不震惊不清楚我反正挺震惊

美军震不震惊不清楚我反正挺震惊

阿亮评论
2026-06-25 18:51:44
开场1分49秒破门,萨内打进德国队历史世界杯第二快进球

开场1分49秒破门,萨内打进德国队历史世界杯第二快进球

懂球帝
2026-06-26 04:28:10
C罗正式宣布乔治娜是妻子!世界杯结束后办婚礼

C罗正式宣布乔治娜是妻子!世界杯结束后办婚礼

喜欢历史的阿繁
2026-06-25 17:35:55
Here we go!罗马诺:纳撒尼尔-布朗5500万欧元加盟拜仁

Here we go!罗马诺:纳撒尼尔-布朗5500万欧元加盟拜仁

懂球帝
2026-06-26 02:21:04
广德车祸全网唏嘘:原本有三次机会刹车,女司机的态度让人寒心

广德车祸全网唏嘘:原本有三次机会刹车,女司机的态度让人寒心

壹月情感
2026-06-25 22:17:04
今天又见证历史了

今天又见证历史了

贩财局
2026-06-25 16:26:59
东大人的总体财富正在缩水

东大人的总体财富正在缩水

西楼饮月
2026-06-25 20:12:26
一箱油跑1400km!丰田混动获中汽研认证,国产对手慌了?

一箱油跑1400km!丰田混动获中汽研认证,国产对手慌了?

侃故事的阿庆
2026-06-26 02:14:08
泽连斯基倒逼卢卡申科与普京切割,白俄必须在俄乌之间选边站了

泽连斯基倒逼卢卡申科与普京切割,白俄必须在俄乌之间选边站了

合赞历史
2026-06-25 18:06:23
屏蔽生放弃清北选港大牙科:168万奖学金背后,是专业主义的胜利?

屏蔽生放弃清北选港大牙科:168万奖学金背后,是专业主义的胜利?

户外阿毽
2026-06-26 02:52:46
中央定调,2026年养老金调整或将启动,企业退休涨幅2.4%难不难?

中央定调,2026年养老金调整或将启动,企业退休涨幅2.4%难不难?

虎哥闲聊
2026-06-25 13:27:27
王永珀现状:现身世界杯,娶金融高材生妻子,今定居洛杉矶不回国

王永珀现状:现身世界杯,娶金融高材生妻子,今定居洛杉矶不回国

老吴教育课堂
2026-06-26 03:22:41
增强成人内容生成,已成马斯克旗下Grok的主要流量增长策略

增强成人内容生成,已成马斯克旗下Grok的主要流量增长策略

不看车bukanche
2026-06-25 11:12:54
加息,突变!美联储,重磅传来!美国重大发布

加息,突变!美联储,重磅传来!美国重大发布

证券时报
2026-06-25 21:54:03
2026-06-26 06:40:49
贝壳财经 incentive-icons
贝壳财经
新京报旗下财经品牌
66329文章数 14040关注度
往期回顾 全部

科技要闻

存储成本压力山大!苹果罕见全球提价

头条要闻

超巴西独享第1 德国1-2厄瓜多尔时隔12年重返淘汰赛

头条要闻

超巴西独享第1 德国1-2厄瓜多尔时隔12年重返淘汰赛

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

又有纸尿裤送检后被检测出甲酰胺!

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

本地
教育
房产
公开课
军事航空

本地新闻

2026世界杯全勤太难?这份保姆级攻略请收好

教育要闻

山东高考生注意!近800个高考志愿填报咨询服务站,分两时段开放 ,免费服务考生

房产要闻

城市精英集体出手!科学城这一现象级热销红盘,凭何成为共识之选?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:现在到了关注朝鲜问题的时候了

无障碍浏览 进入关怀版