网易首页 > 网易号 > 正文 申请入驻

国产Sora赛道无战事

0
分享至

哪怕大厂有资金、技术的绝对优势,在AI时代,无论公司规模大小,都是创业者,很难轻易全力投入。

©️懂财帝出品 · 作者|嘉逸

距离OpenAI发布Sora已过去近半年,国内的挑战者轮番上阵,只增不减。

就在刚结束的2024年世界人工智能大会(WAIC)上,多个“中国版Sora”亮相。

快手发布了可灵大模型的更新版本,主打时长最高达3分钟;商汤推出了最新的人物 AI 视频模型 Vimi,主打技术的“可控性”;阿里达摩院发布AI视频创作平台“寻光”,主打剧本创作辅助。

虽然AI生成式视频久违地热闹了一番,但整体掀起的水花并不大。尽管对谁才是中国版Sora的争夺从未停止,得到业内普遍认可的产品仍未出现,但快手成了最新的变数。

无论是技术路线,还是视频时长、生成效果,快手的可灵大模型似乎最像Sora。

“甚至我觉得也吊打了Sora,我认为这个产品今天,在我能使用的范畴内就是全世界第一的。”在测试快手可灵后,猎豹创始人傅盛不吝赞美。

值得注意的是,傅盛提到了“使用范畴”。眼下,国内AI视频的玩家有限,Sora又始终保持神秘,某种程度上“衬托”出了快手可灵的相对优势。

01 | 「国产 Sora」又来了?

在Sora发布的几天前,张楠宣布辞任抖音集团CEO,亲自带队转战剪映,寻求在AI视频的突破。

同为短视频平台巨头,快手长期被抖音压过风光,在大模型时代,外界也惯性般对抖音寄予厚望,将其视为狙击Sora的种子选手。

就在人们翘首以待,张楠会交出怎样的成绩时,快手CEO程一笑却“截了胡”。

被Sora吊足了胃口的国内外网友们,被快手可灵的demo效果惊艳到,在线求试用名额。至少在国内的AI生成视频领域,这是少见的情况。

据快手透露,可灵大模型上线一个月以来,累计申请用户数50万+,开通用户数30万+,生成视频数700万。

被外界赋予“中国版Sora”的产品不少,但快手可灵最担得起该称号的吗?

先从技术路线说起,快手可灵的架构采用了类Sora的DiT结构,即以Diffusion和Transformer结合的方式,替代了传统扩散模型中基于卷积网络的U-Net。

Transformer具有较好的可拓展性,其结构会随着模型的增大,效果会持续变好。而U-Net会在模型增大到一定范围时,所受的增益效果放缓甚至停止。

Sora能在AI生成式视频实现质的飞跃,正是技术底层架构的巧妙选择。阿里巴巴达摩院的分析认为,Sora 的智能涌现,体现在其三位一致性、长距离连贯性和物体持久性、与世界互动的能力、对数字世界的模拟。

可灵也似乎能生成如Sora效果般的视频,真实还原物理世界。例如,一个人吃汉堡时,嘴角容易沾上酱料,汉堡留下咬痕。在可灵官网展示的demo中,小男孩吃汉堡的动作、神态均比较自然。

国外网友@Garry Tan 看到这条视频后,直呼“Oh man this is me.(天哪,这就是我!)”

(prompt:一个戴眼镜的中国男孩在快餐店内闭眼享受美味的芝士汉堡,图源官网。)

但在细节的处理方面,快手可灵仍展现出与Sora的明显差距。

傅盛曾用快手可灵模仿Sora气球人的视频,在一些镜头中,不难发现气球里还有人头。且就气球本身来说,Sora的气球透明度非常自然,和现实中的气球一模一样。而可灵的气球被撑得很大,在阳光下几乎看不到透明度的变化。

(图源@傅盛讲AI)

此外,Sora能够接受提示词、图像乃至视频作为输入,大模型将根据用户的输入来生成视频。多样的输入选择背后,是OpenAI多模态大模型的支撑。

由于Sora有OpenAI文生图模型DALLE3的加持,可将许多没有文本标注的视频自动进行标注,用于视频生成的训练。

同时,ChatGPT也可以把用户的输入扩写成细节更详细的描述,有效帮助Sora提取和理解用户的需求,使生成的视频更符合用户预期。

举个例子,输入“女性在商店购物”,ChatGPT可能会扩展联想到女性的衣服、商店的装饰、购物的类型等信息。

在这方面,快手可灵就不容易直接“复制”Sora了。

快手旗下的通用语言大模型“快意”,功能远不如GPT,在国内大模型梯队中,其存在感也较弱。快意对可灵语义理解上的助力,很可能是有限的。

目前,快手可灵支持文本输入、图片输入,另支持多种控制信息输入,如相机运镜、帧率、边缘/关键点/深度等,但没有提供视频输入的功能。

02 | “生死线”变迁

以Sora横空出世为分界线,AI生成视频领域被划成分“10秒以内的时代”,以及“60秒及以上的时代”。

此前,国内没有一个产品,可以把视频做到10秒,10秒也成了衡量产品的“生死线”。

火爆全网的AI 视频生成应用Pika,在去年11月末正式发布,比Sora早几个月,仅能生成长度为3秒的24帧视频。

如果存在时长超过10秒的产品,基本是拼接起来的视频。

代表产品有百度AI文生视频的功能,自动根据文字内容,帮助寻找合适的视频素材,再输出视频,实质是对现有素材的拼接,没有涉及生成新的视频内容。

也有让单帧的图片“动”起来的文生视频技术,代表产品有阿里的EMO模型,输入声音和图片后,比如输入一首歌与人的照片,就能生成人在唱歌的短视频。

上述产品都只是“从有到有”,而Sora带来了文生视频技术真正实现了“从无到有”,直接跃升至“构建现实”的新高度。

Sora发布后,“生死线”延长至60秒。被震撼和刺激到的国内厂商,开启了追赶之路。

Pika 创始人郭文景表示,“(Sora)是一个振奋人心的消息,我们准备直接冲,将直接对标Sora。”经过几次更新,目前Pika把画面延长至4秒,只够做成表情包。

第一个跨越10秒“生死线”的企业,是背靠“清华系”的生数科技,旗下Vidu大模型4月首次亮相时,可以生成16秒视频,赢得了“中国版Sora”的称号。不到2个月,Vidu又宣布实现32秒视频的升级。

第一个跨越10秒“生死线”的大厂,是腾讯旗下的混元大模型,也是能生成16秒视频。

而抖音集团旗下的Dreamina(即梦)有所掉队,目前只支持生成3秒视频。

1秒的延长,往往意味着技术路线、训练数据等环节的大量研究与优化。单是训练素材,视频比文体、图像都更紧缺,收集、清洗、标记的难度更大。

套用Sam Altman 解释为何 GPT 会比其他的大模型更好的理由,是因为 OpenAI 堆了“一百万个小技巧”。

腾讯混元大模型能跨过10秒门槛,主要是全面升级了基础架构,由传统的U-Net改为DiT架构,参数量提升十几倍等。

快手可灵起初是支持2分钟视频,通过增加频续写功能,成功延长至3分钟。但快手可灵开放的内测,只支持生成几秒的视频。

视频长度与连贯性高度相关,国内视频大模型长期在10秒内止步,便是无法做到在确保时长的基础上,兼具人物和场景、前后语境逻辑等方面的连贯。为了画面流畅度,厂商宁愿放弃时长。

比如,当一个人遛狗,狗怎么走路?遇见路人时会有什么反应?人和狗移动时周边环境如何同步变化?我们在日常生活中习惯的场景,放在虚拟世界,却是极其复杂的问题。

“可灵肯定是一个非常复杂的,重资源投入,多兵种协作的复杂项目,肯定不是一个单一的天才的想法随便搞出来的东西。”快手视觉生成与互动中心负责人万鹏飞表示。

03 | 冷静的战场

ChatGPT发布后,国内大厂争先恐后上线通用语言大模型。不到两年,该领域就已历经“百模大战”、“开源与闭源之争”、“价格战”,百度、阿里、腾讯、字节、华为集体亲自下场交锋,火药味十足。

而AI生成视频要冷清得多,当OpenAI抛出Sora这一“王炸”后,讨论热度依然高居不下,但在产品数量上,国内没有重现语言大模型的盛况。

只有字节的海外版剪映跟进推出了文生视频产品的测试版,且反响不佳。有网友反馈,生成一个视频得等约1800分钟。

资本也把主要的热情分给通用语言大模型,同样是初创公司,Kimi的月之暗面估值超200亿人民币,生数科技估值刚超过1亿美元。

即便是可灵,对快手拉高市值也没有什么影响。6月以来,快手的股价持续下跌,7月12日才稍有起色。

然而,这并不代表大厂对视频缺乏兴趣,只是换了种玩法。

“App工厂”字节继续做擅长的事,用应用的方式打开AI生成视频,推出了即梦App,约两分钟就能生成了3 秒的视频,进步显著。要延长3 秒,则需购买会员。

腾讯在上线自研混元大模型的同时,也发布了文生图大模型,并且全面开源,可以免费商用。

百度倾向于寻找优质的投资标的,早看中了生数科技,华为、阿里也参与押注。

玩法变动背后,是国内厂商考验性价比的结果。光卷文本大模型,大厂都有些分身乏力。

由于Sora完全闭源,OpenAI对技术细节守口如瓶,让竞争对手难以“抄作业”。

算力荒为另一大痛点,哪怕大厂有资金、技术的绝对优势,在AI时代,无论公司规模大小,都是创业者,很难轻易全力投入。

中信证券曾简单估算,一个60帧的视频(约6—8秒)需要约6万个Patches,以去噪步数为20计算,相当于要生成120万个Tokens。考虑到扩散模型在实际使用时需要多次生成的特点,实际计算量会远超120万个Tokens。

业界也流传,Sora 的参数规模在 100亿到 300亿之间,所需的算力或与千亿级的大语言模型差不多。

这意味着,同等参数的视频模型,所需的算力比大语言模型多几十倍。

何况,不像语言大模型已指出较明确的B端商业化路径,视频大模型还在摸索阶段,甚至连全面公测都有较远的距离。快手可灵也暂无商业化计划,不对外提供API。

OpenAI CTO 曾指出, Sora 拟2024 年年内对外推出。

OpenAI向来不打无准备的战,届时Sora的开放,或又是进一步盘活国内AI生成视频赛道的鲶鱼。

说明:数据源于公开披露,不构成任何投资建议,投资有风险,入市需谨慎。

「点赞」「在看」与 「分享」,你对作者最大的支持。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
20岁东莞少年王帅生命最后12分钟:电梯记录赴死前的挣扎

20岁东莞少年王帅生命最后12分钟:电梯记录赴死前的挣扎

调侃国际观点
2025-12-24 21:46:58
我开公司年入三百万,每年补贴娘家大半,老公却从来不闻不问

我开公司年入三百万,每年补贴娘家大半,老公却从来不闻不问

白云故事
2025-12-08 15:10:08
火箭真明智!查出静脉血栓,无限期休战,还好交易了他

火箭真明智!查出静脉血栓,无限期休战,还好交易了他

篮球看比赛
2025-12-25 10:54:27
郑丽文韩国瑜联手清党渣,侯友宜卢秀燕跪地求饶,国民党终于姓郑

郑丽文韩国瑜联手清党渣,侯友宜卢秀燕跪地求饶,国民党终于姓郑

墨兰史书
2025-12-25 05:10:03
不要脸!合肥考公姐大翻车:啃男友3年拒婚,人家娶别人她倒打一耙

不要脸!合肥考公姐大翻车:啃男友3年拒婚,人家娶别人她倒打一耙

千言娱乐记
2025-11-29 23:02:42
故事:产妇活蹦乱跳送进医院待产,晚上母婴双亡,通过录像得出真相

故事:产妇活蹦乱跳送进医院待产,晚上母婴双亡,通过录像得出真相

红豆讲堂
2024-12-19 10:54:00
刘嘉玲曝林青霞家中的麻将房挂“东方不败”照片:坐在她家里面打麻将要吓死了

刘嘉玲曝林青霞家中的麻将房挂“东方不败”照片:坐在她家里面打麻将要吓死了

红星新闻
2025-12-22 18:29:10
5年前花10万买乳山海景房的人,如今都怎样了?真相太扎心!

5年前花10万买乳山海景房的人,如今都怎样了?真相太扎心!

青眼财经
2025-12-01 22:31:36
退圈12年,被嘲身材发福,霍思燕却闷声干大事,带狗夺得世界冠军

退圈12年,被嘲身材发福,霍思燕却闷声干大事,带狗夺得世界冠军

背包旅行
2025-12-25 10:36:30
厉害了!刘强东拿下理想汽车大单,车企合作拿到手软

厉害了!刘强东拿下理想汽车大单,车企合作拿到手软

雷科技
2025-12-24 15:46:23
让人倒吸一口凉气:乌军3个旅反攻俄军2个军:24小时竟打进市中心

让人倒吸一口凉气:乌军3个旅反攻俄军2个军:24小时竟打进市中心

瞳哥视界
2025-12-24 21:36:08
环球小姐被要求穿一套自己国家特色的衣服!然后韩国亮了

环球小姐被要求穿一套自己国家特色的衣服!然后韩国亮了

谭老师地理大课堂
2025-12-18 17:24:52
巴拉圭环球选美获得者,身高175CM,身穿蓝装摆拍,太吸睛了

巴拉圭环球选美获得者,身高175CM,身穿蓝装摆拍,太吸睛了

朝史暮夕
2025-12-25 10:29:35
长征十二号甲运载火箭首飞入轨成功 回收未取得预期成效

长征十二号甲运载火箭首飞入轨成功 回收未取得预期成效

财联社
2025-12-23 11:38:05
极氪正式退市!吉利完成品牌大一统,将挑战比亚迪抢夺第一

极氪正式退市!吉利完成品牌大一统,将挑战比亚迪抢夺第一

明镜pro
2025-12-24 14:16:20
有一种痛苦叫“买了第四代住宅”,幻想很高级,入住后一言难尽!

有一种痛苦叫“买了第四代住宅”,幻想很高级,入住后一言难尽!

装修秀
2025-12-11 10:45:03
广东宏远早报!胡明轩自宣伤情,徐杰深夜表态,麦考尔复出更新

广东宏远早报!胡明轩自宣伤情,徐杰深夜表态,麦考尔复出更新

多特体育说
2025-12-25 07:40:03
上海“老破小”正在被扫货!

上海“老破小”正在被扫货!

新浪财经
2025-12-25 00:15:39
光盘可耻?中国家长在新西兰被老师约谈:你儿子把饭吃的太干净!

光盘可耻?中国家长在新西兰被老师约谈:你儿子把饭吃的太干净!

知晓科普
2025-12-22 11:01:30
Shams:掘金前锋卡梅隆-约翰逊被诊断为右膝骨挫伤

Shams:掘金前锋卡梅隆-约翰逊被诊断为右膝骨挫伤

懂球帝
2025-12-25 04:37:04
2025-12-25 11:40:49
懂财帝 incentive-icons
懂财帝
做最高效的投资者
1226文章数 6251关注度
往期回顾 全部

科技要闻

屠龙少年被"招安"!英伟达平安夜豪掷200亿

头条要闻

让美国人跌入深渊的"斩杀线":四口之家一年要赚98万元

头条要闻

让美国人跌入深渊的"斩杀线":四口之家一年要赚98万元

体育要闻

单赛季11冠,羽坛“安洗莹时代”真的来了

娱乐要闻

金莎小19岁男友求婚成功!两人雪地拥吻

财经要闻

美国未来18个月不对中国芯片加额外关税

汽车要闻

预售31.3万元起 全新奥迪Q5L将于1月内上市

态度原创

教育
时尚
数码
健康
游戏

教育要闻

高二英语稳定135以上,怎么上140?感觉就是差那么一点

对不起周柯宇,是陈靖可先来的

数码要闻

TRYX推出STAGE 360 ARGB舞台式AIO水冷,搭双4英寸冷头屏

这些新疗法,让化疗不再那么痛苦

Xbox360何以为经典?外媒盘点10款Xbox360时代神作

无障碍浏览 进入关怀版