网易首页 > 网易号 > 正文 申请入驻

视频大模型竞争升级,快手可灵AI的壁垒是什么?

0
分享至

快手最近发布了2024年第三季报:总营收同比增长11.4%至311亿,日活也到了4亿的一个里程碑。无论是用户数据还是营收利润数据,这都是一个稳字当头的财报。不过,相比单纯的财务数字,我最关心的是快手在AI 大模型领域的动作。CEO程一笑在业绩电话会中用非常大的篇幅介绍了可灵AI的最新进展:月活超150万,单月流水也超过了千万人民币。

在即将写这篇文章的时候,我点开了由可灵AI提供深度技术支持的国内首部AIGC原创奇幻微短剧《山海奇镜之劈波斩浪》,并在自己的手机上看了好几遍。

看完之后,我感到叹服,作为星芒短剧暑期档的精选剧集,《山海奇镜之劈波斩浪》在5集的篇幅里,利用可灵AI对奇幻的上古传说进行了一次美好的赛博复现。同时,其正片5集播放量超过5200万,全网话题曝光量超4.3亿,同时还登上全平台热搜21个。

我也不由的开始思考一个问题——就连视频生成(至少是技术层面)都被人类初步实现了,那么,作为这个星球上唯一的智慧物种的我们,发展的未来方向是什么?是更深层次的创意思考能力呢?抑或是掌握和AI协同创作,得到“力量倍增器”的能力呢?

但至少就可灵AI而言,我认为它能够给世界带来更多的美好,也给快手带来更强的商业竞争力,更有可能会改变视频制作行业的工作流程。

——导语

01

视频大模型,卷的是什么?

2024年11月20日发布的快手季度财报中,视觉生成大模型可灵AI备受瞩目,在业绩发布当晚的电话会议中,也成为机构投资人最关心的几个话题之一。

为什么会这样?

还是要从全球大模型的角逐中找到认知。

事实上,从Sora问世到可灵AI出现的这个时间段里,视频大模型俨然有向军备竞赛发展的趋势。

可灵刚刚发布,初创企业Luma 就不甘示弱,推出最新视频模型 Dream Machine,这款号称“造梦机器”的模型迅速面向公众开放测试。其官方放出的一系列样片水准相当之高,而网上也出现了不少网友使用“造梦机器”生成的视频,虽然没有达到官方样片的程度,但也有可圈可点的地方。

Runway紧赶慢赶还是放出了酝酿了半年的全新版本 Gen-3 Alpha,确实也显出了不凡的底蕴。

接下来,视频生成赛道就爆火了,比如,阿里达摩院官宣了“寻光视频创作平台”、字节宣布即梦 AI 开始探索“生成式影剧”、美图 MOKI 盯上 AI 短片创作……

但是,和很多视频生成模型在发布时爆火,但随即就被发现各种“幼稚病”所不同。快手近期骄傲的宣布了一组数据——可灵AI已有超过500万用户,累计生成5100万个视频和超过1.5亿张图。

在AI应用落地的时代,只有这种实实在在的应用数据,才能说明一个模型的用户价值和真实水平。

那可灵的厉害之处是什么?

简单一句话就是——可灵AI不仅是当下少有的用户真实可用的视频大模型,其生产的内容也能达到真实影像级,还能模拟物理世界特性,并有更高的控制性。

里面有两个关键词,第一个是“用户真实可用”,这句话很重要。

可灵AI自6月推出面向公众开放内测,7月就陆续向国内和海外的用户推出会员付费体系,近日又推出了App,对于全球的很多向往视频大模型技术的发烧友来说,可灵或许就是他们首个开箱测试的视频生成大模型。

虽然在可灵推出之前,Sora已经火到一塌糊涂,但Sora一直没有面向C端开放。且有真正的专业人士的评价称——尽管 Sora 非常酷,但生成过程仍难以控制,主角的一致性难以保证,需要大量人工后期编辑才能达到最佳效果。

换句话说,Sora还做不到完整意义上的“用户可用”,因为这里的“用户”是消费级用户,也就是普通人。

反过来理解就是,如果一个视频大模型很酷,但它不能用,且仍然需要专业人士的能力进行大量人工后期编辑,那对普通人的意义就很小。

就拿我自己做例子,我是一个资深的文字内容创作者。如果我对一个语言大模型的评价是“需要大量后期人工编辑”,那潜台词就是“普通人不会觉得好用”。

而可灵虽然不能说一步到位、毫无瑕疵,但做到了“用户可用”,这就超过了绝大多数竞品。

另一个理解可灵的关键词是“真实影像级”,这就很可怕了。

真实影像级,就是我们拍摄真实存在的物理世界才能产生的影像,换句话说,它不能是动画或特效,也不能夸张和失真,要达到与物理世界一致。

目前,连吃面条这种坑死所有AI视频产品的case,可灵都能完美的呈现。做一些复杂的动作或者细腻的表情,也都没啥问题。

而这个高度,把绝大多数目前的视频生成大模型给挡在了外面。

现在,可灵已经是达到世界水准的现象级视频大模型,就连很少点评中国互联网的“钢铁侠”埃隆·马斯克在看到可灵创作出的作品时,都说了一句:“AI娱乐产业正在发生飞速变化”。

快手主站业务与社区科学线负责人盖坤曾根据可灵AI的迭代速度做出预测,乐观估计,预计1年左右视频生成大模型就能达到个人制作影视剧的成熟度。

最近,快手还介绍了一项可灵AI导演共创计划。李少红、贾樟柯、叶锦添、薛晓路、俞白眉、董润年、张吃鱼、王子川、王卯卯等9位知名导演,将依托可灵AI的技术能力,制作出品9部AIGC电影短片。

换句话说,如果可灵能够成为真正意义上的知名导演的创作工具,哪怕仅仅是辅助,那也意味着人类在生成式影像技术上的一次历史性突破。

02

并非一蹴而就

可灵到底是如何变得这么强大的呢?

盖坤有一个很合理的解释,他说:“最好的选择就是依托快手现有的业务,对现有的业务升级,能够在现有业务里面形成研发投入的正循环,这样才能让快手AI真正有穿越市场周期的能力,能够在长跑中取胜。”

简单的解释就是,可灵的进步,是快手的用户在真实中使用、反馈、改进、提升这样一个闭环所循环推动的。

6月发布后,可灵已经进行了10次升级。

时长上,在行业里普遍还在卷5秒、10秒的视频生成时,可灵就已经推出最长可以延伸到3分钟的产品。这也意味着,可灵的生成时长,已经覆盖了所有的短视频和部分的中视频,而中视频的起步时长是1分钟,这意味着它对于创作者已经有了重大的实质性价值提升。

9月,可灵还升级了基座模型,新的可灵1.5模型,在画质质量、动态质量、美学表现、运动合理性以及语义理解等方面均有显著提升。

为了进一步提高画面控制力,可灵AI还先后内测推出了“运动笔刷”、“对口型”、“人脸模型”等功能。

这里要解释一下何为“运动笔刷”。“运动笔刷”的主要功能,是支持为图片中的元素(人或物体等)指定运动轨迹,用户只需将图片中需要控制运动方向的部分勾勒出来,然后画一个示意运动方向箭头,就可实现精准运动控制。

可以说,这个功能的提供,某种程度上是可灵从“可玩”到“可用”的分水岭。

对于大多数只能生成几秒或十数秒的视频模型来说,用户主要是体验性的,说的直接一点就是追求“好玩”。比如,你生成一个少女抚摸熊猫的视频,只要大体达到预期,你就不太会有精细调整的需求。而运动笔刷的存在,意味着用户可以精细的修正生成结果——这也意味着,只有进阶用户,或者直接把可灵作为视频生产力的用户,才有这种对高级控制功能的需求。

而这一切,仅仅发生在3个月时间里。它不仅反映了可灵的快速进步,也反映了这条赛道上的硝烟弥漫和你追我赶。

03

可灵的意义和行业的未来

可灵为什么能够在这么短的时间里赶超行业标杆Sora,同时又不断的自我进化呢?

我认为可以理解为,它是“两个生态”合力发挥作用的结果。这两个生态,分别是快手的技术生态和应用生态。

先说技术生态,这里就不可避免的提及作为视频大模型中的开创之作的Sora。

行业里有一句这样的评价:Sora相当于是openAI集齐七龙珠之后的融合产物”。

这句话的意思其实很深,它其实是在告诉读者,视频生成大模型并不是凭空崛起的,它是LLM大模型(大语言模型)竞争的延伸和发展。

一方面,所谓的文生图、文生视频,都需要模型能“听懂人话”,用专业一点的话说就是“依赖文本语义去牵引和约束生成的内容”,所以好的大语言模型是可灵成功的一个重要的基础。

这也证明了,快手先后发布的1750亿参数规模的通用大语言模型“快意”和文生图大模型产品“可图”,都是“可灵”一鸣惊人的技术基石。

另一方面,视频生成的技术路线,也早有提出,如Google video多模态开源模型,以及李飞飞的一些早期论文,都多次提到了视频生成的技术路线。

但还有一句话是——技术路线早有人提出,但视频模型的真正考验是工程化。

这意味着,快手强大的基础模型能力、快手拥有的资源和生态,以及快手AI研发人员惊人的工程能力,才是最后支持“可灵”崛起的三根支柱。

盖坤的解释则更深入,他指出,可灵是四个AI能力模块的集成,分别是编解码模块、SPT视频建模模块、语义理解模块、视频理解模块,而且“它们都比GPT要复杂”。

所以,一个结论就是,正是基于快手浓厚的技术文化和生态,才能基于已有的能力,创造出可灵这种在原理上并不陌生,但是在工程上难度极高的产品。

而另一个生态,就是快手所拥有的应用生态——中国头部的短视频直播平台。

和很多新兴的AI应用急于“找场景”不同,快手的内容社区属性,是大模型具体应用诞生后,最好的检验场景。创作者依托AI完成的无数创意作品,也形成了一条高价值的内容赛道。

在今天,视频特别是短视频已经证明了自己在方方面面的影响力,也正在从短视频出发改变了内容娱乐、文化创作、电商、本地生活服务等各个传统互联网赛道的竞争方式。但一个始终是瓶颈的问题是,今天,高水平的短视频、中视频制作仍然很依赖作者的专业度,也极大的提高了视频创作的试错成本,使得一些有志于视频赛道(比如我)但又没有视频创作技术的人裹足不前。

而正如摩根斯坦利评价的那样——可灵AI的成功,将有望使快手的用户规模和活跃度进一步提升,从而长期影响快手在电商和商业化等领域的货币化潜力。

事实上,一直以来,快手都非常重视AI大模型技术和现有业务的结合,借助AI大模型提高现有业务的效率,展现出充分的应用价值,提升商业潜力,从而形成投入研发和商业变现的正循环。

以快意语言大模型的应用为例,在商业场景里,基于快手大模型构建的数字人脚本创意生成、数字人渲染生成、数字人实时互动等全流程AIGC服务,可助力商业化广告主低成本生成高品质的视频和直播内容。

在内容的理解和推荐方面,快手通过大语言模型、多模态大模型等技术,已经可以准确高效地理解视频内容和用户兴趣,而将这些标签应用在推荐、搜索、广告、垂类运营、生态分析、内容安全等各种场景中,也可以全面的提升全站运营效率。

在内容生产及互动方面,据财报,三季度快手AIGC营销素材日均消耗超2000万,而互动助手AI小快也融入了包括奥运竞猜、用户私信和评论区互动等更多场景,MAU峰值突破1800万。

在这两天的世界互联网大会上,快手联合创始人杨远熙是这样解释AI的意义的——AI与大模型不仅仅是工具,更是对企业发展引擎的迭代,重塑内容与商业、供给与需求、用户与社区的交互关系,创造出新业态、新场景和新模式,不断释放数字经济发展的新动能。

快手已经为AI领域的应用和产品创新建立了强有力的基础设施支撑和“工具箱”,形成了新质生产力平台。

作为“核心技术攻关”的代表成果,可灵AI一方面进一步降低了视频内容制作的门槛,让更多普通人可以通过短视频直播获得收入。另一方面,人与AI的协作将大幅度革新视频内容的生产方式,并帮助越来越多的专业人士节省时间,个人创作影视剧的时代即将到来。

就像开头提到的那样,至少就可灵而言,我认为它也许会给快手乃至中国的优质消费级内容产业巨大的变化。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
某国企员工长期访问境外反华网站,观看涉我政治谣言视频并下载传播,被国家安全机关依法逮捕

某国企员工长期访问境外反华网站,观看涉我政治谣言视频并下载传播,被国家安全机关依法逮捕

每日经济新闻
2025-11-10 14:29:12
战争正式打响!大陆终于对台“下狠手”了!外媒:台积电插翅难逃

战争正式打响!大陆终于对台“下狠手”了!外媒:台积电插翅难逃

文史旺旺旺
2025-11-10 21:06:13
10日最新:我总领事“砍掉肮脏脑袋”言论发酵后,日本的抗议来了

10日最新:我总领事“砍掉肮脏脑袋”言论发酵后,日本的抗议来了

消失的电波
2025-11-10 17:24:57
台独沈伯阳再遭大陆重击,吓得瑟瑟发抖!

台独沈伯阳再遭大陆重击,吓得瑟瑟发抖!

新动察
2025-11-10 15:56:07
“只要我不是被遗弃的,深圳多套房已为父母兄弟姐妹准备好”,7岁被卖的40岁女子寻亲,还拿出一套房悬赏寻线索

“只要我不是被遗弃的,深圳多套房已为父母兄弟姐妹准备好”,7岁被卖的40岁女子寻亲,还拿出一套房悬赏寻线索

极目新闻
2025-11-10 16:31:30
软的不行来硬的?荷兰官员都能来华,德国恼羞成怒要对中国动手?

软的不行来硬的?荷兰官员都能来华,德国恼羞成怒要对中国动手?

天气观察站
2025-11-11 01:40:10
买完美国玉米,中方公布外汇储备,特朗普设鸿门宴,摆了中国一道

买完美国玉米,中方公布外汇储备,特朗普设鸿门宴,摆了中国一道

策略述
2025-11-10 14:47:19
太荒唐了!湖南人民医院事件原因流出,视频拍摄者竟然是他

太荒唐了!湖南人民医院事件原因流出,视频拍摄者竟然是他

平老师666
2025-11-10 12:52:30
记者:诺坎普保安看到梅西后非常惊讶,当即就放他进去了

记者:诺坎普保安看到梅西后非常惊讶,当即就放他进去了

懂球帝
2025-11-10 21:29:07
中央定调,退休新规,1965年到1969年期间出生,退休或将更受益?

中央定调,退休新规,1965年到1969年期间出生,退休或将更受益?

花心电影
2025-11-10 18:14:34
国家广电总局关于撤销机顶盒的重要消息

国家广电总局关于撤销机顶盒的重要消息

小柱解说游戏
2025-11-09 14:50:37
美股三大股指集体高开

美股三大股指集体高开

界面新闻
2025-11-10 22:33:12
你要打多久我就陪多久!只要大陆战机敢越线,台军就开第1枪击落

你要打多久我就陪多久!只要大陆战机敢越线,台军就开第1枪击落

许穋很机智
2025-11-10 01:52:53
陪睡陪玩只是小场面!撒谎、嫉妒、诬陷,白百何的私心藏不住了

陪睡陪玩只是小场面!撒谎、嫉妒、诬陷,白百何的私心藏不住了

叶公子
2025-11-10 19:57:30
紧急通知:停运!这波太猛

紧急通知:停运!这波太猛

极目新闻
2025-11-10 17:07:12
中国男子在泰国沙缴府被捕 携带1000张SIM卡准备交给妙瓦底雇主

中国男子在泰国沙缴府被捕 携带1000张SIM卡准备交给妙瓦底雇主

曼谷陈大叔
2025-11-10 16:10:41
美国贸易代表办公室:11月10日起,暂停对华海事、物流和造船行业301调查限制措施

美国贸易代表办公室:11月10日起,暂停对华海事、物流和造船行业301调查限制措施

界面新闻
2025-11-10 11:48:56
重磅:挪威将拿出1千亿!促成乌克兰接收1400亿被冻结的俄资产

重磅:挪威将拿出1千亿!促成乌克兰接收1400亿被冻结的俄资产

项鹏飞
2025-11-10 17:36:34
幼儿园园长贪污千万案二审再开庭:一审被判11年,是否“租赁园”引争论

幼儿园园长贪污千万案二审再开庭:一审被判11年,是否“租赁园”引争论

澎湃新闻
2025-11-10 14:46:32
美国前总统拜登通告全球:特朗普让国家蒙羞,罕见措辞引全球关注

美国前总统拜登通告全球:特朗普让国家蒙羞,罕见措辞引全球关注

现代小青青慕慕
2025-11-10 09:01:05
2025-11-11 03:28:49
胡说成理 incentive-icons
胡说成理
一个记录胡喆和他的朋友们,关于智能时代和智能时代的生意逻辑的小天地。
181文章数 28关注度
往期回顾 全部

科技要闻

荷兰“玩脱”后,大众本田终于拿到芯片了

头条要闻

德军司令:柏林已做好与莫斯科开战的准备

头条要闻

德军司令:柏林已做好与莫斯科开战的准备

体育要闻

重返诺坎普!梅西:希望有一天能回来

娱乐要闻

51岁周迅的现状 给中年女性提了个醒?

财经要闻

北大医药董事长被抓 巨额资金去向不明

汽车要闻

智能又务实 奇瑞瑞虎9X不只有性价比

态度原创

家居
游戏
手机
房产
健康

家居要闻

四方食事 不过人间烟火

游戏喜加一 / Steam 商店页面 UI 全新上线

手机要闻

一加Ace 6T被确认:骁龙8 Gen5+8000mAh,联名款悬念拉满

房产要闻

封关倒计时!三亚主城 2.3 万 /㎡+ 即买即住,手慢无!

超声探头会加重受伤情况吗?

无障碍浏览 进入关怀版