「敢不敢」胜过「能不能」，万字解析可灵AI的「非典型」突围路|张鹏|算法|模态|demo|可灵ai

分享至

翻越千峰，见微知著。
对话｜张鹏、盖坤
编辑｜连冉

一个不知道什么叫做「去世」的小男孩，想用自己攒下的 15 块钱，给奶奶烧一部「纸手机」。

这两天，AI 短片《纸手机》感动了无数网友。在这短短 5 分钟的时间里，有人想起了离开已久的亲人，有人感慨，第一次在 AI 制作的内容中看到了「人世间」。

作品全网播放量破亿背后，创作者李婷、杨选和其依托的创作平台可灵 AI也在默契地进行某种「验证」——如果有更好的底层技术作为支撑，人类+AI 的叙事能力，能否被推向新的边界。

《纸手机》画面截图

今年春节过后，可灵 AI 发布了可灵 3.0 系列模型，包括：Video 3.0、Video 3.0 Omni（多模态交互）、Image 3.0 Omni（图像生成和编辑）。

迈入 3.0 时代的可灵 AI，正以All-in-One的一体化架构重塑视频模型体系，实现多模态输入与输出的高度统一。通过在角色一致性、镜头语言和多模态融合等维度的底层突破，可灵 3.0 全面打通了涵盖生成、编辑及后期的影视级全制作链路。

如果说《纸手机》的出圈，验证了今天的视频生成大模型可以是好内容的「推手」。可灵 AI 的故事，则让人看到了一个「敢不敢」胜过「能不能」的真实创新样板。

两年多前，在 Sora 惊艳世界却迟迟不落地的真空期，快手可灵凭借超强的战略直觉与执行力，抢先发布了全球首个用户可用的 DiT 大模型。

在不久前极客公园创始人张鹏与快手高级副总裁兼可灵 AI 事业部总负责人盖坤的深度对谈中，我们得以窥见这一奇迹背后的「非典型」路径：早期可灵甚至是在资源受限的情况下，靠着对技术路线的极速押注完成了对硅谷巨头的侧翼包抄。

盖坤谈到一个重要的范式转移：在大模型这种「单次尝试代价巨大」的开放世界里，传统的互联网「AB 测试」与「赛马模式」已经失效。盖坤详述了可灵「三位一体」的成功公式——即如何将极致的愿景洞察、不设边界的算法突破与全新的交互介质（如将动作视为一种模态）深度融合。

从可灵 3.0 的 AIO（All-in-One）原生多模态架构，到Motion Control对创作控制权的再分配；从对 AI 视频生成赛道的战略判断，到对新内容平台可能诞生路径的推演，这场对谈不仅回答了「为什么是快手可灵」，也试图勾勒一个更长远的问题：

当视频生成成为重构供给的基础设施；当模态不断被拆解、被重组，人类的想象力是否终于可以摆脱专业门槛，被高质量、规模化地呈现？

快手高级副总裁兼可灵 AI 事业部总负责人盖坤

精彩观点：

•「敢不敢」是前置条件，如果不决策，连上牌桌的机会都没有。

• 逻辑有两点，一个是生存跃迁，这是上头部牌桌的唯一机会。如果不搏这一把，可灵很可能陷入「平庸-无资源-被淘汰」的负循环。还有一个是「光脚」心态，当时我们本来就是 Nobody。博输了还是 Nobody，博赢了就彻底改变命运。

• 基座指标要保，但解决新问题才是未来的核心。

• 如果没有合适的交互介质，连 Pro-C 也控制不了 AI。

• 当规模化、多样性的好内容多到一定程度，全新的 AI 内容平台就会诞生。

• 大模型时代改变了游戏规则：一次尝试的代价巨大（千万美金起步），且创新是在无限可能的空间里寻找不存在的路径（如多模态、DiT 架构）。核心能力在于由领军人物进行顶层技术与业务意志的规划。这种组织不再靠随机赛马，而是靠极强的 Vision（愿景）牵引，在一个茫茫多的可能性中下重注赌对方向。

如何从「默默无闻」到「全球首发」

张鹏：首先聊聊可灵 3.0，之前放出的素材反馈非常炸裂。这次的核心亮点应该是 15 秒的长时长、超强的可控性，以及在分镜转场层面变得更加简洁流畅了。

盖坤：我可以从更长的时间尺度来介绍一下 3.0。我们内部将 3.0 项目称为 All-in-One（AIO）模型，它是多模态模型思路的延续。

去年 12 月我们发布了两个阶段性模型：可灵 O1 和可灵 2.6。这两个模型在我们的叙事逻辑中各有分工：

• O1 侧重多模态输入（Input）：允许用户在文本指令中插入各类非文本文件，来表达文字难以描述的意图，比如具体的人物形象、细微的动作指令等。

• 2.6 侧重多模态输出（Output）：除了输出高质视频，还要同时输出匹配的音频（音画同步）。

我们最初的愿景就是奔着 AIO（All-in-One）去的，但由于技术建设、经验积累和产品打磨都需要时间，所以我们采取了阶段性策略，先分别攻克多模态输入和输出的试点。

张鹏：所以 3.0 是基于 O1 的思路演进而来的？

盖坤：思路一脉相承，但 3.0 是个重新训练的模型。我们在讨论 O1 和 2.6 的时候就意识到，这两者最终必须合二为一。一个真正的多模态模型，应该既具备强大的多模态输入能力，又具备音画同出的输出能力。

张鹏：这和OpenAI的 Sora 最初的思路是一致的。

盖坤：3.0 是多模态模型演进中的一个完整里程碑。在验证了 O1（输入端）和 2.6（输出端）的技术路线和用户反馈后，我们推出了现在的 3.0 和 3.0 Omni。

这两个产品背后其实是同一个模型，但在产品逻辑上我们做了区分。我们发现，虽然 O1 式的多模态输入可控性极高，对专业创作者很友好，但对普通用户来说门槛太高了——很多人不知道该如何精准地通过多模态素材来表达意图，毕竟这种「交互语言」不完全等同于自然语言。

张鹏：所以你们在交互层面做了分层：3.0 负责通用化，Omni 负责专业化。

盖坤：没错。可灵 3.0 遵循传统的「文生视频」和「图生视频」入口，界面简洁，符合大众用户的使用习惯。但我们也把 Omni 的核心能力（如主体库）植入了进去，用户可以通过主体库来确保视频中人物形象的一致性。

可灵 3.0 Omni 相当于「极客版」或「专业版」。它的自由度极大，支持输入的范围更广（如视频参考），控制能力更强，但也需要用户投入更多的精力去描述和指定。

张鹏：主要区别在于 Input 层的交互逻辑。场景资产现在支持吗？还是主要针对人物？

盖坤：目前主要是针对人物的主体库。

张鹏：在模型初始的时候设定的目标，其实会决定后续的发展走向，所以你们当时的目标是从什么视角出发的？

盖坤：从可灵诞生的第一天起，我给团队传达的愿景就非常明确，这两年来从未改变。

可灵最早的愿景源于我的一个想象：如果 AI 的视频生成能力足够强，我是不是可以独自把脑海中的电影拍出来？举个具体的例子，我学生时代非常喜欢《三体》。虽然《三体》已经被影视化过几次，但我觉得它们都没有完全呈现出我心目中那种宇宙史诗般的画面感和叙事张力。我不是导演，也不会操作专业相机，如果 AI 足够强大，它能帮我把脑海中的视觉图景和情感表达实现出来吗？

这种想象泛化开来，就是可灵的愿景：「让每个人都能成为导演，让每个人都能拍出自己心中的好故事。」这是我们对市场需求的定义，也是我们要达到的彼岸。

张鹏：我们来梳理一下从可灵 1.0、1.6 到 2.0、3.0 的技术演进。在这个宏大目标下，技术是如何一步步生长过来的？我记得 1.6 或 2.0 版本引入了「首尾帧控制」，这在当时印象很深。如果划分关键版本号背后的技术变革，你会如何归类？

盖坤：对于可灵而言，外部自媒体曾总结过两个关键里程碑：一个是可灵 1.0，一个是 O1。这两个节点确实代表了可灵方向上最重要的 Milestone。

可灵 1.0 的意义是它让快手从「Nobody」变成了全球大模型领域的一个「正式玩家（Serious Player）」。1.0 达成的核心成就是：全球第一个发布的、用户真正可用的 DiT（Diffusion Transformer）架构视频生成模型。

虽然 OpenAI 在 2024 年春节期间发布了 Sora 的 Demo，极具震撼力，但 Sora 当时用户不可用，直到 12 月才真正发布产品。

当时我定下了一个目标：要做全球第一个（可用产品），并超越 Sora。当我提出这个目标时，整个屋子的人都惊呆了，觉得「你们真的要挑战 OpenAI 吗？」我的回答是：「Why not?」

这背后是我们对竞争态势的精细测算。我判断 Sora 的 Demo 是 OpenAI 为了阻击 Google 的发布而临时拿出来的。阻击完成后，OpenAI 的核心资源必然会回到语言模型上，以保持领先。我推测他们会在 5-6 月发语言模型，随后才会把资源调回 Sora 进行产品化。所以，我给内部定的死命令是：必须在 5 月内完成从模型到产品的全线就绪。

最终，我们在 6 月 6 日正式发布。很多人好奇「为什么是快手先做出来了？」因为大家可能对快手的技术储备和资源整合能力缺乏预判。

早期研发的艰辛：资源「钣金」时代

张鹏：做 1.0 版本时，你投入了多少资源支撑这个「全球第一」？这个账你应该算过。

盖坤：可灵 1.0 的起步非常坎坷。在那个阶段，我们甚至没有足够的顶级 NVIDIA 显卡可用，很多训练是靠公司此前采购的 AMD 卡或其他厂家的芯片支撑的。

张鹏：那训练过程肯定磕磕绊绊，不够顺滑。

盖坤：是的。当时可灵团队在公司内部还处于默默无名的状态。我负责管理社区科学部，在大模型方向上规划了几个维度，硬是从现有资源里「挤」出了一些算力卡。说实话，当时用的很多还不是英伟达的卡，算是「杂牌」卡，没有任何一家主流视频模型公司会选择那样的配置。

张鹏：听起来这不像是标准的工业化生产，更像是一种「钣金活儿」，是靠手工和拼劲儿硬生生打磨出来的。

盖坤：确实是这样。不过随着模型效果越来越好，团队信心也不断提升，内部慢慢形成了一个正循环：效果越好，信心越大，我也就更有理由在资源池里向他们倾斜。

敢不敢与能不能

张鹏：在战略评估时，你是如何推演「可行性」的？「敢不敢」挑战 OpenAI 是一个维度，但物理上的「能不能」是如何推理出来的？

盖坤：「敢不敢」是前置条件，如果不决策，连上牌桌的机会都没有。当时我拍下「全球第一个发布并超越 Sora」的目标时，团队内部充满了震惊甚至抵触。

我的逻辑有两点，一个是生存跃迁，这是上头部牌桌的唯一机会。如果不搏这一把，可灵很可能陷入「平庸-无资源-被淘汰」的负循环。还有一个是「光脚」心态，当时我们本来就是 Nobody。博输了还是 Nobody，博赢了就彻底改变命运。

张鹏：这一波浪潮里，「敢不敢」有时真的比「能不能」更重要。

盖坤：「敢不敢」是起点，但「能不能」靠的是硬核能力。团队的技术底子必须过硬，否则喊口号没用。我们会把模型的每一层架构都讨论得非常透彻。我们也有对模型、数据量、卡数和时间进行量化拆解。虽然有风险，但我们算下来 1.0 版本在过亿级或数亿级数据量下是物理可行的。

我当时还推测 OpenAI 会为了应对 Google 而分心，优先回归语言模型大版本的迭代，这为我们留出了 6-7 月的窗口期。事后证明，OpenAI 直到 12 月才真正发布产品，我们对竞争节奏的判断基本准确。

从 Disagree 到 120% 的 Commit

张鹏：你把不确定性压到了极限。但技术能力之外，如何让一群觉得「目标不可能」的人真正动起来？

盖坤：意愿至关重要。当时团队展现了快手一直倡导的核心价值观：Disagree and Commit（保留意见但全力执行）。

当我刚提出目标时，屋子里几乎所有人都在反对，认为这个目标压得太死，凭什么觉得能搞定？我的方法很简单：深度拆解加上目标强压。

同时，这群同学也憋着一股劲。很多核心成员此前在公司内默默无名，他们也意识到，这一战如果打成了，就是真正的「一战成名」。这种「光脚不怕穿鞋」的斗志，在重大目标面前起到了决定性作用。

但我最看重的是他们那种「保留意见但全力执行」（Disagree and Commit）的品质。这不只是口头答应，而是先激烈讨论、表达反对，但在目标定死、进入执行阶段后，能投入 120% 的精力和意愿。我见过很多团队，虽然口头上被压服了，但在实际执行中会有巨大的动作变形。可灵团队这种价值观的传承，在早期起到了至关重要的作用。

多模态架构的必然逻辑

张鹏：1.0 的成功在于敢于率先突破壁垒，拿到了最大的红利。但在那个节点，大部分人还看不清方向，你能先发制人是因为你敢于在没有共识时做决策。那么你认为的第二个里程碑 O1），为什么如此重要？

盖坤：其实从 2024 年到 2025 年，我的 OKR 里始终贯穿着一个词：多模态。

这个想法源于我对「愿景」的倒推：如果目标是让一个人能拍出脑海中的电影，那么现在的技术还缺什么？结论很明显：语言作为沟通媒介，在视觉表达上是极其匮乏的。

比如，在拍摄中，你很难用语言精准描述一个人的长相并保证多镜头的一致性，或者描述一段极其复杂的微表情和动作细节。文字太抽象，无法还原精准的创意图景。

张鹏：也就是说，在视频创作领域，纯语言并不是一个高效的介质。

盖坤：对，所以我们要进化交互方式。我们在 2025 年 4 月推出了MVL（多模态视觉语言）。其本质是解决输入侧的问题：虽然人类最习惯语言，但语言描述不了的细节，可以用图片、视频等其他模态的信息来补充。在我们的架构里，这些多模态信息被转化为语言流中的「特殊词（Special Tokens）」，比如「图 1 中的人是主角」，从而实现更精准的控制。

如何在迷雾中带队爬山？

张鹏：MVL 是解决问题的架构，而 O1 则是承载这种能力的完整模型。在这个过程中，团队内部是否再次经历了不共识？

盖坤：这次不共识的时间比 1.0 时期长得多。当时算法团队面前有两个分叉，一个是无限雕花，沿着 1.0、1.5、1.6 到 2.0 的路径，不断卷文生视频、图生视频的技术指标。这个的优点是路径清晰，每提升一点指标，市场和业务都会给出正向反馈，团队能持续获得「确定性」的奖励。

另一个是升维跃迁，不再纠结于基础功能的指标精度，而是彻底改变模型的理念和输入输出方式。这里的挑战意味着我们要解决一堆从未有人解过的新问题。

张鹏：你显然是坚定支持后者的。

盖坤：是的。我坚信大模型的「涌现」能力：当你把新问题解得足够好时，它反而能带动老问题的泛化处理。

当时团队面临两个巨大的不确定性，一个是市场不确定性，没人做过这种多模态交互，用户会买账吗？另一个是技术不确定性，这种架构在技术上能否跑通？

特别是 2025 年 Nano Banana 出来时，我一方面遗憾视频领域的进度被图像领域的类似技术抢了先，另一方面也庆幸它帮我们完成了内部「统一思想」的过程，让团队意识到多模态就是唯一的终点。

但我作为掌舵者必须明确方向：基座指标要保，但解决新问题才是未来的核心。

张鹏：1.0 时的阻力来自于「不相信能做成」，而这次的阻力来自于「大家不再是光脚的了」，开始有了成本意识和声誉顾虑。

盖坤：没错。大家开始在乎技术投入产出比。

张鹏：这种痛苦也理解。绝大多数人习惯了看山顶的风景，现在你让他们下到满是迷雾的山脚重新出发，去爬一座看不见顶的山，这确实极度考验。

很多创新公司其实都会面临同样的抉择：是在现有高度上不断做工程精度的「雕花」，还是对齐大目标，一波波地翻山越岭？

盖坤：这就是可灵第二个节点比第一个节点进步的地方。1.0 时期，Sora 的 Demo 已经在前面了，技术方案（如 DiT 架构）虽然细节没公布，但学术界早有雏形，大家对「能不能做出来」没疑问，只是在赶工期。

而到了 O1、3.0 阶段，我们是在选择是平滑地走向下一个小高峰，还是穿越延绵的山脉去寻找终极目标。现在团队对于「挑战未知」已经形成了一种肌肉记忆，这种自信和沉淀非常宝贵。

张鹏：现在可灵的人才流动情况如何？

盖坤：目前总体是净流入，但流入流出的动力都很强。流入动力是说来可灵挑战世界一流的技术，做真正 Great 的产品。流出动力就是高位变现。在可灵积累了足够的 Credit，去外面也能拿到极高的待遇。

这很正常，我也坦诚面对。如果目标拉得不够高，优秀的人才觉得没意思自然会走；只有不断探索无人区，才能持续吸引想做大事的人上车。

张鹏：接下来聊聊最近火出圈的 Motion Control（动作控制）。这种让 C 端用户觉得震撼、甚至产生病毒式传播的功能，是你们预判到的爆发点吗？

盖坤：在我的视角里，Motion Control 的起点依然是需求，而非单纯追求「爆款」，里面确实有赌对的成分。其实大家看到的爆版已经是我们的第二版了。

在 2.0 发布会时，我们提出了 MVL（多模态视觉语言）的理念。当时我们就在思考：除了图像、视频和语言，还有什么可以作为新模态？

张鹏：当时用户的痛点是动作不可控、容易崩坏。

盖坤：对。角色一致性问题解决得比较快，但动作控制一直是难点。我们当时就在探索如何把「动作」抽象成一种模态进行控制。

张鹏：所以，「动作」在你们看来也是一种模态。

盖坤：在我们的认知里，动作（Motion）本身就是一个模态。现在的交互还处于中间阶段，即用户需要上传一个已有的视频，让 AI 去跟随。但最终的目标是实现动作的抽象化，让用户能直接与「动作模态」交互，从而实现真正的自由创作。

张鹏：直接下令让角色「快乐地奔跑」，它就能跑出来，而不是非得找个跑步视频喂给它。

盖坤：没错。在 2.0 发布会上，我预告动作控制时，其实是把它放在多模态视觉语言（MVL）的大版图里。虽然当时业界还没完全理解这种前瞻性，但我坚信这是通往愿景的必经之路。

张鹏：这种前瞻思维往往伴随着内部的博弈。这中间有遇到什么波折吗？

盖坤：早期确实有争议。第一版动作控制的技术实现不够理想，产品入口也深，用户很难发现。

但在管理上，我坚持要把这个方向做下去。后来团队在技术上实现了突破：我们没有采用学术界主流的「火柴人」方案，而是对动作模态的定义进行了创新。

张鹏：后来是调高了内部的「奖励函数」，给团队加压了吗？

盖坤：其实是自然生长的过程，我只是提供了必要的「阳光和水」，核心工作是团队自主完成的。当模型进入测试尾期，内部的测试用例出来的结果让我们非常惊艳。那种质感已经超越了传统的 AI 生成感，甚至让我找回了早期刷短视频时（如海草舞时期）那种停不下来的感觉。

张鹏：当时你预感到它会火，那上线后的真实反馈是怎样的？

盖坤：上线后我一直在等它「爆」。我们 12 月中旬上线，等了十几天，直到 1 月初先在印度火了，接着是韩国。

有意思的是，这属于「意料之中的潜力，意料之外的路径」。我们预期的爆点是极其硬核的帅哥美女跳舞，那是我们能力最强、素质最高的点。但实际走红的点反而是小朋友和宠物的趣味舞蹈。

我们的宣发体量并不大，用户生态的自发传播带来了这次的影响。

多模态的终局：走向 All-in-One

张鹏：所以本质上，你们是通过把「动作」引入多模态版图，创造了新的可能性。那么下一步呢？除了动作，还有没有其他待开发的模态？

盖坤：动作模态还没做完整。现在的动作控制更像是一个插件或单独的功能，下一步的目标是实现真正的 All-in-One（全模态大一统）——将动作模态深度抽象并融入模型。

至于未来，为了解决「场景一致性」等更高阶的需求，我们可能会对模态进行进一步的扩展和定义。

张鹏：「场景一致性」最终会对应到什么模态？

盖坤：它不一定是一个简单的模态，更像是一个综合解决方案。

目前人物一致性已经有了长足进步，但场景一致性依然是大问题。当用户要求变高时，你会发现切镜头后屋子的结构变了。虽然现在大家往往被特写镜头吸引而忽视背景，但在未来的完整叙事里，场景的一致性必须是断点。

我们可能需要通过简单的 3D 堆叠（3D Stacking）叠加精细的表观细节生成能力（Appearance Generation），让场景在不同镜头、角度和位置下保持绝对一致。这在拍摄复杂的太空片或史诗级故事片时尤为关键。

张鹏：现在业界有个调侃的观点：AI 已经很强了，但由于普通用户缺乏专业描述能力，AI 的上限很难被激发。这也解释了为什么现在很多创业公司都转向了 Pro-C（专业级个人用户），因为只有这部分人能用 AI 赚到钱并为此付费。

盖坤：其实不只是普通用户，如果没有合适的交互介质，连 Pro-C 也控制不了 AI。如果你不提供一种契合 AI 能力逻辑的交互方式，专业人士同样会觉得 AI 难以驯服。

张鹏：所以，未来的核心目标其实是重新定义交互。这种交互不再是简单的 UI/UX 调色，而是通过拆解不同的模态（如动作、表情、3D 结构等）来改变交互介质，让模型的能力真正落到产品里。这已经从纯设计变成了一个极其深度的技术课题。

盖坤：总结来说，可灵的核心能力是由三件事支撑的集合。首先是愿景驱动，这里包含终极需求和未来市场的想象力。我们所有的技术反推，起点都是为了实现「让每个人都能拍出脑海中的电影」。

其次是不设边界的技术功底，作为算法出身，我要求技术研发不设边界，但前提是「心里有谱」。你得清楚模型在技术逻辑上究竟能突破到哪一步。

最后是产品交互的同步变革：像 MVL 这种理念，本质是产品交互层面的创新。任何单方面的能力都不足以支撑现在的可灵。我需要知道模型的发展方向，更要知道如何通过重构人和 AI 之间的交互介质，来释放人的创作欲。

张鹏：你如何定义「模态」和「解决方案」？

盖坤：模态是你定义的一种新的输入/输出格式，比如文字、图像、视频、动作序列，甚至未来的 3D 建模态。解决方案是多种模态共同配合来解决一个复杂问题。

对于普通用户来说，能操作的 3D 往往是非常粗糙的。但要实现视频的一致性，精细的细节必不可少。这就是为什么我主张将模态与解决方案分层：我们可能需要用一个粗糙的 3D 模型作为骨架，叠加生图模态的表观细节，再配合文字描述，三个模态合力来解决任意视角下的场景一致性问题。

我们现在在做的 Scaling 模态，本质上是把世界的运行公式拆解得更完整。每定义一种新模态（如我们对动作控制的技术处理），就像创造一种新语言，虽然极难，但这才是真正的创新路径。

张鹏：这本质上是把世界的运行公式拆解得更完整，让工程化实现变得更容易。

盖坤：没错。但创造一个新模态（如我们对动作控制的底层处理）极难，它不是现有东西的排列组合，而是需要无数次的想象与验证，就像创造一门新语言。我们团队的路径就是沿着目标，在技术和交互上「不设边界」。大多数人是在已有模态中做选择，而我们是直接创造新模态。

1 到 3 年内实现「人人都是导演」

张鹏：你提到了一个词——「中期愿景」。这个中期是怎么定义的？

盖坤：我不是按时间定义，而是按对世界的改变来定义。

我的中期愿景是：让每个人都能用 AI 拍出好故事、好电影。考虑到现在 AI 并没有减速，甚至在加速进化，我觉得快则一年，慢则三年，这个愿景就能实现。

目前行业里 AI 真人短剧的火爆已经验证了这一点。从最初的萌芽到如今已经出现真正赚钱的作品，这非常像一年多以前的动态漫，或者几年前短剧刚起步的状态。AI 彻底改写短剧赛道已经是确定性事件，接下来就是电影。

张鹏：这其实是平权化的过程。不需要是业界大导演，也能拥有拍出高质量作品的资源。

盖坤：对。目前大家还在赚「工具」层面的钱，但这层成熟后，真正的 ToC 机会就来了。

我一直认为：当规模化、多样性的好内容多到一定程度，全新的 AI 内容平台就会诞生。

传统内容平台靠双边网络（创作者与用户）构筑了极其稳固的护城河。新玩家很难切入，因为两端互相卡脖子。但 AI 打破了这一僵局——它提供了一种无法被垄断的新供给。

张鹏：要打开新消费，必须先有新供给。拼多多当年打淘宝也是这个逻辑。但如果仅仅是内容变了，它可能只是「第二个快手」。这种新平台会有什么本质的机制变化吗？

盖坤：我认为有两步走。第一阶段是内容质量。这是必要条件，质量必须足够高，用户才愿意看。第二阶段是互动与交互。当内容质量在赛道内拉不开差距时，新的变量就是个性化与实时互动。

在 AI 时代，这种交互非常直观。比如看一部「爽文」逻辑的短剧，主角可以是你自己。如果你能把自己的形象、性格代入其中，且 AI 能保证生成质量，这种极致的个性化消费将彻底改变人与内容的关系。

张鹏：先解决好内容的「量产」，再通过 AI 实现「主角是你自己」的深度参与。

盖坤：在 AI 生成内容的时代，游戏与影视的边界会模糊。系统不仅能「猜你喜欢」，还能让你通过互动直接影响情节走向。这背后是极致的个性化与极致的互动，这两个维度存在巨大的想象空间。

张鹏：这会催生全新的商业模式。如果用户能把自己「注入」到角色里，甚至让 AI 稍微美化一下形象，大家是非常愿意付费的。现在已有团队基于 LoRA 技术为每个人定制专属模型，这意味着「长期记忆」可以转化为不断迭代的个人模型。

盖坤：没错。当各平台的生成质量都达到临界点、拉不开差距时，个性化与可操控性就成了决定胜负的「决胜点」。

张鹏：一个新平台想要颠覆旧秩序，必须在质量、个性化、可操控性这三个维度同时撞线。否则，单纯的质量优势很快会被对手追平。

盖坤：传统内容平台（如抖音、快手）的双边网络是基于人的，带有强烈的真人社交属性。而 AI 内容平台最重要的变化在于社交属性的转化。

很多人不看好 AI 内容平台，是觉得虚拟形象无法满足真人的社交需求。但我认为需求并没有消失，而是转化为「AI 虚拟社交」或「情感陪伴」。它不再是单纯为了建立线下关系，而是像电子宠物或情感伴侣一样的直达体验。

张鹏：这个比喻很有趣，社交不再是约着去「喝咖啡」，而是跳过过程，直接为用户提供「咖啡因」。现在的爽剧就是这种逻辑——不讲究口感（画面细节），只讲究功效（心理爽感）。

盖坤：AI 真人短剧之所以能在影视赛道率先跑通，是因为爽剧用户对画面质量的容忍度较高。用户可以忍受微小的变形，只要情节足够吸引人。

这个过程是阶梯式的：

1. 动态漫阶段：画面质量甚至可以「崩到飞起」，因为情节占比极大。

2. 短剧阶段：咖啡因效应强，对画面的容忍度依然较大。

3. 高阶影视阶段：随着技术提升，用户最终会对画面、质量、情节提出全面要求。

技术进步正在逐级解锁用户需求。当画面质量不再是障碍，规模化、多样性的好内容供给就会彻底爆发。

盖坤：视频生文模型生成的描述越精准、越细腻，训练出的文生视频模型对指令的遵循度就越高。这属于各家的核心技术壁垒，大家通常秘而不宣，但它确实决定了模型最终的「智商」。视频模型不是一个孤立的单点突破，它的多点联动效应极强。如果视频理解（标注）做得不好，生成的上限也就被锁死了。

张鹏：这事儿就像盖房子，是一层层垒上去的。如果最底层的数据和逻辑垒歪了，后面的模型表现就没法看了。

盖坤：很多人对视频大模型有误解，觉得它只是语言模型的一个应用或延伸。实际上，它是一个完全独立的各种基础模型。

它之所以比语言模型出现得晚，是因为它是一个高度复杂的系统工程，存在极强的技术依赖。语言模型更像是一个「单点」突破——通过爬取和清洗天然存在的文字数据就能起步；但视频模型不同，自然界中并不存在现成的「文本-视频」高质量对齐数据。

张鹏：也就是说，在视频领域，如果你没有技术手段自己去「造」出高质量数据，你连起步的资格都没有。这本质上不是资源问题，而是算法问题。

盖坤：对，「数据本身就是一个算法问题」。但在产品交互层，用户是看不到这层「材料科学」般的底层投入的。

一个顶尖的视频生成团队，必须在「视频理解」上有极深的沉淀。你不能只搞生成，你得先用一系列复杂的理解模型去处理、标注、生成高质量的训练素材。这绝非单点突破能搞定的。

为什么是快手？

张鹏：很多人好奇「为什么是可灵」。大家常猜测是因为快手有海量的短视频数据积累，或者是因为早期的视频审核业务带火了视频理解技术。

盖坤：这些关系不大。我认为快手给可灵带来的最大资产是一个现成的、建制化的团队。

这个团队在「理解」和「生成」上都有深厚功底。对于很多入局者来说，光是组建这样一个 Ready 的团队，可能就要耗费巨大的精力，甚至根本搞不定。

张鹏：这个团队最初是怎么规划的？

盖坤：2023 年，一笑决定投入卡做大模型，我负责规划和实施，当时大家默认指的都是语言模型。但我年底在「社区科学线」规划了几个前瞻方向，其中就包括视频生成。我们把相关人才码在一起组成了团队，但坦白说，当时的技术路线还很模糊。

张鹏：是 Sora 的出现指明了方向？

盖坤：Sora 的 Demo 是 2024 年春节期间发布的，极大地刺激了业界。

我在假期里就给团队布置了任务：如果我们要复现 Sora，技术方案是什么？春节回来后，我们就在这个办公室开会。当时很多大厂还在犹豫是继续走原有的路径还是转向，但我们在春节后的前几个工作日就完成了技术对齐，决定全线放弃其他架构，All-in DiT（Diffusion Transformer）架构。

当时大家把方案讨论清楚后，觉得物理可行，我才拍板定下了那个「要做全球第一个可用产品」的目标。

我后来在内部打过一个比方：OpenAI 就像是一个高冷的女神，她做出了惊人的东西，大家只会远观议论，不觉得自己能行；但当可灵作为一个「邻居」把这事儿干成了，大家才猛然惊醒——原来这事儿真的能落地，我们也能干！

AI 时代组织能力的「第三次演进」

张鹏：过去这段时间，你对于组织团队这方面有什么思考和收获吗？

盖坤：我可以分享一下我对过去二十年企业组织能力的看法，我认为它们经历了三个阶段：

首先是产品与运营驱动阶段，例如阿里早期有极致的 To B 产品和运营能力，核心是搞定供给侧。腾讯早期有极致的 To C 产品能力，在社交上构建出了网络效应。这些业务早期阶段中算法不是必要要素，所以业务逻辑中不太需要处理「算法不确定性」。

然后是算法与实验驱动阶段，这类业务（如 Google 的搜索、字节与快手的推荐）必须处理算法带来的不确定性。核心手段是 AB 实验和 bottom up 的试错机制。通过海量的实验来寻找业务的最优解。局限性在于 AB 实验是有天花板的。它适用于在有限的候选集里做低成本尝试。

最后是 Vision 与顶层意志驱动阶段，大模型时代改变了游戏规则：一次尝试的代价巨大（千万美金起步），且创新是在无限可能的空间里寻找不存在的路径（如多模态、DiT 架构）。核心能力在于由领军人物进行顶层技术与业务意志的规划。这种组织不再只依靠随机赛马，而是靠极强的 Vision（愿景）牵引，在一个茫茫多的可能性中下重注赌对方向。

大模型时代的「隧穿效应」

张鹏：在大模型时代，由于每一次尝试的代价都极其巨大，且面对的是一个完全没有参考系的「开放世界」，传统的 A/B 测试已经失效了。

现在的竞争更像是爱因斯坦式的「思维实验」时代。谁能在脑海中先通过精准的 Vision 完成推演，谁就能在现实中获得最高的执行效率。这种 Vision 就是「魔法」，它能让团队实现「隧穿效应」，绕过对手那些你根本扛不过的肌肉和资源，直接抵达战场中心。

盖坤：没错。在短视频推荐时代，靠的是人力的试错和极高的人素效率。但在大模型这种基模时代，语境彻底变了。

快手在资源和肌肉上很难和这种推土机式的试错效率竞争。如果非要拼肌肉，那就是斯巴达 300 勇士冲向十几万大军，哪怕打出神迹，最后也只能光荣战死。我们必须变「法师」，靠领先的技术方法论和顶层规划去制造局部优势，这才是第二名赶超第一名的唯一路径。

张鹏：所以社区科学线的存在，其实就是快手在算法领域保持「法师」属性的核心？

盖坤：我一直致力于算法层面的原创创新。在社科线，我们将搜、推、广与大模型结合，这种在方法论层面的文明和底蕴，让我们在面对第一名的肌肉竞争时，能守住那块属于自己的阵地。可灵的诞生，就是这种「顶层牵引」和「Vision 驱动」在视频生成领域的具象化爆发。

张鹏：听说这个房间（1405 办公室）对你们意义非凡？

盖坤：是的。可灵所有重大的转折点决策都是在这个房间里做的。

一个是 2023 年底决定启动视频生成方向；另一个是 2024 年春节后，决定全线放弃其他方案，All-in DiT 架构，并拍板要做全球第一个可用产品。这些决策不仅需要技术判断，更需要一种能量。

张鹏：这也是中国企业最精彩的地方：不是单纯的弯道超车，而是看准时机后的「直线加速」。

张鹏：今天聊得非常畅快。过去大家看可灵，往往看的是参数和样片，我这次来就是想还原背后的那些「底层代码」——是什么在驱动你们？

盖坤：快手是个实在的公司，可灵的每一步都是实实在在走出来的。在这个时代，大家遗忘得很快，只有把产品做到极致，不断翻越一座座山丘，才能真正抵达彼岸。

*头图来源：可灵 AI本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.