网易首页 > 网易号 > 正文 申请入驻

快手正悄悄地把可灵做成一个世界模型

0
分享至


作者 | 黄小艺
邮箱 | huangxiaoyi@pingwest.com

12月1日,可灵正式发布了新模型——可灵 O1,并连续发布了可图 O1、音画同出模型可灵2.6、可灵数字人2.0、可灵O1主体库&对比模版共五个更新。

最核心的是两个O系列的生成模型,与 GPT的o系列一样,“O”代表着 Omni(all,一切),意味着模型不再局限于单一模态的输入。

正因如此,O1也被视为视频生成界的 “Nano Banana” 。它们的相似点在于,都是多模态整合,都具有强可控性多轮编辑能力

看起来很酷,但可灵的目标并不止于“又一个视频模型”。

如果梳理近一年可灵的各种动作,你就会发现,O系列或许只是一个序幕,接下来,可灵的方向是要做出自己的世界模型。

1

“Video World Model是未来!”

事实上,可灵想做世界模型的这份野心,从来没有隐藏过。

第一个火爆的视频生成模型Sora,在发布之初就宣称自己是“世界模拟器”。22个月过去,越来越多的视频生成模型都在宣传或研究上,或多或少地朝“世界模型”靠近,可灵也不例外。

各种论文在提供着清晰线索。

早在2024年12月,Sora公开上线的同月,快手就发布过一篇名为《Owl-1: Omni World Model for Consistent Long Video Generation》的论文,提出了Omni World Model(Owl-1),用于产生长期连贯且全面的条件,实现持续的长视频生成,预测未来动态[1]。

从论文来看,这是他们长达一年的技术演进的梳理。进入2025年,快手的可灵团队就开始逐渐密集地发布世界模型相关研究。


在其中,你甚至可以找到各种当下火爆的路线方向。

2025年8月Google 发了实时交互的Genie3,快手则对它对应的这种生成式交互视频在游戏领域的应用做了研究,论文获得了ICCV 2025 Highlight。


2025年11月李飞飞正式发布的3D “世界模型”,快手也有一个对应的模型Terra。


这些名气很大的关键节点,快手的策略是紧跟不缺席。

不过,随着“世界模型”的概念被炒热,这也存在一个争议点——视频生成模型,到底是不是世界模型?图灵奖得主 Yann LeCun 曾为此泼过一盆冷水。他认为,“视频生成并不等于世界模型”,单纯预测下一个像素点,只是对画面的模仿,并非对物理世界的真正理解。

然后快手可灵团队在2025年11月也发布了一篇论文《Simulating the Visual World with Artificial Intelligence: A Roadmap》,里面给出了回应:视频生成模型也可以学习物理规律,像素只是模型渲染给人类看的结果,不代表模型中间没有计算和推理。

这篇论文可以看作是快手自己为“视频生成模型如何通往世界模型”画出的路线图,在文中,快手明确将Kling 1.0归类于第一代世界模型,Kling2.1 Master归类于第二代世界模型。

在他们看来,现代视频模型并非直接预测像素,而是存在一个隐式世界模型作为“大脑”,负责在肉眼不可见的高维潜在空间(Latent Space)中进行推演,这和LeCun的潜在空间推理同理,它接收当前的各种状态输入,基于推理能力和内化的物理法则——如重力、流体动力学、物体恒常性——计算出下一时刻的世界状态[3]。

快手专家研究员王鑫涛也直接在知乎上写下判断:“我相信,Video World Model 是未来”。


1

可灵最近研究都围绕世界模型展开

继续沿着《Simulating the Visual World with Artificial Intelligence: A Roadmap》这篇回看,快手那些看似碎片化的研究——从物理准确性到镜头运动控制——其实都能被串联进这条通往“世界模型”之路中。

Roadmap里的一个核心是,团队认为“视频生成”走向“世界模型”的一个关键点是Navigation Mode(导航模式)。


快手认为,真正的世界模型不能只靠“空间条件”(如布局、草图、深度图)来描摹画面、进行像素级或有限的控制;它必须能听懂“导航条件”——即那些脱离了画面依然成立的、具有时序的、具有空间推理的交互指令(如“向左转”、“推拉镜头”)。


也正是因此,团队有关“导航条件”的研究格外多。

镜头运动就是一种导航条件,ICCV 高分论文 RecamMaster,提出了一种由摄像机控制的生成视频重渲染框架,能够在新的摄像机轨迹下再现输入视频的动态场景[4];SynCamMaster 则进一步让模型在同一时间轴上实现多摄像机视频生成,确保不同视角间的内容一致性[5];而 AdaViewPlanner 则让 AI 变成了摄影指导,能自主规划最佳观察路径[6]。这一系列研究,本质上都是在提升模型对3D、4D空间的动态感知。

这些研究,也反映在了此次的O系列里。

从目前可灵O系列的案例中也能看出,例如,可灵O1针对一张侧面的车内驾驶视频,生成一张后座视角的车内驾驶视频;可图O1将一张二维的房间设计图,转化为3维空间的设计图等等。


按照快手Roadmap的定义,我们可以将可灵O1划分在世界模型第二代到第三代之间。

在快手的定义中, 第二代的主要特征就是交互性,“导航模式”赋予了模型灵活的控制力,使其能遵循预定义轨迹执行长动作序列,而第三代模型则更进一步,核心在于“规划能力”(Planning)与“实时交互”, 进一步强化了导航模式,模型不仅能“听指令走路”,还要能基于内在的物理知识,自主推演并生成无限长的视频序列。

也就是说,仅仅会“运镜”是不够的,模型还必须懂物理、能思考。因此在导航类论文之外,快手还构建了物理、推理方向的研究。

比如,快手推出的Monet训练框架,通过让多模态大语言模型 (MLLMs)直接在连续的潜在视觉空间中进行推理,增强视觉推理能力[7];

还有PhysMaster,作为一种模型外挂,通过注入物理知识来增强视频生成模型的物理感知能力,使其能够生成更符合物理规律的视频。[8]。

随着研究碎片们不断补齐,O系列,会是可灵打开新“世界”的大门吗?

1

在“赚钱工具”与“世界模拟器”的夹缝中

如果快手想要继续向世界模型前进,实时性就是一个关键的卡点。

尽管 O1 模型在空间逻辑、指令遵循上有进步,但生成一段 5 秒的视频目前仍需耗时约 2 分钟。这种“高延迟”并非 O1 独有的问题,回看从可灵 1.0 到可灵 2.1 Master 的整个迭代轨迹,团队显然采取了一种“画质优先,速度让位”的策略。


但对于一个旨在模拟世界的系统而言,如果无法做到实时响应,那么它更像是一个精美的“离线渲染器”,而非真正意义上可交互的“世界模型”。如何在保持高保真画质的同时,将分钟级的生成时间压缩至秒级、毫秒级,是一个难题。

不过,在一篇《Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval》的论文中,团队也埋下了一个伏笔:随着“上下文压缩”技术的改进,视频生成时间有望降低。

这一切也形成了一个非常有意思的“错位”:当年第一个喊出“世界模拟器”口号的 Sora,如今反而越来越像个产品经理,忙着搞 AI 视频版的 TikTok,开发 Cameo这种娱乐玩法,一门心思往应用层钻,而快手尽管攒了一系列的研究,但偏偏对外的产品公布里,就不提世界模型。

“技术向左,产品向右”的矛盾背后,是商业盘算。

在11月19日的Q3财报会上,程一笑提到,视频模型与大语言模型本质上均朝着世界模型方向演进,且视频模型有望成为世界模型的核心技术支撑,但可灵现阶段仍将“AI影视创作场景”作为核心目标。

某种程度上,可灵的产品和模型是分离的。模型在水下,可灵平台作为一个产品才是对外输出的核心。据快手Q1的财报会披露,可灵AI营业收入主要由P端付费用户(指专业的自媒体、视频创作者和广告营销从业者等)以及为企业客户提供API服务构成,而其中近70%由P端付费用户贡献。

这群“金主”不在乎你是不是“世界模拟器”,也没那么在乎实时性,他们只在乎能不能稳定出片、能不能赚钱。因此可灵外宣称自己是世界模型,似乎除了被挑剔,也没有额外的增益。

但情况迟早要转变。

单纯作为“影视创作工具”的商业天花板是肉眼可见的,根据此前和11月19日披露的Q3数据,可灵AI今年第一季度、第二季度、第三季度的收入分别超过1.5亿元、2.5亿元、3亿元,全年预计收入1.4亿美元,但增速逐渐放缓。

无论是谷歌 Veo3 被用于机器人领域,还是特斯拉利用生成式视频训练自动驾驶,亦或是游戏行业对AI引擎的渴求,具身智能、自动驾驶、游戏引擎等领域,才是视频生成模型真正的星辰大海,对模型的物理一致性和实时交互能力也提出了极高的要求。

所以,哪怕对于视频生成模型来说,想要不再只是一个昂贵的玩具或是一个辅助的创作工具,做成“世界模型”是一件生死攸关的大事。因为只有模拟真实,才能挖动和物理世界交互的金矿。

在今天的O系列之后,看起来我们可以期待快手接下来的“W”模型了。

参考资料:

[1]Owl-1: Omni World Model for Consistent Long Video Generation

[2]A Survey of Interactive Generative Video

[3]Simulating the Visual World with Artificial Intelligence: A Roadmap

[4]ReCamMaster: Camera-Controlled Generative Rendering from A Single Video

[5]SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints

[6]AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes

[7]Monet: Reasoning in Latent Visual Space Beyond Images and Language

[8]PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning


点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
徐彬:接到狼队电话以为诈骗 不想等25岁出去 邵佳一让我看淡金钱

徐彬:接到狼队电话以为诈骗 不想等25岁出去 邵佳一让我看淡金钱

我爱英超
2026-02-02 21:53:50
前调查记者刘虎,被跨省抓捕了

前调查记者刘虎,被跨省抓捕了

历史总在押韵
2026-02-02 22:23:28
周生生足金挂坠戴一天就被刮花,检测后发现含铁、银、钯

周生生足金挂坠戴一天就被刮花,检测后发现含铁、银、钯

都市快报橙柿互动
2026-02-02 22:03:00
这回马斯克,“硅谷钢铁侠”的脸,算是被自己亲手打肿了!

这回马斯克,“硅谷钢铁侠”的脸,算是被自己亲手打肿了!

云中浮生
2026-02-02 15:09:57
澳网再现歧视华人事件!白人夫妇竖中指怒骂华人母子:滚回中国去

澳网再现歧视华人事件!白人夫妇竖中指怒骂华人母子:滚回中国去

风过乡
2026-02-01 15:15:03
深夜,美股猛拉!沪银,跌停!特朗普,启动“金库计划”!

深夜,美股猛拉!沪银,跌停!特朗普,启动“金库计划”!

证券时报e公司
2026-02-02 23:38:07
震惊!奔驰女追尾后立刻换上"公安"大衣,"亮证姐"后继有人了?

震惊!奔驰女追尾后立刻换上"公安"大衣,"亮证姐"后继有人了?

派大星纪录片
2026-02-02 15:53:19
契丹人有多讲究?签订澶渊之盟后,100多年和北宋几乎秋毫无犯

契丹人有多讲究?签订澶渊之盟后,100多年和北宋几乎秋毫无犯

历史摆渡
2026-02-02 20:05:03
随着比分定格1-0,沙特联榜首易主:C罗的主队豪取5连胜升至第一

随着比分定格1-0,沙特联榜首易主:C罗的主队豪取5连胜升至第一

侧身凌空斩
2026-02-03 01:39:51
解放军上将在京突然去世,6天后官宣:胞弟身份曝光,照片流出

解放军上将在京突然去世,6天后官宣:胞弟身份曝光,照片流出

博士观察
2026-02-02 22:20:05
知名媒体人刘虎疑被抓,曾因多次实名举报高官被羁押346天!

知名媒体人刘虎疑被抓,曾因多次实名举报高官被羁押346天!

兵叔评说
2026-02-02 14:41:43
影响恶劣!中国男篮队长搞地域歧视+破坏民族团结 应该公开道歉

影响恶劣!中国男篮队长搞地域歧视+破坏民族团结 应该公开道歉

念洲
2026-02-02 13:43:48
降温12℃!雨雪来袭!江苏返乡人做好准备……

降温12℃!雨雪来袭!江苏返乡人做好准备……

江苏警方
2026-02-02 18:52:38
黑色星期一!见证历史!

黑色星期一!见证历史!

中国基金报
2026-02-02 15:27:51
正常的乳房到底长什么样?(内附图解)

正常的乳房到底长什么样?(内附图解)

第十一诊室
2026-01-31 11:36:21
奔驰突然大范围调价

奔驰突然大范围调价

都市快报橙柿互动
2026-02-02 19:19:15
央媒怒批、坑害老百姓!臭名昭著的五大相声演员,各个难以原谅

央媒怒批、坑害老百姓!臭名昭著的五大相声演员,各个难以原谅

梦醉为红颜一笑
2026-02-02 06:12:05
再公布超三百万页文件仍难平息公众质疑,爱泼斯坦案爆出更多“大人物”丑行

再公布超三百万页文件仍难平息公众质疑,爱泼斯坦案爆出更多“大人物”丑行

环球网资讯
2026-02-02 06:57:29
炸裂!一女生自曝交过外国男友,回国后因“型号”问题做了修复术

炸裂!一女生自曝交过外国男友,回国后因“型号”问题做了修复术

谈史论天地
2026-02-02 13:55:09
C罗罢赛引沙特震荡!金主吓坏+赶忙安抚 考虑为他签下2名重磅新援

C罗罢赛引沙特震荡!金主吓坏+赶忙安抚 考虑为他签下2名重磅新援

我爱英超
2026-02-02 21:17:19
2026-02-03 06:23:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2836文章数 10435关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

周生生足金挂坠戴1天被刮花 检测后发现含铁、银、钯

头条要闻

周生生足金挂坠戴1天被刮花 检测后发现含铁、银、钯

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

57岁音乐人袁惟仁去世,家属发文悼念

财经要闻

金银暴跌 全球股市遭遇“黑色星期一”

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

时尚
房产
亲子
旅游
艺术

裤子+靴子:今年冬天最经典搭配,松弛又时髦!

房产要闻

狂卖1548亿后,海南又上演疯狂抢地!

亲子要闻

萌娃哄生气的妈妈,人小鬼大逗得妈妈生不起气来了

旅游要闻

解锁勐泐 4 大玩法,读懂真正的傣家风情!

艺术要闻

曾经的年画,难得一见!

无障碍浏览 进入关怀版