网易首页 > 网易号 > 正文 申请入驻

快手正悄悄地把可灵做成一个世界模型

0
分享至


作者 | 黄小艺
邮箱 | huangxiaoyi@pingwest.com

12月1日,可灵正式发布了新模型——可灵 O1,并连续发布了可图 O1、音画同出模型可灵2.6、可灵数字人2.0、可灵O1主体库&对比模版共五个更新。

最核心的是两个O系列的生成模型,与 GPT的o系列一样,“O”代表着 Omni(all,一切),意味着模型不再局限于单一模态的输入。

正因如此,O1也被视为视频生成界的 “Nano Banana” 。它们的相似点在于,都是多模态整合,都具有强可控性多轮编辑能力

看起来很酷,但可灵的目标并不止于“又一个视频模型”。

如果梳理近一年可灵的各种动作,你就会发现,O系列或许只是一个序幕,接下来,可灵的方向是要做出自己的世界模型。

1

“Video World Model是未来!”

事实上,可灵想做世界模型的这份野心,从来没有隐藏过。

第一个火爆的视频生成模型Sora,在发布之初就宣称自己是“世界模拟器”。22个月过去,越来越多的视频生成模型都在宣传或研究上,或多或少地朝“世界模型”靠近,可灵也不例外。

各种论文在提供着清晰线索。

早在2024年12月,Sora公开上线的同月,快手就发布过一篇名为《Owl-1: Omni World Model for Consistent Long Video Generation》的论文,提出了Omni World Model(Owl-1),用于产生长期连贯且全面的条件,实现持续的长视频生成,预测未来动态[1]。

从论文来看,这是他们长达一年的技术演进的梳理。进入2025年,快手的可灵团队就开始逐渐密集地发布世界模型相关研究。


在其中,你甚至可以找到各种当下火爆的路线方向。

2025年8月Google 发了实时交互的Genie3,快手则对它对应的这种生成式交互视频在游戏领域的应用做了研究,论文获得了ICCV 2025 Highlight。


2025年11月李飞飞正式发布的3D “世界模型”,快手也有一个对应的模型Terra。


这些名气很大的关键节点,快手的策略是紧跟不缺席。

不过,随着“世界模型”的概念被炒热,这也存在一个争议点——视频生成模型,到底是不是世界模型?图灵奖得主 Yann LeCun 曾为此泼过一盆冷水。他认为,“视频生成并不等于世界模型”,单纯预测下一个像素点,只是对画面的模仿,并非对物理世界的真正理解。

然后快手可灵团队在2025年11月也发布了一篇论文《Simulating the Visual World with Artificial Intelligence: A Roadmap》,里面给出了回应:视频生成模型也可以学习物理规律,像素只是模型渲染给人类看的结果,不代表模型中间没有计算和推理。

这篇论文可以看作是快手自己为“视频生成模型如何通往世界模型”画出的路线图,在文中,快手明确将Kling 1.0归类于第一代世界模型,Kling2.1 Master归类于第二代世界模型。

在他们看来,现代视频模型并非直接预测像素,而是存在一个隐式世界模型作为“大脑”,负责在肉眼不可见的高维潜在空间(Latent Space)中进行推演,这和LeCun的潜在空间推理同理,它接收当前的各种状态输入,基于推理能力和内化的物理法则——如重力、流体动力学、物体恒常性——计算出下一时刻的世界状态[3]。

快手专家研究员王鑫涛也直接在知乎上写下判断:“我相信,Video World Model 是未来”。


1

可灵最近研究都围绕世界模型展开

继续沿着《Simulating the Visual World with Artificial Intelligence: A Roadmap》这篇回看,快手那些看似碎片化的研究——从物理准确性到镜头运动控制——其实都能被串联进这条通往“世界模型”之路中。

Roadmap里的一个核心是,团队认为“视频生成”走向“世界模型”的一个关键点是Navigation Mode(导航模式)。


快手认为,真正的世界模型不能只靠“空间条件”(如布局、草图、深度图)来描摹画面、进行像素级或有限的控制;它必须能听懂“导航条件”——即那些脱离了画面依然成立的、具有时序的、具有空间推理的交互指令(如“向左转”、“推拉镜头”)。


也正是因此,团队有关“导航条件”的研究格外多。

镜头运动就是一种导航条件,ICCV 高分论文 RecamMaster,提出了一种由摄像机控制的生成视频重渲染框架,能够在新的摄像机轨迹下再现输入视频的动态场景[4];SynCamMaster 则进一步让模型在同一时间轴上实现多摄像机视频生成,确保不同视角间的内容一致性[5];而 AdaViewPlanner 则让 AI 变成了摄影指导,能自主规划最佳观察路径[6]。这一系列研究,本质上都是在提升模型对3D、4D空间的动态感知。

这些研究,也反映在了此次的O系列里。

从目前可灵O系列的案例中也能看出,例如,可灵O1针对一张侧面的车内驾驶视频,生成一张后座视角的车内驾驶视频;可图O1将一张二维的房间设计图,转化为3维空间的设计图等等。


按照快手Roadmap的定义,我们可以将可灵O1划分在世界模型第二代到第三代之间。

在快手的定义中, 第二代的主要特征就是交互性,“导航模式”赋予了模型灵活的控制力,使其能遵循预定义轨迹执行长动作序列,而第三代模型则更进一步,核心在于“规划能力”(Planning)与“实时交互”, 进一步强化了导航模式,模型不仅能“听指令走路”,还要能基于内在的物理知识,自主推演并生成无限长的视频序列。

也就是说,仅仅会“运镜”是不够的,模型还必须懂物理、能思考。因此在导航类论文之外,快手还构建了物理、推理方向的研究。

比如,快手推出的Monet训练框架,通过让多模态大语言模型 (MLLMs)直接在连续的潜在视觉空间中进行推理,增强视觉推理能力[7];

还有PhysMaster,作为一种模型外挂,通过注入物理知识来增强视频生成模型的物理感知能力,使其能够生成更符合物理规律的视频。[8]。

随着研究碎片们不断补齐,O系列,会是可灵打开新“世界”的大门吗?

1

在“赚钱工具”与“世界模拟器”的夹缝中

如果快手想要继续向世界模型前进,实时性就是一个关键的卡点。

尽管 O1 模型在空间逻辑、指令遵循上有进步,但生成一段 5 秒的视频目前仍需耗时约 2 分钟。这种“高延迟”并非 O1 独有的问题,回看从可灵 1.0 到可灵 2.1 Master 的整个迭代轨迹,团队显然采取了一种“画质优先,速度让位”的策略。


但对于一个旨在模拟世界的系统而言,如果无法做到实时响应,那么它更像是一个精美的“离线渲染器”,而非真正意义上可交互的“世界模型”。如何在保持高保真画质的同时,将分钟级的生成时间压缩至秒级、毫秒级,是一个难题。

不过,在一篇《Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval》的论文中,团队也埋下了一个伏笔:随着“上下文压缩”技术的改进,视频生成时间有望降低。

这一切也形成了一个非常有意思的“错位”:当年第一个喊出“世界模拟器”口号的 Sora,如今反而越来越像个产品经理,忙着搞 AI 视频版的 TikTok,开发 Cameo这种娱乐玩法,一门心思往应用层钻,而快手尽管攒了一系列的研究,但偏偏对外的产品公布里,就不提世界模型。

“技术向左,产品向右”的矛盾背后,是商业盘算。

在11月19日的Q3财报会上,程一笑提到,视频模型与大语言模型本质上均朝着世界模型方向演进,且视频模型有望成为世界模型的核心技术支撑,但可灵现阶段仍将“AI影视创作场景”作为核心目标。

某种程度上,可灵的产品和模型是分离的。模型在水下,可灵平台作为一个产品才是对外输出的核心。据快手Q1的财报会披露,可灵AI营业收入主要由P端付费用户(指专业的自媒体、视频创作者和广告营销从业者等)以及为企业客户提供API服务构成,而其中近70%由P端付费用户贡献。

这群“金主”不在乎你是不是“世界模拟器”,也没那么在乎实时性,他们只在乎能不能稳定出片、能不能赚钱。因此可灵外宣称自己是世界模型,似乎除了被挑剔,也没有额外的增益。

但情况迟早要转变。

单纯作为“影视创作工具”的商业天花板是肉眼可见的,根据此前和11月19日披露的Q3数据,可灵AI今年第一季度、第二季度、第三季度的收入分别超过1.5亿元、2.5亿元、3亿元,全年预计收入1.4亿美元,但增速逐渐放缓。

无论是谷歌 Veo3 被用于机器人领域,还是特斯拉利用生成式视频训练自动驾驶,亦或是游戏行业对AI引擎的渴求,具身智能、自动驾驶、游戏引擎等领域,才是视频生成模型真正的星辰大海,对模型的物理一致性和实时交互能力也提出了极高的要求。

所以,哪怕对于视频生成模型来说,想要不再只是一个昂贵的玩具或是一个辅助的创作工具,做成“世界模型”是一件生死攸关的大事。因为只有模拟真实,才能挖动和物理世界交互的金矿。

在今天的O系列之后,看起来我们可以期待快手接下来的“W”模型了。

参考资料:

[1]Owl-1: Omni World Model for Consistent Long Video Generation

[2]A Survey of Interactive Generative Video

[3]Simulating the Visual World with Artificial Intelligence: A Roadmap

[4]ReCamMaster: Camera-Controlled Generative Rendering from A Single Video

[5]SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints

[6]AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes

[7]Monet: Reasoning in Latent Visual Space Beyond Images and Language

[8]PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning


点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
偷鸡不成蚀把米!想让李荣浩道歉赔钱却全网社死,吴向飞要遭殃了

偷鸡不成蚀把米!想让李荣浩道歉赔钱却全网社死,吴向飞要遭殃了

叨唠
2026-03-30 00:09:47
《镖人》冲击全球冠军,差距仅200万,吴京成中国第一巨星

《镖人》冲击全球冠军,差距仅200万,吴京成中国第一巨星

影视高原说
2026-03-29 16:14:04
快灭国了却执意和中国断交,“抱大腿”无望又求援,中方:不惯着

快灭国了却执意和中国断交,“抱大腿”无望又求援,中方:不惯着

黑翼天使
2026-03-30 13:23:53
1979年计划生育,一家只准生一个,陈云:搞不好要被骂断子绝孙

1979年计划生育,一家只准生一个,陈云:搞不好要被骂断子绝孙

观史搜寻着
2026-03-19 06:44:44
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
老周强奸殡仪馆女尸,竟然救了女尸一命,他的结局如何?

老周强奸殡仪馆女尸,竟然救了女尸一命,他的结局如何?

李苏章
2026-03-29 08:15:29
张檬晒广州新家,11个月儿子能吃一大碗辅食,被仨人照顾白白胖胖

张檬晒广州新家,11个月儿子能吃一大碗辅食,被仨人照顾白白胖胖

八怪娱
2026-03-30 09:07:22
全国累计器官捐献志愿登记人数超过733万

全国累计器官捐献志愿登记人数超过733万

环球网资讯
2026-03-29 12:57:07
养鱼界最强王者!广东男子因把带鱼养活5天而爆红,网友惊叹围观

养鱼界最强王者!广东男子因把带鱼养活5天而爆红,网友惊叹围观

观察鉴娱
2026-03-29 09:59:48
布泽尔被打哭了!惨遭3分绝杀+19分大逆转!1号种子回家

布泽尔被打哭了!惨遭3分绝杀+19分大逆转!1号种子回家

野球帝
2026-03-30 13:40:38
一把好牌打得稀烂!四胞胎“冰清玉洁”出道失败,沦为酒吧擦边女

一把好牌打得稀烂!四胞胎“冰清玉洁”出道失败,沦为酒吧擦边女

离离言几许
2026-03-28 14:17:07
比赖清德更狂的人出现了,只要她当上台湾领导人,解放军必定收台

比赖清德更狂的人出现了,只要她当上台湾领导人,解放军必定收台

共工之锚
2026-03-29 18:26:19
炸裂一幕!以色列,被三国炸惨了!

炸裂一幕!以色列,被三国炸惨了!

大嘴说天下
2026-03-29 19:39:56
张雪峰追悼会!妈妈痛哭被搀扶,没见女儿,员工磕头,亲友三鞠躬

张雪峰追悼会!妈妈痛哭被搀扶,没见女儿,员工磕头,亲友三鞠躬

潮鹿逐梦
2026-03-28 11:27:42
家人突发心梗,第1步千万别先喂硝酸甘油!做对3件事,才真的救命

家人突发心梗,第1步千万别先喂硝酸甘油!做对3件事,才真的救命

冷眼看世界728
2026-03-28 20:11:50
多多:总喊内马尔回巴西队的人,根本没看他现在踢成什么样

多多:总喊内马尔回巴西队的人,根本没看他现在踢成什么样

懂球帝
2026-03-30 14:17:08
42岁男子长期被职场PUA抱住医生大哭,称一到公司门口就开始心慌,医生:他把领导的评价,当成对自己全部价值的判断

42岁男子长期被职场PUA抱住医生大哭,称一到公司门口就开始心慌,医生:他把领导的评价,当成对自己全部价值的判断

大风新闻
2026-03-28 21:28:03
又一名院士栽了,军工院士刘国治被中科院除名

又一名院士栽了,军工院士刘国治被中科院除名

张嘴说财经
2026-03-29 19:33:47
终于有了结果,曾医生能保住医院的工作,最应该感谢的三位贵人!

终于有了结果,曾医生能保住医院的工作,最应该感谢的三位贵人!

凌风的世界观
2025-11-14 08:38:31
乌度卡终于悟了!被弃用后球队全胜!斯通5200万签诈骗犯坑苦火箭

乌度卡终于悟了!被弃用后球队全胜!斯通5200万签诈骗犯坑苦火箭

你的篮球频道
2026-03-30 11:48:44
2026-03-30 16:15:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2968文章数 10473关注度
往期回顾 全部

科技要闻

DeepSeek性能异常问题已解决,服务恢复

头条要闻

太原高楼起火致3死23伤 居民:曾提醒烧烤店不安全

头条要闻

太原高楼起火致3死23伤 居民:曾提醒烧烤店不安全

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

单依纯凌晨发长文道歉!李荣浩再回应

财经要闻

油价冲击,有些亚洲货币先扛不住了!

汽车要闻

理想i9要来了!外形似小号MEGA 能冲击高端纯电市场?

态度原创

旅游
教育
时尚
亲子
数码

旅游要闻

安徽合肥:不负好春光 踏青赏花忙

教育要闻

“这妈是唐僧转世吧?”福建妈妈皈依式教育火了,儿子再无叛逆期

来到1980的周也,好毛利兰

亲子要闻

女儿今天来找爸爸,让女儿改口叫后妈

数码要闻

一个月下跌近30% 内存条价格为什么涨不动了?

无障碍浏览 进入关怀版