网易首页 > 网易号 > 正文 申请入驻

边看边创造,在 PixVerse R1 的实时世界模型里,你真是上帝

0
分享至


作者 | Yoky
邮箱 | yokyliu@pingwest.com

想象一下,用一句话生成一个世界,一句话改变一个世界,一句话无限延伸一个世界。

1 月 13 日晚,爱诗科技正式发布 PixVerse R1,它是“全球首个通用实时世界模型”,支持最高 1080P 分辨率,基于原生多模态架构、自回归流式生成和瞬时响应引擎构建。


先别管它是不是真正的“世界模型”,重要的是它确实改变了视频媒介的固有范式。过去视频生成是单向的:输入指令、等待结果、拿到成品。R1 把这个过程变成了实时对话:你说一句,画面就变一下,一直说下去,视频也就一直生成下去,没有时长限制。

有点前阵子 Gemini 发布生成式 UI 那味了:核心突破不是“更快”,而是交互方式变了。PixVerse R1 不是“更快的视频生成工具”,而是试图让 AI 真正模拟一个持续运转、可以随时介入的世界。

这极大拓宽了视频生成的应用场景。以前视频生成最有价值的是最终成品,是剪辑之后的结果。现在生成过程本身就是一种交互体验,可以直接用在实时游戏、互动剧情、甚至直播里。

真的假的?我们实测了一下,看看 Sora 画了一年多的饼,PixVerse 是不是真的先做到了。

1

不用等,你就是上帝

R1 上线后,硅星人在第一时间对其进行了测试,我们用一个经典的故事,来看看它的理解和交互能力。


Prompt 设定是一个经典的奇幻世界:浮空岛屿悬浮在金色黄昏的天空中,巨大的瀑布从岛屿边缘倾泻入云海,古老的石桥连接着各个岛屿,桥上爬满发光的藤蔓。在这个世界里,我“操纵”了一条喷火的巨龙盘踞在最高的岛屿上,一位勇士要穿越重重险阻,最终拔剑与龙搏斗,救出被囚禁的公主。

第一个让我意外的地方是真的不用等。从输入 Prompt 到画面开始流动,体感上几乎是即时的。按下生成,画面就开始随着提示词变化。用过其他视频生成工具的人应该知道,传统流程是:输入、等待、loading 转圈、几十秒甚至几分钟后出结果。R1 的体验完全不同,Prompt 和画面之间几乎没有时间差,你还在构思下一句的时候,上一句已经变成画面在播放了。这对于需要反复调试、快速迭代的创作流程来说,体验提升是质变级别的。

在长时间的生成中我发现,即便没有提示词,R1 的生成也是连贯的。以前用视频生成工具做长内容,本质上是“拼片段”,每次只能生成 4 秒或 6 秒的片段,想讲一个完整的故事,得自己手动把十几个片段剪到一起。问题在于,片段和片段之间,模型没有记忆。

R1 不一样。我从勇士启程、跨越石桥、对抗巨龙、救出公主,整个叙事是一条连续的流,不是碎片拼图。生成的结果中镜头逻辑是通的:勇士冲向巨龙时,镜头跟着他的动线推进;拔剑的瞬间,切了一个剑身特写,然后再拉回全景。这种镜头语言不是我 Prompt 里写死的,是模型自己“理解”了叙事节奏之后做出的选择。

第三个值得说的是,理论上可以一直生成下去。传统模型有一个硬伤叫“时长上限”。4 秒就是 4 秒,6 秒就是 6 秒,想要更长的内容,只能靠接力和拼接,而且越往后生成,累积误差越大,画面崩得越厉害。R1 让它摆脱了这个限制,测试的时候发现如果用户不干预,它可以一直生成下去,故事从勇士救出公主,发展到两人骑着飞行生物逃离巨龙的追击,又演变成飞跃云海、抵达一座新的浮空城市,即便不给新的提示词,它也会按照剧情一直生成下去,做到真正的“无限流”。

问题主要集中在转场和一致性上。

因为我的 Prompt 写得比较笼统:只给了“勇士穿越石桥”“与龙搏斗”“救出公主”这些关键节点,没有详细描述中间的过渡:模型在处理细节切换时出现了一些生硬的跳接。比如勇士刚刚还在石桥上奔跑,下一秒直接出现在龙面前,中间的空间位移没有任何交代。

另外,勇士在某些片段里会突然“变人”,前一秒还是男性形象,下一秒莫名变成了公主;有时候人物会毫无征兆地凭空出现或突然消失,虽然不至于完全崩坏,但确实能感觉到模型对角色的“记忆”还不够稳固。

这些问题加在一起,让我意识到 R1 目前的“世界模型”更像是一个新的框架:大的叙事逻辑能跑通,但细节处的物理规则和角色锁定还需要和真实世界的我们相互适应。

总体来说PixVerse R1 在速度、叙事连贯性和时长自由度上确实有突破,这三点加在一起,已经能改变很多叙事方式了。但“世界模型”这个概念要真正落地,物理一致性和自动化的叙事连贯性还需要继续打磨。

1

PixVerse R1 是“真实时”吗?

在此之前,市面上也有一些模型宣称“实时生成”,但大多数其实是“伪实时”,生成时间缩短到了人类感知不太敏感的范围,给人的体感像是实时,但本质上还是“先渲染、后播放”。你看到画面的时候,计算早就跑完了,只是等待时间短到你没注意而已。

R1 究竟是不是真实时,要看的不仅是它的效果,更是它的架构。

打个比方。伪实时像视频网站的预加载,提前缓冲了 10 秒,所以你感觉没有卡顿,但跳到没缓冲的地方就得等。“真实时”是直播:画面是当下正在发生的,不存在“提前渲染好”这回事。对应到视频生成:伪实时是“算得快”,真实时是“边算边出”。前者你没法在生成过程中插嘴,后者你可以随时喊停、随时改指令,画面即时响应。

R1 属于后者。它的架构从底层就是为“流式交互”设计的,不是在传统架构上做加速,而是换了一套逻辑。

传统的多模态模型,其实是“拼装”出来的,文字走一个模型,图片走另一个模型,音频再走一个,最后把结果拼到一起。各个模块之间没有真正打通。你让它生成“一只猫跳上窗台,窗外下着雨”,它可能猫画得不错,雨也画得不错,但猫毛有没有被雨淋湿、窗台上有没有雨水溅落这些细节,它顾不上,因为它是分开处理的。

R1 用的是 Omni 原生多模态架构。什么叫原生?就是从一开始,文字、图片、音频、视频就在同一个架构里训练,用同一套“语言”处理。模型看到的不是“文字+图片+声音”的拼盘,而是一条统一的 Token 流。这样它才能真正理解:下雨天的猫,毛发应该是湿的,窗台应该有水渍,雨声应该和画面同步。


R1 所采用的自回归流式生成,意味着模型生成下一帧的时候,会参考前面已经生成的内容。更关键的是它有“长期记忆”,不只是记住上一帧,而是能记住几十秒甚至几分钟前的信息。这就是为什么 R1 可以生成理论上无限长的视频,而且角色形象和场景逻辑大体上能保持一致。这是实时交互的基础,只有生成是连续的、有记忆的,你中途插入的指令才能被接住,而不是让整个画面从头再来。

前面两点解决的是“能不能”的问题,但还没解决“快不快”。就算模型听懂了、记住了,如果每帧还是要算 50 步,那还是快不起来。

R1 的做法很激进:直接把采样步数压缩到 1 到 4 步。

怎么做到的?简单说就是砍弯路、加引导、动态调配。把原来必须走的冗余计算砍掉,只保留最关键的节点;在极少步数里通过额外引导保证画面质量不崩;根据画面内容动态调整计算量:简单的地方少算,复杂的地方多算。

原生多模态让它听懂你要什么,自回归让它记住前面发生了什么,极致压缩的采样让这一切发生在“此刻”而不是“稍后”。

至于 R1 是不是“世界模型”?

它确实做到了实时、连贯、可交互。这不只是技术指标的提升,更是通向“世界模型”的关键跃迁。视频,作为对人类影响最大的媒介形态,正在成为 AI 理解物理规律、推演因果关系链条、应对开放场景的最前沿。真正的“世界模型”,可能将是人类想象力与机器智能共同演化的场域。PixVerse R1 只是实时(Real-time)媒介形态的一个起点,它第一次让亿万观众站在了这个世界的新入口:可以看,更能参与创造。

但方向比完美更重要。

Sora 让大家相信 AI 能生成视频,PixVerse 让大家相信 AI 生成的世界可以通过视觉交互。这是两件不同的事,后者可能才是通往真正“世界模型”的路。


点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上调至1500元!建设银行 黄金业务重大调整

上调至1500元!建设银行 黄金业务重大调整

每日经济新闻
2026-01-30 18:34:24
震惊!网传山西有人在亲人坟头上装了监控,当地网友爆料事件原因

震惊!网传山西有人在亲人坟头上装了监控,当地网友爆料事件原因

火山诗话
2026-01-30 06:01:08
又一汽车企业暴雷,总部人去楼空,老板疑似跑路,买车的要注意了

又一汽车企业暴雷,总部人去楼空,老板疑似跑路,买车的要注意了

侃故事的阿庆
2026-01-30 17:15:11
市场监管总局公布4起直播电商领域典型案例,成都快购被罚超2600万

市场监管总局公布4起直播电商领域典型案例,成都快购被罚超2600万

界面新闻
2026-01-30 20:32:13
郑州失联女护士已死亡!知情人透露当晚细节,哥哥发声曝死亡原因

郑州失联女护士已死亡!知情人透露当晚细节,哥哥发声曝死亡原因

有范又有料
2026-01-29 11:35:04
“莫名让我优惠50年”,商户称外卖平台“商战”成本转嫁实体店;专家分析补贴背后

“莫名让我优惠50年”,商户称外卖平台“商战”成本转嫁实体店;专家分析补贴背后

大风新闻
2026-01-30 16:12:20
美媒:确认中国霹雳-17导弹真实存在,该导弹性能让美国十分担忧

美媒:确认中国霹雳-17导弹真实存在,该导弹性能让美国十分担忧

阿龙聊军事
2026-01-29 11:31:57
陈菊获准辞职被指甩政治包袱

陈菊获准辞职被指甩政治包袱

参考消息
2026-01-30 10:07:16
14比7,日本在钓鱼岛对华亮“新武器”,24小时内,高市盼来援兵

14比7,日本在钓鱼岛对华亮“新武器”,24小时内,高市盼来援兵

兵说
2026-01-29 19:11:57
“女子考编第1因学历重叠政审不合格”最新进展:该岗位已由第2名递补

“女子考编第1因学历重叠政审不合格”最新进展:该岗位已由第2名递补

极目新闻
2026-01-28 11:38:11
被上海街拍惊艳了!满大街都是“大衣裹围巾”,却个个时髦又高级

被上海街拍惊艳了!满大街都是“大衣裹围巾”,却个个时髦又高级

时尚穿搭生活馆
2026-01-27 21:21:35
我刚调任局长去食堂吃饭,一老干部拍着桌子吼:你知道我是谁吗!

我刚调任局长去食堂吃饭,一老干部拍着桌子吼:你知道我是谁吗!

星宇共鸣
2026-01-28 09:05:49
东北女生晒春运“出国回家”攻略:连飞俄罗斯两地再坐船回黑龙江,比直飞还便宜

东北女生晒春运“出国回家”攻略:连飞俄罗斯两地再坐船回黑龙江,比直飞还便宜

上游新闻
2026-01-28 15:55:21
中国将对英国免签!

中国将对英国免签!

环球旅讯
2026-01-30 00:08:21
贵州省委常委、贵阳市委书记胡忠雄,补选为贵州省政协副主席

贵州省委常委、贵阳市委书记胡忠雄,补选为贵州省政协副主席

新京报
2026-01-30 13:06:07
英国首相斯塔默访华第一顿吃云南菜,菜馆工作人员:他用中文感谢店员,同行人员基本使用筷子就餐

英国首相斯塔默访华第一顿吃云南菜,菜馆工作人员:他用中文感谢店员,同行人员基本使用筷子就餐

极目新闻
2026-01-29 13:02:47
“明公主”赶在春节前被执行,她面相慈善,为何心狠手辣?

“明公主”赶在春节前被执行,她面相慈善,为何心狠手辣?

三农老历
2026-01-30 18:04:54
塔利斯卡:利雅得胜利把我赶走是因为我进球太多了,碍事

塔利斯卡:利雅得胜利把我赶走是因为我进球太多了,碍事

懂球帝
2026-01-30 11:21:09
新款梅赛德斯-奔驰S级轿车首次采用发光立标

新款梅赛德斯-奔驰S级轿车首次采用发光立标

界面新闻
2026-01-30 08:00:58
蒋介石孙子被抓进警察局,警察:家长姓甚名谁?他指了墙上的照片

蒋介石孙子被抓进警察局,警察:家长姓甚名谁?他指了墙上的照片

浩渺青史
2026-01-29 20:17:57
2026-01-30 21:15:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2830文章数 10435关注度
往期回顾 全部

科技要闻

意念控制机器人不是科幻 1-2年就落地

头条要闻

泽连斯基:我邀请普京来基辅 不可能在莫斯科与他会面

头条要闻

泽连斯基:我邀请普京来基辅 不可能在莫斯科与他会面

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

金晨出事前 曾灵魂发问未收到春晚邀请

财经要闻

金银闪崩,是调整还是趋势反转的开始?

汽车要闻

合资品牌首搭800V/5C快充 东风日产NX8将于3、4月上市

态度原创

手机
艺术
家居
房产
数码

手机要闻

3.07亿部!2025手机出货量揭晓,苹果、小米成大赢家?

艺术要闻

风景画选刊 | 中国油画学会三十年艺术展

家居要闻

蓝调空舍 自由与个性

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

数码要闻

马年焕新电竞房,四款27寸双模电竞显示器优选导购

无障碍浏览 进入关怀版