网易首页 > 网易号 > 正文 申请入驻

一分钟的奇迹与幻觉:实测世界模型Happy Oyster

0
分享至



具备初步的世界状态跟踪能力,但不适合强约束、高可预测性的系统任务。

作者丨冯逸飞

编辑丨冯逸飞 梁丙鉴

4 月 16 日,阿里发布了主打实时构建和交互的开放式世界模型产品 Happy Oyster。基于原生多模态架构,Happy Oyster 支持多模态输入与音视频联合生成,且生成过程中能够持续接收用户指令,实现画面实时响应、持续演绎。

如果说 AGI 是终极愿景,具身智能是物质载体,那么世界模型就是这一切的认知基础。它在技术脉络中占据了一个极其特殊的位置,那就是从大模型的“预测下一个词“,向”预测下一个物理状态“的演进节点。

这也让世界模型成为了一条炙手可热的赛道。16 日当天,腾讯开源了 HY-World 2.0,次日群核科技在港交所上市,成为“全球空间智能第一股“。视角拉得更远,谷歌、英伟达、Meta,以及李飞飞坐镇的 World Labs 都早就对这一赛道有所布局。

竞争逐渐升温之际,我们不禁要问,在最宏伟的愿景实现之前,有哪些先期落地场景可以为日后的争夺输血?

在诸多可能的应用方向中,游戏开发是一个被各大厂商频频提及的选择。原因不难理解。视频模型证明了 AI 已经很擅于交付画面,交互式的世界模型又向前迈了一步,尝试给用户一个可以进入、修改,并支持对用户的交互做出反应的场景。

当模型生成的不仅是镜头,而是某种可以被操纵的世界状态,它就触及了一度属于游戏引擎的工作,Happy Oyster 显然也在此列。

今天的世界模型,足以在游戏工业中落地了吗?它会如何改造游戏开发的流程,或是被游戏工业的需求反向影响?从构建场景的基础功能开始,我们模拟游戏开发的真实需求,测试了一下 Happy Oyster 的表现。


01

实测一:

构建场景,渲染光线,接替引擎的世界模型

Happy Oyster 一个很明显的特点是,它的交互体验已经不是我们熟悉的“用户说一句,模型生成一段”,而更像是允许用户在一个松散、概率化的实时系统里不断推着它往前走。

在官方给出的示例中,我试着做了几次很直白的修改,比如直接下达“增加角色数量”、“添加说话行为”等指令。有意思的是,新增角色并不会凭空出现在画面中,而是看起来更合理地从画面边缘进入,这说明 Happy Oyster 不是把整个场景推倒重来,而是在已有基础上进行增补。

类似的例子是,画面风格的变化会连带影响画面中物品呈现的材质和环境光,角色发出的声音和其原本的动作之间,也有着初步的同步感。在体验上,这更像是在维护一个比较脆弱,但确实已经存在的“当前状态”。


为了验证这个想法,我又要求在画面中加入赛博朋克元素。Happy Oyster 并没有用一层滤镜敷衍了事,霓虹灯这一赛博朋克经典元素出现之后,画面的色调被重新校准了,很多不同的物品也表现出更多的反射感,这些细节的同步变化重塑了场景的气氛。


Happy Oyster 只有真正理解了“赛博朋克”是什么,才能根据短短一句指令,就在原本的输出结果上修改出尽可能贴近《赛博朋克 2077》质感的画面。传统的游戏引擎是通过有限的资源组合加位置摆放完成场景构建,而 Happy Oyster 显然已经到了隐式的语义生成阶段。

对开发者而言,变化就发生在那些原本靠“搭”和“调”手工完成的环节,正在慢慢被“描述”取代。尤其是在灯光、氛围、视觉预研这些更前置的工作里,Happy Oyster 已经表现出了生产级的能力。你可以用它很敏捷地尝试创作方向和画面风格,而每一次试错中,来回调参数的成本都会被压到最小。

不只是前期视觉工具,从赛博朋克这个测试案例,可以看出 Happy Oyster 对于绕开现有的渲染流程,也有着不可小觑的价值。

传统游戏引擎的渲染方案是追求在有限算力下,把光照计算得尽可能逼真。这方面的技术包括:

▪ BRDF / BSDF 材质建模

▪ 光源采样(Direct / Indirect)

▪ 阴影(Shadow Map / Ray Tracing)

▪ 全局光照(Lightmap / SSGI / Lumen)

▪ 各种屏幕空间近似(SSR、SSAO 等)

虽然实现方法各不相同,但本质上都在试图用更可解释、可复现的计算,把画面的光影推向“视觉上正确”。但世界模型的解决方案完全不同,它不是在把这条计算链路算得更快,而是直接去猜一个合理的结果。

事实上,渲染管线本身在过去几年里也发生着类似的变化。以 DLSS 3.5、Ray Reconstruction,以及最近被反复提到的 DLSS 5 为例,它们会生成中间帧、替代部分去噪过程,还会在最终图像层补全光照和细节。Ray Reconstruction 是用一个训练过的模型,补全有限采样下的光照信息。而一些对 DLSS 5 的介绍,也开始提到它在材质和光照观感层面对渲染画面的进一步重建。

这种变化真正有意思的地方在于,最终画面早就不是引擎算出来什么,就显示什么。而以 Happy Oyster 为代表的世界模型,正在更深入地介入这个最后环节。

如果说传统渲染是在解方程,神经渲染是在弱约束条件下做推断,那么世界模型则更进一步,在弱约束条件下直接生成,一句“赛博朋克风格”的指令就是例子。

三种方案都试图在有限条件下,给出一个“看上去没问题”的画面,根本差别在于约束的强弱。神经渲染仍然站在引擎的肩膀上,使用几何、深度、运动向量这些信息,在一个边界清晰的空间里帮开发者优化结果,而世界模型则拿出了最激进的方案。它要用最少的约束、最少的信息,直接补全到空间、光照、物体齐备、匹配的程度,生成这件事由此从像素层,跃升到了世界层。

不可否认,这条路相当迷人,但代价也很明显。

传统渲染的优点在于可解释、可复现,一道光为什么如此照下来,你大体知道结果是怎么计算的,出了问题,很多时候可以顺着管线倒查。可一旦输出换成模型推断的结果,情况就会开始不同。

最直接的影响就是,当输出带有概率性,你就很难进行精确约束,同一个问题不一定稳定复现,debug 成本也会显著上升。在可控性问题真正解决之前,所谓的生成式渲染更接近于一种强大的视觉表达工具。

更现实的可能是,未来的游戏开发中传统引擎会继续负责空间结构、物理规则、游戏逻辑和同步状态,模型逐步接管高频视觉细节、材质表现、局部补全和观感优化,Happy Oyster 这类世界模型则会加速这一协同模式的成熟。

世界需要先被定义,但越来越大比例的画面会被模型“猜”出来。这个比例增长的速度,可能比我们想象中快得多。

02

实测二:“连续幻觉”,还是完整世界?

在前面的试水之后,我又开始尝试让 Happy Oyster 接管更完整的游戏开发,比如做一段玩家第一视角的游戏demo。

我给了 Happy Oyster 一张《天国:拯救 2》的截图,让模型据此生成一个完整的中世纪城镇,同时用比较精确的提示词控制了画面氛围和视角。测试所用截图和提示词如下,提示词由 GPT-5.4 辅助生成:



大致的意思是,阴沉的天空下,一座中世纪波西米亚的防御小镇静静伫立,烟囱里飘着缕缕青烟。潮湿泥泞的道路蜿蜒而上,通往高耸城墙内一座狭窄的石门。城墙两侧耸立着瞭望塔、木屋和木制脚手架,整体色调沉稳而质朴,空气寒冷潮湿,营造出真实的历史氛围。玩家将以第一人称视角骑马缓缓驶向城门,沉浸于浓郁的中世纪氛围之中。

模型输出的初始画面如下:


第一眼看上去,效果其实很惊艳。初始画面对原始截图的还原度非常高,在我尝试移动视角时,周围的建筑物结构也没有明显不合理之处,就连画面前方的 NPC 也有着相对可信的表现,很有代入感。

但在我让人物转了一圈之后,回到原点时,初始画面里的城门没有了。

一致性长期作为世界模型的关键瓶颈存在,无论从技术攻关还是落地应用的角度而言都是如此。Happy Oyster 内置导演模式和漫游模式两个版本,前者最长持续时长 3 分钟,官方介绍称该模式支持光照、重力、角色动作、场景因果关系保持连续一致,且允许用户实时干预,后者可以做到物体位置稳定、环境持续存在、视角与光照连续响应,最长持续时间则限制为 1 分钟,且只支持角色位置移动和镜头视角调整的交互。

论绝对一致性时长,腾讯 HY-World 2.0 理论上甚至没有上限。但是其并非生成视频,而是直接生成 3D 资产,一致性由传统 3D 渲染引擎保障。技术路线更一致的比较对象是谷歌此前发布的 Genie 3,官方技术文档介绍其已经可以达到数分钟级的视觉一致性和约 1 分钟的视觉记忆窗口。也就是当用户在 Genie 3 生成的世界中离开某个区域后,如果要求返回时,之前观察到的物体布局、涂鸦、建筑结构等视觉特征仍能保持稳定,那么这个时间窗口是 1 分钟之内。因此 Happy Oyster 漫游模式的 1 分钟成绩,在像素级实时渲染世界模型这一细分赛道,已经属于第一梯队水平。

但落在生产场景,状态难以持久导致的场景细节逐渐破碎、同一个对象反复变形,让今天的头部水平未必足以承担起系统级的交互任务。至少在现阶段,世界模型更接近一种带有时间连续性的可交互视频系统,而非成熟的新一代游戏引擎。

也正因此,世界模型最先带来的改变不会发生在游戏形态本身,而是从改造开发流程开始。

一个比较现实的演进顺序是,世界模型首先会被用于快速生成世界设定,用来替代一部分概念原型工作,然后会作为低成本的试错工具,供给给镜头、环境氛围、游戏节奏这类原本需要通过引擎反复微调的内容生产。再往后,才会是内容辅助生成。

Photoshop 没取代相机,Houdini (一款三维计算机图形软件,在影视特效和游戏开发等行业被广泛使用)也没取代引擎,但它们都实实在在地改变了很多人的工作流。或许对于传统游戏引擎来说,世界模型也是一样。

03

世界模型初体验之最终感想

游戏从来不是连续的画面那么简单。开发者们真正的心血,很多时候花在关卡节奏、数值反馈、机制组合、玩家路径控制这些结构设计上。这些任务兼具强约束和高可预测性的特征,而这正是今天的世界模型最薄弱的地方。

此外,一个能真正商业化、长期留住玩家的游戏,往往意味着数十小时的内容、稳定的系统循环,甚至是多人同步的大型世界。至少今天的世界模型,还远远没有走到这一步,这也是为什么它们更像是一次性体验的生成器,而没有展现出更成熟的产品形态。

但对迈向游戏行业的世界模型而言,真正重要的问题从来不是能不能干掉传统引擎,而是如何塑造一种全新的游戏体验。

过去更常见的路径是玩家下载游戏,进入预先设计好的世界,按照开发者设定的规则行事。而世界模型带来的另一种可能是,玩家可以依据兴趣自由描述,然后直接进入系统即时生成的世界中。

当这个入口成立,世界模型对游戏行业的颠覆就不再局限于开发管线,而会是整个内容生产范式的转变。如果“世界生成”的变成一种廉价的能力,“玩家为什么愿意留下”就会成为更昂贵的洞察,游戏工业将重新向着游戏体验设计的本质回溯。

今天的 Happy Oyster 只能维持一分钟的视觉记忆,却是短暂但宝贵的第一分钟。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本“折纸”卫星成功升空,在轨展开后尺寸增至25倍

日本“折纸”卫星成功升空,在轨展开后尺寸增至25倍

IT之家
2026-04-25 13:59:30
上海人终于体会到了引进印度人的“快乐”!

上海人终于体会到了引进印度人的“快乐”!

步论天下事
2026-04-25 09:34:47
4-4!428-428!赵心童单杆破百+绝杀黑球反超 丁俊晖1分逆转

4-4!428-428!赵心童单杆破百+绝杀黑球反超 丁俊晖1分逆转

念洲
2026-04-25 06:11:39
普京罕见让步,中国了结30年心愿!日本彻底慌了,高市遣使求饶

普京罕见让步,中国了结30年心愿!日本彻底慌了,高市遣使求饶

娱乐的宅急便
2026-04-25 11:50:56
爆大冷!0-1!英超劲旅倒下,埃梅里不敢相信,塞塞尼翁立大功

爆大冷!0-1!英超劲旅倒下,埃梅里不敢相信,塞塞尼翁立大功

足球狗说
2026-04-25 21:21:45
赖清德飞机被拒,美国急得跳脚:你连领空都不给过,我这“站台”站了个寂寞?

赖清德飞机被拒,美国急得跳脚:你连领空都不给过,我这“站台”站了个寂寞?

两岸观点
2026-04-23 12:30:15
4名主播同日宣布离开东方甄选,均提到不适应公司新变化,都感谢了俞敏洪

4名主播同日宣布离开东方甄选,均提到不适应公司新变化,都感谢了俞敏洪

极目新闻
2026-04-25 18:36:08
44岁陈震现身北京车展,从网红车评人到无人问津,现状一点都不怨

44岁陈震现身北京车展,从网红车评人到无人问津,现状一点都不怨

林雁飞
2026-04-25 17:14:49
中国第四艘航母官宣:是核动力!舷号19,命名大概率是“江苏号”

中国第四艘航母官宣:是核动力!舷号19,命名大概率是“江苏号”

谛听骨语本尊
2026-04-25 14:44:21
悲催!浙江一女子出轨,丈夫直言婚姻本就是一场赌注,放手去爱吧

悲催!浙江一女子出轨,丈夫直言婚姻本就是一场赌注,放手去爱吧

火山詩话
2026-04-25 16:19:12
中纪委周末“打虎”,国家发改委原秘书长伍浩被查

中纪委周末“打虎”,国家发改委原秘书长伍浩被查

界面新闻
2026-04-25 17:38:53
伊朗对中国的误会

伊朗对中国的误会

求实处
2026-04-24 23:57:32
社保严查全面收紧!无数中小企业,正在为十年前的小聪明买单

社保严查全面收紧!无数中小企业,正在为十年前的小聪明买单

芳姐侃社会
2026-04-25 18:32:12
被指涉嫌在美强奸27岁女性?陆宏达辞任智度股份、国光电器董事长不到一周再起风波

被指涉嫌在美强奸27岁女性?陆宏达辞任智度股份、国光电器董事长不到一周再起风波

蓝鲸新闻
2026-04-25 15:54:05
史上最大规模化债,已经开始!一个坚持了30年的信仰,进入倒计时

史上最大规模化债,已经开始!一个坚持了30年的信仰,进入倒计时

柏年说政经
2026-04-25 10:00:08
王钰栋暴怒!终场哨后怒骂队友,赛季3次情绪失控,曾怒怼球迷

王钰栋暴怒!终场哨后怒骂队友,赛季3次情绪失控,曾怒怼球迷

奥拜尔
2026-04-25 21:13:40
如果马寅初没提出人口论,也没有计划生育,如今我国会怎么样?

如果马寅初没提出人口论,也没有计划生育,如今我国会怎么样?

旧史新谭
2026-04-24 15:49:04
上海海港21天首胜!7战武汉三镇全胜,赛季最大比分,连刷5纪录

上海海港21天首胜!7战武汉三镇全胜,赛季最大比分,连刷5纪录

奥拜尔
2026-04-25 21:57:25
泡泡玛特:4月30日发售两款Labubu冰箱,售价5999元,每款全球限量发售999台

泡泡玛特:4月30日发售两款Labubu冰箱,售价5999元,每款全球限量发售999台

鲁中晨报
2026-04-24 20:08:07
丁俊晖扛了19年,赵心童跪地鼓掌:这一跪,是中国斯诺克最体面的传承

丁俊晖扛了19年,赵心童跪地鼓掌:这一跪,是中国斯诺克最体面的传承

带你逛体坛
2026-04-25 15:54:08
2026-04-25 22:36:49
雷峰网 incentive-icons
雷峰网
关注智能与未来!
69153文章数 656118关注度
往期回顾 全部

科技要闻

DeepSeek V4发布!黄仁勋预言的"灾难"降临

头条要闻

媒体:美军在中东罕见高密度集结 伊朗开始调整战术

头条要闻

媒体:美军在中东罕见高密度集结 伊朗开始调整战术

体育要闻

火箭0-3触发百分百出局定律:本季加时赛9战8败

娱乐要闻

《我们的爸爸2》第一季完美爸爸翻车了

财经要闻

90%订单消失,中东旺季没了

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

健康
教育
本地
公开课
军事航空

干细胞如何让烧烫伤皮肤"再生"?

教育要闻

教育纵深 | 阅读走新更走心

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美防长:战事不会“没完没了”

无障碍浏览 进入关怀版