网易首页 > 网易号 > 正文 申请入驻

谷歌内部揭秘Genie 3:Sora后最强AI爆款,开启世界模型新时代

0
分享至

Genie 3是有史以来最先进的世界模型之一。

仅通过文本,它能够实时生成完全互动、高度一致的世界。

它不仅是DeepMind积累的结晶,还是通向AGI和具身智能体的关键一步。

但Genie 3是如何构建的?未来的世界模型又是什么样?

刚刚,谷歌DeepMind的研究科学家Jack Parker-Holder和研究总监Shlomi Fruchter,在a16z的访谈中,分享了他们的观点。


谷歌DeepMind的研究科学家Jack Parker-Holder和研究总监Shlomi Fruchter

这次对话提供了对Genie 3的第一手洞察。

主持人Justine Moore发推表示:「Genie 3在网络上引发热潮」。


主持人Justine Moore发文

他总结了深入探讨的要点:

Genie3是由两个DeepMind项目(Veo 2和Genie 2)合作完成的成果。

实时、互动的世界模型有很多潜在应用

但应用并不是推动研究的主要动力——它们是从用户使用模型的过程中自然涌现出来的。

Genie 3可以保留最长达一分钟的空间记忆。

物理规律是模型的「自然产物」,并会随着训练数据的规模和深度而不断提升。

目前还没有一个「终极模型」能够同时具备Veo 3和Genie 3的所有能力。

Genie 3:AI新魔法

如果说LLM的原生图像编辑功能,「动动嘴PS」是「言出法随」,那Genie 3这次的新特性叫什么?

只需输入文本提示,Genie 3即可生成动态世界。用户可以实时进行探索,每秒高达24帧,分辨率为720p。

十多年来,谷歌DeepMind一直致力于模拟环境的研究。

Genie 3是他们最新最强的「世界模型」,是通向通用人工智能(AGI)的关键一步,因为它能让AI智能体在无限丰富的模拟环境中进行训练。

去年,他们推出了首批基础世界模型Genie 1和Genie 2,它们能为智能体生成全新的环境。此外,他们还通过Veo 2和Veo 3等视频生成模型,不断提升对直观物理的理解能力。

这些模型在世界模拟的不同能力上都取得了进展。Genie 3是谷歌首个支持实时交互的世界模型,同时提升了一致性和真实感。


Genie 3在多个方面实现突破

在生成视频时长、世界一致性、内容的多样性、特殊记忆等多个方面,Genie 3都实现了突破。

它甚至可以让个人创造自己的游戏世界、训练强化学习的智能体、机器人研究等。

所有这些应用基本上都源于一个核心能力:只用几句话就能生成一个完整的世界。

最关键的新特性是:特殊记忆。

比如:一个角色拿着刷子在墙上刷漆,然后他移动到墙的另一边去刷,接着又回到原来的位置,结果之前刷的痕迹还在。

特殊记忆(special memory)是DeepMind团队有意设计的目标,但最终的效果好得出乎意料。

即便是参与Genie 3的内部成员,第一次看到上面刷墙的示例时也不敢相信,需要再三观看、逐帧检查,才确定这真的是模型生成的。


Genie 3的一致性非常高:建筑物左侧的树木在整个交互过程中始终保持一致,即使它们时而进入视野时而消失

其实,Genie 2就已经具备了一些「记忆能力」。但当时,整个AI界太多令人激动的模型发布,比如Veo 2模型几天后也发布了。而且,当时谷歌主打的卖点是「可以生成新的世界」,所以记忆能力就没被强调出来。

到了Genie 3,在「记忆」上,谷歌DeepMind下了更大的决心,明确地把「增强记忆能力」作为核心目标之一。

当时设定的目标是:

超过一分钟的记忆、

支持「实时生成」、

还能提升「分辨率」。

其实,这几个目标本身是互相矛盾的,但谷歌无所畏惧。

说实话,直到项目快结束时,在看到最终样本的那一刻,他们依然感到震撼。这种成果即使是预期中的,真的实现的时候还是非常令人兴奋。毕竟,研究项目永远不会有百分百的确定性。

在设计上,他们还有一个明确的方向,就是不采用「显式表示法」。市面上已有一些方法,比如用NeRF或Gaussian Splatting等技术,通过构建明确的3D世界结构,来达到一致性。这些方法很好,在某些应用上效果不错。

但他们坚持让模型「逐帧生成」,这种方式对模型的泛化能力、适应多样世界的能力更有帮助。

智能涌现,惊喜不断

就像其他生成式模型一样,随着Scaling,效果确实会提升,这已经不是什么秘密了。

尽管不如语言模型在推理能力上的涌现表现,Genie 3依然涌现出一些令人惊讶的行为。比如说,如果一个角色靠近一扇门,模型可能就会「推测」角色应该打开门;这类符合人类直觉的行为,模型现在能在一定程度上表现出来了。

还有就是对语言的理解在不断变好,生成的内容也越来越真实,视觉效果更自然。

从Genie 2到Genie 3的提升非常明显,特别是在「模拟现实世界能力」上有巨大飞跃。

比如物理效果的表现——像水的模拟、光照的变化,都非常惊艳。

现在已经到了一个地步,哪怕是非专业人士,看了之后也会觉得是真实拍摄的视频。

这太惊人了。而在Genie 2时代,模型虽然大致能表现出物体该有的行为,但你还是一眼能看出「这是AI生成的,不是真的」。

现在的视频真假难辨,进步真的很大了。

在「地形多样性」问题:比如模型需要理解在沙地上行走、在下坡滑雪、在水中游泳,这些动作和物理反馈应该是不一样的。

谷歌团队发现这些行为很多都是规模和数据广度所带来的「涌现能力」。

换句话说,他们并没有为这些行为做专门的训练或设计,而是模型自己「学」出来的。它通过足够丰富的训练数据,掌握了这个「世界」的通用常识。大多数时候,它表现非常不错。

比如下面的例子:

在滑雪时,角色在下坡时速度会变快,而试图上坡时就会变慢,甚至爬不上去;

下水后,角色一般会开始游泳或溅起水花;

靠近水坑时,模型通常也会让角色穿上雨靴。

这些行为都非常自然,和人类对真实世界的理解非常一致,而这些都是模型自己学会的,真的让人觉得像魔法一样。

这里还有一个有趣的权衡:既能保持世界的「物理一致性」,同时也能忠实地执行用户的提示词。

对视频模型来说,「低概率事件」本来很难,但Genie 3依然能有不错的表现。

这正是它的魅力所在:

即便是一些现实中不太可能发生的场景,Genie 3也能让你如临其境,而不是仅仅生成一个和你身边环境一样的无聊视频。

在「指令跟随/文本对齐」,Genie 3也得到了提升,这主要得益于DeepMind内部不同项目(特别是Veo项目)的经验迁移和知识共享。这种跨团队协作是DeepMind的优势

世界模型是让智能体走向现实世界最快的路径。Genie 3朝着这个目标迈出了一大步。

那Genie 4、Genie 5的新特性有哪些设想?

未来的关键,真实感和交互性

但总的来说,Genie 3团队最关注的始终是一件事:让模型本身变得尽可能强大,让它能产生更广泛的影响,然后把创造应用的机会交给其他团队。

他们表示最终会开放Genie 3模型。

未来确实让人特别兴奋,但也必须承认,世界模型距离真正「准确模拟现实世界」还有很大差距。

比如,把一个人放进生成的世界里,让他随心所欲地做任何事情,我们还远远做不到。

还有很多工作要做,才能让虚拟世界的真实感和自由度接近现实。

应用还有很多,关键在于能否准确模拟世界,并把人放进其中。也许还能从「第三视角」观察自己,或者与虚拟智能体互动。

他们还透露真实感交互性是未来的关键。

现在机器人领域最大的瓶颈之一就是数据:能收集到的数据非常有限。

而Genie 3能生成几乎无限的场景,这样一来机器人就能在虚拟世界里学习,而不再局限于现实中能采集到的视频。这个想法真的很令人兴奋。

最后一个问题:人类是不是生活在某种模拟中?

这个问题被问过很多次,得到了「哲学化」的回答:如果真是模拟,那它运行在完全不同的硬件之上

如果人类真的生活在一个模拟世界里,那它绝对不是运行在现在的硬件上的。因为我们的世界是连续的,而不是数字化的。

所有的感知都是连续的信号。

也许,在量子层面会有一些「硬件限制」,但至少和我们现在的计算机完全不同。

或许未来量子计算机,才是运行我们这个模拟世界的真正平台。

本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
那个被全单位孤立的挂职干部,我陪他吃了一年食堂,如今他回来了

那个被全单位孤立的挂职干部,我陪他吃了一年食堂,如今他回来了

星宇共鸣
2025-12-26 09:58:41
卫冕冠军掀翻领头羊!看媒体老师怎么说,苏群很直接,贾磊戳心了

卫冕冠军掀翻领头羊!看媒体老师怎么说,苏群很直接,贾磊戳心了

萌兰聊个球
2025-12-30 21:57:18
卡莱尔:火箭是联盟顶级的篮板大队 我们在卡位和对抗上做得不好

卡莱尔:火箭是联盟顶级的篮板大队 我们在卡位和对抗上做得不好

北青网-北京青年报
2025-12-30 19:19:03
实探Manus公司武汉办公室 团队已基本搬离

实探Manus公司武汉办公室 团队已基本搬离

财联社
2025-12-30 12:10:06
CBA最新排名!广东霸榜,宁波第6,山西辽宁连败暴跌,11-17全3胜

CBA最新排名!广东霸榜,宁波第6,山西辽宁连败暴跌,11-17全3胜

篮球资讯达人
2025-12-31 03:12:06
2026年汽车“国补”政策公布:报废汽车换新能源,最高补2万元

2026年汽车“国补”政策公布:报废汽车换新能源,最高补2万元

PChome电脑之家
2025-12-30 20:16:48
《江南春》为何能值8800万?仇英是谁?他最贵的一幅画估值1800亿

《江南春》为何能值8800万?仇英是谁?他最贵的一幅画估值1800亿

千秋文化
2025-12-29 21:43:20
官宣 58岁日本活化石5年后重返J联赛:开启第41个赛季 想踢到80岁

官宣 58岁日本活化石5年后重返J联赛:开启第41个赛季 想踢到80岁

风过乡
2025-12-30 13:01:27
半场开香槟的习惯,何小鹏该改改了

半场开香槟的习惯,何小鹏该改改了

源媒汇
2025-12-30 17:31:14
外媒爆:因气田产量不足,印度政府向信实工业及英国石油公司提出300亿美元巨额索赔

外媒爆:因气田产量不足,印度政府向信实工业及英国石油公司提出300亿美元巨额索赔

环球网资讯
2025-12-29 17:03:49
被强奸257次,还勾引实习民警,二人第三次开房因偷金项链被抓

被强奸257次,还勾引实习民警,二人第三次开房因偷金项链被抓

胖胖侃咖
2025-12-30 08:00:09
彻底没油了!本赛季打完,8名球星大概率退役!7人是全明星

彻底没油了!本赛季打完,8名球星大概率退役!7人是全明星

毒舌NBA
2025-12-30 10:05:51
托雷之死,军事强人为何总是玩不过政治高手?

托雷之死,军事强人为何总是玩不过政治高手?

掠影后有感
2025-12-28 11:38:44
为什么曾经战无不胜的蒙古骑兵到了明清就越来越拉胯了?

为什么曾经战无不胜的蒙古骑兵到了明清就越来越拉胯了?

历史按察使司
2025-12-29 10:41:18
1991 年,邓小平特派代表赴美团聚张学良,邀他重返故土,张学良回应:“回大陆可以,但我有三个要求”

1991 年,邓小平特派代表赴美团聚张学良,邀他重返故土,张学良回应:“回大陆可以,但我有三个要求”

文史明鉴
2025-12-21 17:07:19
又一个归化?巴西20岁妖星接近中超,签订长约,5年后可加入国足

又一个归化?巴西20岁妖星接近中超,签订长约,5年后可加入国足

国足风云
2025-12-30 13:35:28
湖北:男子创业第一次开店,1个月就失败:钱没赚到,反而还负债

湖北:男子创业第一次开店,1个月就失败:钱没赚到,反而还负债

心轩专栏
2025-12-29 22:39:17
天才比不过天赋怪?9岁陈思杨国少夺冠,王楠女儿和她差距太明显

天才比不过天赋怪?9岁陈思杨国少夺冠,王楠女儿和她差距太明显

以茶带书
2025-12-30 14:14:03
苑举正:统一要快!绝对要快!

苑举正:统一要快!绝对要快!

看看新闻Knews
2025-12-29 18:41:05
教育部任命!中国科学院院士,任985校长

教育部任命!中国科学院院士,任985校长

EOL教育在线
2025-12-30 12:27:57
2025-12-31 07:11:00
36氪 incentive-icons
36氪
让一部分人先看到未来
150309文章数 2847629关注度
往期回顾 全部

科技要闻

估值150亿的智元,开始批量"制造"小独角兽

头条要闻

轰-6K飞行员:已到达任务空域导弹准备完毕 可以发射

头条要闻

轰-6K飞行员:已到达任务空域导弹准备完毕 可以发射

体育要闻

联盟第一人倒下了!掘金还有底牌吗?

娱乐要闻

林俊杰女友被扒 父亲涉经济案卷款13亿?

财经要闻

朱光耀:美关税政策正使WTO名存实亡

汽车要闻

标配华为乾崑ADS 4 Pro 华境S明年上半年上市

态度原创

艺术
本地
教育
亲子
公开课

艺术要闻

中国博物馆全书!一口气看遍中国8000年“顶流审美”,赠品壕到离谱

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

教育要闻

辅修专业别乱选!3步高效规划双专业

亲子要闻

笑发财了!终于知道为什么孩子喜欢舅舅了,网友:有求必应

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版