谷歌四大巨头齐聚：蒸馏模型的精髓是“挤柠檬”！Gemini 将用自己写的代码“改进”自己！五年...|算法|通用|编程|模态|智能体|知识图谱|知名企业|gemini

分享至

来源：市场资讯

（来源：51CTO技术栈）

编辑 | 林芯

“我们有点处在自己的科技泡沫里。”

“五年后的谷歌只有一款产品。”

“过去我们分散精力和算力，这太蠢了。”

今天，谷歌官方发布了一支重磅对谈视频，Google DeepMind 团队的四位巨头罕见地坐到了同一个镜头前：Google Brain 奠基人 Jeff Dean、Transformer 奠基人之一Noam Shazeer、Gemini 联合负责人 Oriol Vinyals 以及 DeepMind 首席技术官 Koray Kavukcuoglu。

这四个人，几乎参与了过去十多年谷歌 AI 最重要的每一次技术跃迁。

在这场由 Logan Kilpatrick 主持的深度对话中，四位巨头不仅揭秘了 Gemini 3.5 Flash 研发幕后，还复盘了谷歌从 PaLM 到 Gemini 的融合阵痛与“算力集中”内幕。

主持人 Logan Kilpatrick 是 DeepMind 高级产品经理，参与Google AI Studio 与 Gemini API 的产品开发工作。

首先，在I/O大会上，谷歌把 Omni 放在了类似“世界模型的版块里。那么Gemini Omni 是真正的世界模型吗？还是一种市场定位？

这个很多人疑惑的问题，在今天得到了解答：Omni 打破了过去 Gemini（侧重文本理解）与 Veo（侧重视频生成）各自分离的割裂状态，通过联合训练融为一体。因此在 Google DeepMind CTO Koray 看来 Omni 是一个真正意义上的世界模型。

第二，新一代的 Flash 表现都超过了上一代的 Pro，他们是怎么把 Pro 的智能，一代代塞进 Flash 里的？

Oriol 坦言，连他自己都对这种蒸馏进化速度感到着迷。而让人意外的是，这种强大的知识迁移并没有依赖任何颠覆性的新架构。Jeff Dean 透露，核心精髓依然是十几年前的论文。

CTO Koray 用了一个极其生动的“挤柠檬”理论来解释这个过程：

“这就像挤柠檬。你挤柠檬，汁水流出来，那些都是精华。然后你把它倒进玻璃杯里，这个杯子就是你的小模型（Flash）。”

第三，关于大模型的评估问题。Oriol 直言：“我认为评估非常困难。即使是从 Koray 提到的学术界时代开始，在社区里这都有点被低估了。”

AI 面对的是真实用户，如何以一种不会让数据泄露到训练集里的方式进行评估，并且还要让用户认同这个评估数字。

第四，当主持人提出预测 2027 年 Gemini 会有什么更新时，Koray 抛出了预测——自我学习。

现在的模型已经非常擅长写代码，并在实验室中参与研究。Koray 预测，很快行业就会走到：在实验层面上，人类研究员不再需要亲自调参、做实验，而是直接对模型下达指令。

“到时候你不用再对团队成员说：‘嘿，你为什么不针对这个做点实验，下周告诉我进展如何？’我们直接让模型去干就行了。” —— Noam Shazeer
“到那时，我们可以明确指出，我们模型中某个非常重要的部分，其实是由模型和智能体自己协同生成的。” —— Jeff Dean

主持人 Logan Kilpatrick 也提出了他的设想：模型能够自主运行 30 天。

Jeff Dean 补充道：当 AI 速度足够快时，人类现有的软件工具生态反而成了最大的累赘。现有工具的交互往往是为了适应人类的延迟或工作频率而设计的。

不然，那30天里有29天半都花在等待各种列表的加载上了。

第四，目前的模型其实并没有比三四年前的尺寸大多少，但我们却在不断塞进越来越多、越来越强的能力和信息。一个人一生中大概能听到10亿个词，而一个模型却要在成百上千兆（数万亿）的数据上进行训练，并且还能记住它们。

在 Jeff Dean 看来需要一些算法层面的创新，让模型从看到的每一级数据、每一个示例或每一个 Token 中获取多得多的信息。

第五，当主持人问道：五年后，谷歌是要么只有3个产品，要么拥有10,000个产品，你们会怎么看？

CTO Koray ：“只有 1 个产品。那个产品就是模型本身。”

Noam：也许未来我们会涉足物理实体产品，开始去搬动“原子”，而不仅仅是处理“比特”。

然而，Oriol 却提出了一个极具人情味的视角：即使大模型无所不能，人类依然需要“关注点分离”。

“作为用户，有时我觉得自己在操作数字设备时会做出主动的选择。比如我想查看日历、发邮件，或者买点东西。这种界限分明可能更多是出于人类习惯的考量，而不是技术限制。至少就我自己而言，我是不会去赌未来只有一个产品的。”

除了上述内容，还有“不同于MoE，Jeff Dean 心中更具'有机生命感'的架构、闭门造车不可行”等更多精彩的观点。

全文就在下面！

Google DeepMind 四巨头齐聚，首次揭秘 Gemini 3.5 幕后

我们刚刚推出了以 Flash 为首的 Gemini 3.5 时代模型。我想这已经是第三代半的 Gemini 模型了，期间我们发布了很多产品和模型。Oriol，你想带我们了解一下 Gemini 3.5 推出的这一刻吗？

Oriol Vinyals：好的，或许我们每个人都可以分享一点。说到烘托氛围，我想我们是在 2023 年开始的。我们已经发布了好几个版本，有些是“半代”模型，甚至还有点一个（.1）的版本，对吧？我们从一开始就建立在多模态、工具使用和智能体（Agentic）的基础架构之上，并且一直在不断提升这些能力。所以能发布 3.5 的 Flash 版本令人非常兴奋。这是一个非常强大的系列，这次的重点可能放在了编程能力上，当然，同时也保留并增强了其他原有的能力。

Koray Kavukcuoglu：我想大家都感觉到，现在正是编程能力和智能体体验定义 AI 体验的时代，而 3.5 在这方面迈出了一大步。而且我认为大家确实体会到了这一点，它正被公认为一个非常强大的模型。

Noam Shazeer：从某种程度上说，这些重大的发布时刻反而变得没那么让人兴奋了，因为现在每个人脑子里最关心的甚至不是对公众的重大发布，而是：我明天要用什么工具来做我的工程和研究？我周围办公室的朋友们会用什么来进行他们的工程和研究？他们会对我有怨言，还是会觉得满意？这种日常的反馈其实总是充满乐趣和挑战的。

从 PaLM 到 Gemini，

Jeff Dean：把精力和算力分散，过去我们太蠢了！

Logan Kilpatrick：回想最初大家聚在一起、组建 Gemini 项目并发布第一批模型的那段时光，当时对你们所有人来说，如何将 Gemini 模型带向世界的“产品故事”会如此重要，是显而易见的吗？我的意思是，显然在谷歌我们有很多产品，我们通过这些产品将 AI 带来客户，但为了“改进模型本身”，这种产品路径是属于“我们希望它发生并有意为之”的，还是随着时间的推移变得越来越显而易见，因为现在的应用场景比最初版本的 Gemini 要复杂得多？

Koray Kavukcuoglu：哈哈，对我来说，这就是我的工作。

Jeff Dean：我认为这在当时其实是显而易见的：如果你的模型有很多人在使用，你就会获得大量的经验和教训，知道什么是行得通的，什么是行不通的。我们在搜索领域已经见证了许多年：用户对搜索的使用，真正启发了我们哪些地方做得不好、哪些地方应该做得更好。通过聚合大量有趣的日常使用数据来更深层次地理解这些问题，然后致力于改进它们，这至关重要，AI 模型也不应该有什么不同。所以这从一开始就显而易见，但前提是我们要有一个产品摆在那里供人们使用。

当“跑分”失效，谁来定义 AI 时代的真正“前沿”？

Noam Shazeer：是的，这才是真正的考验，有人去用它，并且它对人们有用。因为如果你只是关起门来，试图在基准测试上盲目刷榜，那你最终得到的就只是好看的分数，甚至还可能导致基准测试数据泄露，结果并不会好。

Koray Kavukcuoglu：你不想在一个黑盒里闭门造车地构建智能，你希望人们去使用它。因此，理解用户的需求至关重要。探索前沿不仅是指在技术能力上探索研究的前沿，也是在探索你下一步能为用户做什么。如果不把它和产品结合起来，你就无法做到这一点。这两者相辅相成，共同定义了“前沿”的含义。

Oriol Vinyals：在 Gemini 启动时，其实已经有很多机器学习模型应用到产品中了。当时显而易见的是，如果我们能创造出一个单一的、能力超越其他模型平均水平的模型来驱动一切，那绝对是一个巨大的飞跃。至于是否能围绕一个单一模型创造出一个单一的产品，当时可能还没那么清晰。但我认为有一点非常明确，那就是将所有的算力和智能投入到一个单一的强大模型中，将会使谷歌已经在使用机器学习的许多业务实现跨越式发展。在最初被赋予如此多的算力和责任时，大家都感到非常兴奋。而现在，它确实被证明已经成为了谷歌智能的核心引擎。

Jeff Dean：甚至在我们启动 Gemini 项目之前，就有很多人在思考如何构建具有超强通用能力的模型。Oriol 当时在 DeepMind 领导一些工作，而我则在协助推进 Pathways 项目以及 PaLM 和 PaLM 2 等项目。我当时说，这太蠢了，我们正在分散我们的精力和算力。如果我们想打造一个极其强大的模型，我们就必须联合起来，集中力量构建一个单一的模型。这其实就是 Gemini 这个名字的由来。

Oriol Vinyals：我们先进行了映射（Map），然后进行了化简（Reduce）。

Koray Kavukcuoglu：我还以为是因为我有双胞胎呢。

Jeff Dean：那也是原因。

拥有一个大团队，总好过五个各自为战的小团队

Logan Kilpatrick： Jeff，这是一个很好的过渡，让我们再次回到 Gemini 项目的组建时期。我很想知道，当时这个决定有多大的争议？显然，正如你现在所说，我们已经进行了三次半的迭代，把团队召集在一起的所有组织层面的复杂问题现在都已经成为过去了。但在当时，这件事情是显而易见到“如果我们不这样做，我们就无法赢，也无法为客户构建出正确的产品和模型”的程度，还是说它最初更像是一个不切实际的高远想法？我很想知道你当时的信心程度是怎样的？

Jeff Dean：我当时非常确定，将大家联合起来才是正确的做法。我甚至在一份半页纸的备忘录里明确阐述过：分散精力的做法太蠢了。当时我感觉，把我们最好的想法分散在不同的、并没有真正协同工作的研究团队中，同时也分散了我们的算力，这两个问题显然都是我们应该去解决的。虽然在组织层面上有点复杂，而且还有时差问题，比如伦敦有很多人，这里也有很多人，相隔 8 小时从来都不是轻松协作的方法，但我认为我们在协调和把大家聚集在一起方面做得非常好。现在我们在世界各地拥有了一个非常棒、令人惊叹的团队，并且正在源源不断地打造出优秀模型。

Noam Shazeer：当时有一堆团队在各自构建大语言模型，你基本上只需要把他们融合在一起。

Koray Kavukcuoglu：在过去的某个阶段，人工智能研究其实更偏向学术界，对吧？如果你回到10年前，它更多的是学术研究。在那个阶段，你如何组织它并不是最关键的要素，更多的是关于探索，探索的速度才是重要的。但随着目标越来越集中，你真正想要的就是像 Jeff 所说的这种聚焦式的运作。因为这些工作需要更多专注的投入，而且就众多研究人员聚集在一起解决许多问题而言，其中的每一个项目都是一项重大工程，我们不再需要尝试并行地去构建各种东西。在那个节点上，我认为这真的是一个非常棒的主意。我认为两家组织（Google Brain 和 DeepMind）对此都行动迅速，并促成了这件事。这当然是一次特别的经历，把两个组织融合在一起从来都不是一件容易的事，但我认为每个人都意识到了这是正确的时刻，并且能从中获得巨大的价值。我想我们所有人都能看到，整个组织都为我们共同构建的成果感到非常自豪，Gemini 真正就是这一融合的果实。

Noam Shazeer：这就是规模的魅力，当你构建出一个美丽且庞大的单一 LLM 时，它能做这么多的事情。所以你确实需要把这么多人、这么多的算力，以及基础设施团队、数据团队等等全部整合在一起。拥有一个这样的团队，总好过五个规模很小的团队。

从 Pathways 到 Gemini Omni：

探索一个包揽所有模态的“万能后端”

Jeff Dean：我想说的一点是，从一开始我们就希望 Gemini 能够……甚至在 Gemini 诞生之前，Pathways 项目的起源之一就是去探索一个可以做很多事情的单一模型：一个能够处理所有不同模态的多模态模型；一个非常庞大且稀疏的模型，这样你就可以针对不同类型的事情激活它的不同部分。而这三点在现在的 Gemini 模型中都得到了体现。我想现在通过 Omni，我们已经掌握了多模态能力，现在我们甚至可以生成视频了。以前我们只能生成图像和音频。这真的很棒，因为你拥有了这个具有惊人推理能力的强大模型的全部力量，它能处理很多输入模态，甚至可以编辑它刚刚生成的视频。

Koray Kavukcuoglu：我认为 Omni 是一种全新的能力，对吧？当然，我们之前有 Veo 和 Nano Banana ，你可以做文本到视频、文本到图像，但你真正想要的是一个能够理解物理世界所有模态的模型，这样它不仅能理解物理学和一切规律，还能同时结合文本，因为文本中也包含着大量关于世界的、非常高层面的信息。

Gemini Omni 是真正的世界模型吗？

还是一种市场定位？

Logan Kilpatrick：Koray，很快插一句，我有一个关于这方面的问题。在 I/O 大会的主旨演讲中，我们似乎把 Omni 放在了类似“世界模型（World Model）”的板块中。我很想知道，这里面实际上是否包含了一堆 Genie 世界模型的东西，还是说这只是一种面向下一阶段的市场定位，即输入任何东西并输出任何东西，而这就是我们对世界模型的呈现方式？这一点我之前还没完全搞明白。

Koray Kavukcuoglu：那我谈谈我的看法吧，Oriol 在这些方面做了很多工作。世界模型意味着你真正理解了动力学、物理学和视觉效果，然后你还必须能够对其进行模拟。因为这种模拟能力非常关键，它既能让我们理解模型是否掌握正确，而且当你想要依赖这个模型时，你也会希望模型能够向前推进这种模拟，并且模型做出的决策是基于对未来的模拟。这就是为什么我认为 Gemini Omni属于另一个不同的范畴，它真正改变了我们之前对 Gemini 的定义（之前主要侧重于理解和文本输出）以及 Veo（文本输入并进行视频建模）的割裂状态，它将这些能力融为一体，变成了一个真正意义上的世界模型。

Oriol Vinyals：通过联合训练将其转化为了一个真正意义上的世界模型。我们当然希望所有的东西都能实现迁移，建立一个更好的文本理解模型也有助于提升世界建模的能力，但我认为我们每次尝试都会发现这并不容易。不过，随着我们掌握了正确的诀窍，我们看到了成果。回想当年，推出一个复杂的视频场景、保持前后一致性等等所有这些事情，你几乎必须手动去思考它们，甚至要预先指定如何让视觉效果随着时间推移保持正确，而过去当你转动画面时，里面的物体就消失了。现在，仅仅通过大规模的训练并不断融合所有的数据，我们看到了这些能力的涌现，这才是令人兴奋的地方，也是我们一直以来提出的核心前提。现在，我们终于还能输出令人惊叹且一致的 3D 世界、声音以及所有的一切。如果几年前你问我这种方法行不行得通，我觉得这几乎是不可能的，否则我们可能10年前就这么做了。但事实是，它确实实现了。

Jeff Dean：是的，可能也得益于更多的数据。当你听到“多模态”这个词时，你本能地会被吸引到人类的模态上，比如文本、图像、音频和视频。但实际上，你更希望模型能够理解更丰富的模态集——比如理解来自基因组序列、化学结构、机器人抓取数据或激光雷达数据等有趣的科学数据。让模型接触一点这类数据，能让它在以后遇到更多同类数据时，理解得更好。

没有 Coding Agents 时，Jeff Dean 就是我们的 Agent

Logan Kilpatrick：我觉得 Google DeepMind 团队能够打造出这个模型，以及能够完成之前提到的这段融合重组的故事，其中的一部分原因其实在于“人”，在于你们大家其实真正彼此了解。我们在开拍前还在镜头外聊过，你们大家都是什么时候认识、开始一起工作并听说彼此的。我很想听听你们每个人版本的相识故事。

Jeff Dean：也许我可以先开始，因为我想我认识大家的时间最长。可以这么说，在谷歌非常早期的那些年里，我做了大量的工程招聘和面试工作。有大概三年的时间，谷歌所有的工程简历都是由我来筛选的。

Noam Shazeer：那段经历很神奇，他们会直接抱来像一座小山一样巨厚的一叠简历。他当时筛选起来就像：“不要，要，要，不要，不要，不要，要。”速度超级快。

Oriol Vinyals：我记得当时有很多反复的沟通。我加入之后，我们启动了两个项目，其中之一就是模型蒸馏。我记得当时的代码库非常复杂，全是 C++。而你刚从学术界出来，并不完全清楚如何规范地去实现这些东西，但想法是清晰的。我清晰地记得我坐在 Jeff 的办公桌旁，他就在那直接手写各种类的代码，比如“好吧，这是蒸馏，这是 KL 散度”等等。我们那时候可没有 AI 编程智能体。但可以说，在有一段时间里，Jeff 本人就像是这个项目的 AI 编程智能体，而且直到今天，他依然是一个很难被超越的标杆。

Jeff Dean：那个项目很不错，因为 Geoff Hinton 之前在 MNIST 上做了一些非常早期的探索，MNIST 是一个非常非常小的标准数据集，他可以在自己的笔记本电脑上运行。他对于如何将一个大模型的知识迁移到一个小模型中有些很棒的想法。我想着我们必须在大规模数据上展示这个成果。于是，我们针对 3 亿张图像（在当时这已经算海量了）训练了一个由 50 个模型组成的集成模型（Ensemble），而且是 50 个截然不同的模型。我们对类别进行了分组，比如这个模型专门擅长识别汽车，那个模型专门擅长识别野生动物。然后我们通过蒸馏把这些知识迁移到了一个单一模型中，它的准确率比直接在原始数据上训练的单一模型要高得多。

Oriol Vinyals：顺便说一句，我记得当时算力已经开始受限了。但你唯一需要做的就是去问 Jeff：“嘿，我们的 CPU 用完了。”他就会去某个网站，改一下数字，我们的算力就翻倍了。我们这么干了好几次。

Jeff Dean：是的，当时我有超级用户权限。遗憾的是，指数级增长有时也会停止。

我们是怎么把 Pro 的智能，一代代塞进 Flash 里的？

Logan Kilpatrick：这太疯狂了。我们需要一部关于这个的电影。另外，回过头来反思这三年半、甚至更长的时间，坐在现在的立场上，有没有什么事情是让你们感到既“正面惊喜”又“负面惊喜”的？比如某些方面你们希望我们能取得更多进展，但很惊讶我们居然没有；而另一些方面，我们取得的进展可能远远超出了你们的想象。显然，这里面的很多东西在5年前是很难想象的，但有什么让你们所有人印象深刻的吗？

Oriol Vinyals：也许我先从正面的开始，这也非常符合今天的主题：我真的没想到我们能一代接一代地做到这件事——就是把 Pro（专业版）的智能水平重新压缩塞进 Flash（闪电版）里。这就好比，这种情况在 1.0 时代发生时，你可以说：“好吧，那只是第一代跑出来的结果，某些方面还很不成熟，所以我们改进了配方，这说得通。”但在某种程度上，这种进化有时甚至在加速。不管我们看哪个版本，新一代的 Flash 表现都超过了上一代的 Pro。我的意思是，仅仅去理解“蒸馏”是如何工作的，我都依然感到着迷，我们怎么能在每字节或每个参数里塞进这么多的智能？

蒸馏就是“挤柠檬”，用的还是十年前的配方

Logan Kilpatrick：是蒸馏技术本身发生了根本性的改变了吗？我们之所以能不断把更多能力‘塞进’小模型里，是因为在蒸馏方法上有了架构层面的改进？还是说，现在用的技术其实跟你们当年最初发明时的基本原理差不多？”

Oriol Vinyals：的确，我想说它甚至变得更简单了。我的意思是，我们最初在 Softmax 中使用了一些温度调节的技巧，而且我们不得不采用模型集成。

Koray Kavukcuoglu：别泄密。

Oriol Vinyals：哈哈，不，我不会说出来的。

Koray Kavukcuoglu：我只是确保一下。

Jeff Dean：我正准备把配方抖出来呢。只要你有一个非常非常优秀的“老师（Teacher 模型）”，然后有一个“学生（Student 模型）”就行。你不需要一个由 50 个老师组成的集成，你只需要一个真正顶尖的老师和一个学生。你几乎可以直接使用原始论文中描述的方法，加上一些适度的调整，但这个想法的核心精神基本上是一样的。

Koray Kavukcuoglu：让我给你一个最技术性的解释：这就像挤柠檬。你挤柠檬，汁水流出来，那些都是精华，然后你把它倒进玻璃杯里，这个杯子就是你的小模型。

Logan Kilpatrick：我喜欢这个比喻，太形象了。

Oriol Vinyals：你应该去读读那篇论文的导言，它有一段关于幼虫和昆虫的很诗意的引入。

Noam Shazeer：那篇原始论文是关于软标签（Soft labels）的，对吧？

Oriol Vinyals：是的，差不多。

当年的“单搜索框”，终于搭配上了通用 AI 后端

Logan Kilpatrick：那么，考虑到过去三年半里 Gemini 在各方面取得的巨大进展，有没有什么事情是你们惊讶于我们居然还没能搞定的？

Noam Shazeer：谈到好的一面，回想过去，这也和谷歌的初衷有关，对吧？我们一直有这种“单搜索框（One Box）”的哲学，对吧？Jeff，你一定记得一个框搞定一切。

Jeff Dean：就像那个搜索框，你输入某些内容它会显示体育比分，输入另一些内容它会显示股票行情，

Noam Shazeer：对，而在后端，这些全都是各自独立的、定制构建的后端，有些带有 AI 色彩，有些则没有。

Jeff Dean：比如拼写纠错里的“你是不是要找”，我没记错的话很大程度上是 Noam 的入门项目。

Noam Shazeer：当时用户会理所当然地认为：“噢，这背后一定有一个极其聪明的通用 AI，它什么都懂，能处理所有这些不同的事情。”而现在，我们真的把它做出来了，我们构建出了这个“单框”的通用 AI。

Jeff Dean：它确实变成了一个框。

Noam Shazeer：它就是一个框，而且它变成了一个统一的后端。我们终于为前端配上了正确的后端，因为我们打造了这个完美的“单框”。

不同 MoE 架构：Jeff Dean 心中更具“有机生命感”的架构

Oriol Vinyals：可是 Logan 想要听个负面的东西。

Logan Kilpatrick：不，不是负面的。但显然，人们总是想要更多，对吧？有什么是你们希望实现但还没实现的？

Koray Kavukcuoglu：但我认为你应该能理解，这对我们来说挺难的，对吧？因为我们深处其中。特别是对于研究人员来说，你不会带着太多的负面情绪去工作。如果某些东西行不通，那就是一次学习，你会在它的基础上继续构建。从你的角度来看，你原本期望看到什么，但现在却没有看到？你的失望点在哪？

Logan Kilpatrick：这是一个好问题，我不会把它定义为“失望”。

Koray Kavukcuoglu：但他显然是有想法的。

Jeff Dean：我有一部分是工程师，一部分是研究人员，所以工程师可能会更挑剔、更偏向负面一点。我的意思是，我原本觉得我们在“持续学习”和那些不那么结构化的模型架构上会取得更多进展。比如现在我们拥有的都是混合专家模型（MoE），它们的结构都非常相似。我总觉得一种更具“有机生命感（Organic style）”的架构会是我们……

Koray Kavukcuoglu：是的，我们总是想象那种更庞大的架构。

Jeff Dean：我依然认为这会很有趣，但我们现在还没有这么做。不过，我们目前采用的方法看起来非常管用。

Noam Shazeer：所以，我有那么一点点失望。好吧，我们目前也还没有治愈每一种疾病。你不能直接输入“帮我发明一种治愈癌症的方法”之类的话，然后它就直接帮你搞定了。但是，我们正在朝这个方向前进。

算法创新，如何让大模型从每个 Token 中榨取千倍信息？

Logan Kilpatrick ：是的。我很想听听你们对此的反应。我认为这不是一件负面的事，但让我感到惊讶的是：把各种能力融合到单个模型中，居然需要耗费如此多的能量和心血。显然，这是一场非常艰难的“杂耍”，你融合进一种新能力，它并不会直接开箱即用，你往往要拿其他能力做权衡，并且必须做出一些调整来弥补这些差距。从我的角度来看，这并不符合直觉。

Koray Kavukcuoglu：有一点让我对模型感到惊叹，那就是模型内部依然蕴含着令人难以置信的巨大容量，我们一直在不断往里塞东西。试想一下，目前的模型其实并没有比三四年前的尺寸大多少，对吧？但我们却在不断塞进越来越多、越来越强的能力和信息。我们可以做到这一点，模型里居然还有这么大的空间，这也许就是硬币的另一面。但对我来说，我们一直在这么做，而且里面依然有空间，这些模型里还有如此巨大的潜力。这也是为什么我其实感到很兴奋，因为就 AI 算法的发展而言，还有非常大的想象空间。我深信，这些模型的实际容量远远超出了我们目前所压榨出来的水平。未来将会有重大的创新，让我们能够利用这些模型做更多的事情。

Jeff Dean：是的。我想其中一部分在于，我们确实需要构想出一些算法层面的创新，好让模型从看到的每一级数据、每一个示例或每一个 Token 中获取多得多的信息。因为如果你看一下人类的学习效率，它比我们这种 LLM 的学习效率要高出一千倍。大语言模型需要看比一个真正聪明的人类多出一千倍的数据，然后才能达到与人类大致相当的能力水平——也许在某些方面稍好一点，在另一些方面又稍逊一筹。但它需要多出一千倍的数据。所以，如果我们能让模型从每一个示例中获取一千倍的信息，那将是非常惊人的。

Noam Shazeer：一个人一生中大概能听到10亿个词，而一个模型却要在成百上千兆（数万亿）的数据上进行训练，并且还能记住它们。

Oriol Vinyals：话虽如此，但你难道不稍微反对一下这个观点吗？其实人类也是被“预训练”过的，你又不是第一个人类。所以无论如何，关于这一点也是有一些争论的。

Jeff Dean：但是人类的“源代码”（基因库）非常小，我们只有几个吉字节（GB）的源代码。

Logan Kilpatrick：这就是我的疑问所在……

大模型评估问题被低估了，

如何让大模型完美泛化到“任何问题”上？

Oriol Vinyals：顺便说一句，关于“什么事情一直很困难”，我有一个比较硬核的体会。我认为评估非常困难。即使是从 Koray 提到的学术界时代开始，在社区里这都有点被低估了。

孤立地评估模型的能力，或者评估接下来的大事件将是什么，以及如何以一种不会让数据泄露到训练集里的方式进行评估，并且还要让用户认同这个评估数字。这里面有大量的工作和进展。但我感觉这依然出乎意料地难。也许是因为我们过去习惯了论文里的一张数字表格，而现在我们面对的是真实的用户和反馈。这虽然让人意外，但也很让人兴奋，因为每当你发现困难的事情时，你就会有动力去尝试解决它。评估是一件大事，它需要不断变得更好。

Jeff Dean：所有 AI 研究人员一直以来的梦想，都是如何构建出能够泛化到它们从未面对过的事情上的系统。这正是核心所在。即使你是在针对特定任务训练特定模型，你也希望它能泛化到该任务的新示例上。但我认为我们现在尝试做的是：泛化到任何人可能提出的任何问题上。这确实是一个难题。但通过拥有大量的用户，你可以获得大量的反馈，知道“好吧，在这类问题上我们泛化得挺好，但在那类问题上我们还不够好”。

数据驱动达成共识：

Jeff 想构建一些更具灵活性、更具可塑性且更流动的系统

Logan Kilpatrick：我对你们所有人有一个有些争议性的问题：你们显然已经以不同的身份在一起工作了很长时间。有哪些研究领域是你们至今仍未达成共识的？我想先做个铺垫，我认为这也许是一件好事。让拥有不同视角的人在一起的奇妙之处就在于，大家会有分歧，从而会去尝试不同的事情。我很好奇你们脑海中会不会浮现出什么具体的例子。或者说你们其实意见完全一致？

Koray Kavukcuoglu：我在努力想。我倒不觉得我们意见完全一致，但我不认为会有什么重大的原则性分歧。因为我认为在 Gemini 设计的宏大蓝图里，这个团队已经对各种各样的方案进行了实验。我们通过实验提炼出了很多想法。我知道 Jeff 一直有这样一个想法：构建一些更具灵活性、更具可塑性且更流动的系统。我们目前还没有走到那一步，但这并不意味着我们对此有分歧。只是我认为现有的系统已经在经验上为我们指明了道路，这就是我们正在打造的模型。除此之外，我认为我们并没有什么巨大的分歧。

Jeff Dean：在任何特定时期，我们每个人都会把更多的精力花在某一个或几个特定的事情上，而其他人不一定在那个事情上投入同样多的时间。比如，我现在把大量时间花在“未来的推理硬件应该是什么样子的”这个问题上，因为我认为这是一项超级重要的核心能力。你可能没花那么多时间在上面，但当我在厨房里向你描述时，你会说：“噢，听起来很棒！我们什么时候能用上它？”

Noam Shazeer：现实是让大家达成共识的一种很好方式。你看到了实验结果，看到了什么是管用的，什么是管不用的。

Jeff Dean：所以，我的意思是，总的来说，Gemini 是相当数据驱动的。很多人在小规模上运行实验，然后说：“看，这是结果。”大家就会说：“这看起来很有前景，你有没有试过把它和这个东西结合起来？”而且你必须以最有效的方式去使用研究级算力池，并且以数据为驱动来进行决策。

Koray Kavukcuoglu：如果你思考一下 Gemini，或者更广泛地谈谈 AI，它融合了太多层面的东西，从硬件到模型设计，再到产品以及所有的一切。所以我认为，能有这样一个团队聚在一起协同工作，实际上是让它真正运转起来的最核心因素之一。正如 Jeff 所说，他专注于硬件，Noam 专注于模型，Oriol 一直专注于模型并且现在正深入研究智能体并在那里做着非常深度的工作。而我试着专注于：好的，我们要带着 Gemini 走向何方？我们和产品的对接是否顺畅？我们是否获得了那种好的体验？我们的运转是否良好？所以，我认为我们所有人一起工作的方式，是在各自照料这个技术变革中不同且重要的一面。因为这是一场正在发生的、全面的技术变革，我认为能够有对这场技术变革的不同侧面进行深度思考的人在一起，这就是它能够成功的原因。

押注 2027：当 Gemini 开始用自己写的代码“改进”Gemini

Logan Kilpatrick：太棒了。我们应该做一些预测，这样一年后当我们回顾这段对话时，就能有一些“被打脸”的谈资。显然，今年 I/O 大会展示了巨大的进展和许多令人兴奋的事情。如果我们坐在这里展望 2027 年，总觉得 2027 年看起来很不真实，感觉像是好久以后的未来，但实际上也就剩 6 个月或者差不多时间。从模型能力的角度或类似的方向来看，你们有什么预测，或者说希望到时候有哪些功能能真正落地吗？

我们可以聊聊方向。就拿我们现在的进展来看，比如编程，显然我们在编程能力上取得了巨大的进步。到那时这方面会饱和吗？我们还会花同样多的时间专注于它吗？智能体也是一样。毕竟感觉我们在好几种不同能力上都处于指数级增长的轨道中。

Koray Kavukcuoglu：也许我先来插一句。我认为一年后可能会发生的一件事是自我学习。

Logan Kilpatrick：自我学习和持续学习是一回事，还是有区别？

Koray Kavukcuoglu：我觉得它们是相关的。也许对某些人来说它们是一回事，但我们现在正处于一个模型更具“智能体特性”的时代，而且它们非常擅长写代码。我们已经在研究中开始使用它们了。我认为慢慢地，我们会在研究中越来越多地使用它们，并且迟早会走到一个节点，至少在某些实验层面上，我们将依赖模型来改进 Gemini 的不同部分。我的预测是，明年我们绝对会在这条路上前行，而且很可能会开始探讨这个问题。让我们拭目以待。

Jeff Dean：到那时，我们可能可以明确指出我们模型中某个非常重要的部分，其实是由模型和智能体自己协同生成的。

Noam Shazeer：没错。到时候你不用再对团队成员说：“嘿，你为什么不针对这个做点实验，下周告诉我进展如何？”我们直接让模型去干就行了。

不更新权重也能变聪明？

下一代 Gemini 如何跨越“陡峭的增长曲线”？

Oriol Vinyals：这很难让人不赞同。但如果把这建立在持续学习的基础上，作为一种更进一步的能力，我的意思是，模型能够通过其经验和交互来提升自己，而不需要去更新它的权重，比如某种运行得非常好的知识库更新。我们确实有这方面行得通的例子，但我认为这项能力还没有迎来那种陡峭的增长曲线，还没好到成为每个人都会在模型中理所当然去使用和开启的必备功能。所以，这是我希望届时能看到的一点。一年时间似乎是有可能的。

Logan Kilpatrick：是的，可能这里面还有很多有趣又古怪的问题需要解决。感觉在当今这个时代，我总能遇到这样的例子：你问模型一个问题，它会扯进来一些莫名其妙的个人背景信息，比如某个朋友的生日派对，这跟我的问题完全无关，但它不知怎么就觉得有联系。所以这确实让人觉得它还需要再发展一年。

我们有点处在自己的科技泡沫里：当模型独立运行30天

Koray Kavukcuoglu：我们有点身处自己的科技泡沫里，对吧？因为我们本身就处于这项技术的研究核心。从你的角度来看，毕竟你比我们更接地气、更融入现实世界，你会想看到什么？你期待什么？

Logan Kilpatrick：问得好。虽然这并不是一个“Logan 专访”环节。

Koray Kavukcuoglu：不过也许我们以后应该搞几期。

Logan Kilpatrick：哈哈，不，你才不想听我要说什么呢。“模型就是产品”，这就是我要说的全部。我只希望模型能变得更好。不，说认真的，我认为“长时间运行”的东西会非常有趣。因为我觉得这是一个我们可以非常轻松去追踪的前沿。即使编程模型明天提高了20%并且变得非常好，我依然认为你会在“你希望模型自主运行多久”这个问题上遇到瓶颈。感觉到了 2027 年的 I/O 大会，如果我们能说：“这个模型在 I/O 大会开幕前已经自主运行了30天左右。”这会让很多人感到非常惊喜。也许我们到时候不会这么说，但这可以作为一个奋斗的目标。

Koray Kavukcuoglu：这种由模型独立完成的工作量，将会是一件大好事。

Logan Kilpatrick：是的，那会非常令人吃惊。而且我认为这其实需要整个技术栈的配合才能实现。比如你需要类似记忆系统，你需要持续学习，你还需要更好的硬件，因为让一个东西运行30天会消耗天文数字般的 Token。

Jeff Dean：没错。而且你也希望更好的硬件能带来超低的延迟。因为如果它在一天内就运行完了，你会比等30天要高兴得多。

Logan Kilpatrick： 30天是一个很好的营销文案，但能一天搞定我确实会更高兴。

当 AI 速度无限快，现有的软件工具就成了最大瓶颈

Jeff Dean：噢，另一个预测（不是针对产品发布的预测）：我认为这些智能体将会把我们的所有工具都逼到极限，暴露出它们太慢的问题。这些智能体依赖的很多工具，即使你把模型本身的速度提升到无限快，你也会在提升实际工作效率时遇到瓶颈。因为工具的交互往往是为了适应人类的延迟或工作频率而设计的，对吧？

Noam Shazeer：那30天里有29天半都花在等待各种列表的加载上了。

五年后的谷歌：只有 1 个产品，还是有 10,000 个产品？

Logan Kilpatrick：另外还有一个稍微有些争议的问题，我很想听听大家的看法。Koray，我很喜欢从研究的角度来探讨这个，这也是我感兴趣的原因。我前几天问过 Josh（Josh Woodward）这个问题：五年后，谷歌是要么只有3个产品，要么拥有10,000个产品。你们怎么看？哪种情况看起来更说得通？

Koray Kavukcuoglu：只有1个产品。那个产品就是模型。

Logan Kilpatrick：好的，我喜欢这个回答。你们其他人怎么看？

Jeff Dean：我的意思是，如果你有一个能力极其强悍的模型，它就能做非常非常多的事情。我想你在 I/O 大会的搜索演示中也看到了，它甚至可以在搜索内部为你量身定制、创建出各种小应用和可视化效果，并且能写代码。所以从某种意义上说，如果用户量巨大，我不知道这算是一个产品，还是10,000个产品，甚至是1000万个产品。

Koray Kavukcuoglu：但说认真的，我觉得人们希望以不同的方式来消费信息。我认为像“搜索”这个功能很重要。我认为五年后我们肯定还会有搜索，可能配上一个更具魔法感的搜索框。但人们想要获取信息、并为了自己去消费和吸收这些信息的这种“学习活动”，我认为依然是本质的需求。所以我真的认为它会存在。并且，我们大概会有多得多的产品，因为做产品会变得非常容易，因为它们背后越来越多地由同一个智能核心来驱动。

从比特世界到原子世界！

即使大模型无所不能，我依然需要“关注点分离”

Jeff Dean：我认为会有很多的产品外显形式，而让这些产品变得惊艳的核心要素其实只有少数几个。这就好比在 I/O 大会上展示的那款眼镜（智能眼镜项目），它是一个独立的产品，但它会因为模型变得更好、更懂音频、能更好地与你对话而变得更出色。但它依然是一个有别于搜索的、独立的产品。

Oriol Vinyals：我想我们很清楚，无论具体产品是什么，背后绝对是由同一个模型来驱动的。我不是这方面的专家，但作为用户，有时我觉得自己在操作数字设备时会做出主动的选择，对吧？比如我想查看日历、发邮件，或者买点东西。这种界限分明可能更多是出于人类习惯的考量，而不是技术上无法将这些功能整合到一个产品里。但我感觉，决定自己想要专注于做什么的这种选择，无论是最终会消失，还是我们纯粹进化到不再需要它，我还不确定，但我发现自己有时依然喜欢这种“关注点分离”。所以，至少目前就我自己而言，我是不会去赌未来只有一个产品的。

Noam Shazeer：我想我们一直在讨论的是“信息形态的产品”，即传递信息的产品。在这一层面上，你只需要探讨人类想要如何消费这些信息。是通过视觉？文本？眼镜？还是某种直接将模型内部嵌入直接输入到你神经元里的脑机接口或类似古怪的东西？不过同样是由 Omni 这类的技术来驱动的。也许未来我们会涉足物理实体产品，开始去搬动“原子”，而不仅仅是处理“比特”。不过，这是对遥远未来的预测了。

Logan Kilpatrick：我喜欢这个说法，“搬动原子而非比特”就是未来。非常感谢你们四位抽空坐下来聊天。这里面有很多带点争议性的回答，但这真的很精彩，也非常有趣。去年在 I/O 大会的一次对话中我发表过这个评论，我想当时我是对你说的，Koray，我觉得 I/O 大会把大家聚集在一起并发布这些东西，让你在和大家一起构建这项技术时，能够感受到“人类的温度”。今天的这段对话也让我有了这种感觉。所以非常感谢大家。也谢谢大家收听和观看本期的《Release Notes》，我们下期再见。

https://youtu.be/8hfpLa5wPGo?si=DQyeK-nFwjx-LlYG

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.