谷歌创始人认为人工智能已接近奇点，Gemini下一代将自我进化|佩奇|宇宙|知名企业|谢尔盖·布林|deepmind

分享至

近日，很少抛头露面的谷歌创始人谢尔盖·布林在谷歌I/O大会之后，罕见地连续接受了两次个人专访。

5月24日CATGPT专访

在接受知名播客Catherine采访时，布林和主持人谈论了那个车库开发的互联网时代与 2025 年的人工智能时刻的比较。深入探讨了人工智能是发现还是发明、互联网诞生与生成式人工智能兴起之间的巨大差异、构建有朝一日可能超越我们的工具的真实感受，以及像 Gemini 这样的人工智能模型会设计自己的继任者的可能性。

布林将当前的AI热潮与互联网的早期进行了对比，认为互联网虽然辉煌，但并非技术上的革命性突破，更多是一种组织和共享信息的工具，其发展路径在早期即可预见。而AI则完全不同，我们甚至不知道智能的上限在哪里，其发展速度和潜力都超出了许多人的预期，甚至可能正在“测试宇宙的极限”。他认为，AI更像是一种“发现”，而非单纯的“发明”，因为它揭示了我们对智能未知边界的认知。

布林认为，在未来10年内，Gemini很有可能在人类的指导下，自我改进并创造出新一代的自身，这一过程甚至有可能在3-4年内实现。

访谈原文：

主持人：我很想请您将我们现在所处的 2025 年与互联网的早期进行比较。我将这个问题设置为：“AI 之于 2025 年，就像互联网之于哪一年？”

互联网时代与AI时代的差异

谢尔盖·布林：嗯，好的。互联网历史，我想 70 年代有 Arpanet 之类的。但 Web，我个人认为它诞生于 93 年左右 Mosaic 浏览器推出的时候，如果我没记错的话，然后 Netscape 又过了几年。我想，在某些方面，你可以进行类比。我不知道，你可以说 2017 年的 Transformer 模型，是我们新型语言模型的最初萌芽。但我认为它在很多方面都非常不同。

首先，互联网是辉煌的，它促成了许多事情，但它在技术上并非革命性的。 Tim Berners-Lee 在欧洲核子研究中心（CERN）发明万维网时，他们只是在组织和共享科学家的数据和资料。他们做得很好，它作为一个病毒式的组织工具传播开来，而且非常了不起，别误会我。但它不像，没人会质疑这在五年前是否在物理上可能。没有真正的限制。

在这种情况下，我们真的不知道智能是什么。我们不知道我们能把它发展到多远。我认为很多人，包括我自己，都对它发展得如此之快、如此之远感到惊讶。所以这是一个重要的区别。我们甚至不知道可能的顶峰在哪里。就像互联网一样，你可以想象每个人都可以高速与其他人交流。每家公司都会有一个网站，现在它们确实有。但你可以在 1990 年左右真实地想象到这一点。甚至在那之前也有类似的东西，比如 Gopher，我可能在暴露年龄，但 Web 之前也有类似的东西。但是对于人工智能，你不知道它的顶峰在哪里，或者根本没有顶峰。

所以这是一个重要的区别。另一个重要的区别是，无论是好是坏，人工智能现在已经获得了深刻的国际关注。投入到人工智能的资源、资金、计算能力和能源是惊人的。你知道，在 Web 的早期，我们是一家初创公司，我们获得了一笔不到一百万美元的种子贷款，然后就开始了。我想我们在风险投资轮中获得了大约 1000 万美元，就这样了。现在，公司正在花费数十亿数十亿美元来构建世界上最好的人工智能模型。这既是好事也是坏事，但它绝对不同。所以我只是觉得，尽管有相似之处，但我认为我们不知道它会走向何方。

主持人：既然如此，您是否认为人工智能从根本上更像是一种发现，而不是一项发明？您是否觉得这是宇宙的某种新兴特性，我们只是偶然发现它，还是这是人类创造力的终极考验？

谢尔盖·布林：嗯，我想你说的这两种情况都与 Web 不同。我的意思是，是的，我认为它是一种发现，因为我们根本不知道智能的极限是什么。没有哪条定律规定，你可以比爱因斯坦聪明 100 倍吗？你可以聪明 10 亿倍吗？你可以比谷歌聪明数万亿倍吗？没有，我不知道，我认为我们根本不知道支配这些的定律是什么。所以，是的，我想你可以称之为一种发现。也许一个类比是量子计算，你不知道你到底能从宇宙中获得多少计算能力。量子力学的基本定律表明，这个数字非常高，但你不知道在实践中是否存在你现在不知道的其他限制。

主持人：是的，是的，是的。这真令人着迷。但您最终认为人工智能比互联网更具划时代的发现或发明吗？

谢尔盖·布林：是的，我认为互联网非常重要，但它更像是一种社会发展，比如每个人都同意使用这些协议，然后让他们的数据和系统对其他人开放，通过 TCP/IP，然后是 HTML、HTTP，只是通过约定协议，让它成长和繁荣。嗯，也许类似于几千年前货币的发明，它让人们真正地进行交易，但它不像，无论是货币还是互联网，都没有在测试宇宙的极限。

主持人：但人工智能正在测试？

谢尔盖·布林：但人工智能正在测试。是的，因为我们不知道事物能有多智能，我们不知道。我们对大脑了解一些，大概有 1000 亿个神经元，100 万亿个突触，它们运行得非常快。但你知道，用我们的计算机，我们能模拟它吗？我们能超越它吗？能走多远？那会是什么样子？是的，我们只是不知道。

主持人：我觉得，在这种情况下，关于我们如何处理这个问题，我们应该建造什么，谁应该参与这些问题，既是哲学问题，也是技术或经济问题。

谢尔盖·布林：百分之百是。是的。意识是另一个被引入的问题。你知道，互联网并没有引发意识问题，但如果这个人工智能足够智能和自我意识，那又有什么关系？那意味着什么？我不知道。

追忆车库时代

主持人：您于 1998 年在门洛帕克的车库里与拉里·佩奇共同创立了谷歌，这是众所周知的事。当时你们只是两个小伙子，因为看到了机会而试图创造一些东西。现在，谷歌是一家市值 2 万亿美元的公司，我希望我没说错，拥有 18 万名员工。嗯，也许有增有减，您也了解。驾驭人工智能浪潮，拥有所有这些基础设施，有很多优势。但我好奇的是，您是否有一小部分（也许只有 1%）希望自己能回到 20 岁，刚从斯坦福大学毕业，只是车库里的两个小伙子？

谢尔盖·布林：嗯，这是个好问题。我的意思是，看，我只是感激，作为计算机科学家，能在任何年龄段活在这个时代。我想如果你走到街对面，我不知道，也许你可以说服一些人让你稍后去做，你会看到所有的人工智能研究人员都聚集在咖啡机旁等等，每个人都很兴奋。我的意思是，这确实是一种非常像初创公司的感觉。它显然不是一个车库。不过技术上讲，我们开始的时候确实有一个车库和几间卧室。

主持人：好的。所以就像是…

谢尔盖·布林：但我们确实有车库，但不仅仅是车库。

主持人：我最担心的是弄错历史细节，所以我很高兴现在解决了。

谢尔盖·布林：不不不，我们讲的故事就像一个车库。我的意思是，但也有另外几间房间，这很有帮助。这很好。但是，我的意思是，有一种非常强烈的创业精神。我想考虑到目前在前沿竞争所需的计算要求，以及其中涉及的科学量，作为车库里的两个人，很难取得很大的进展，至少在基础模型方面。很多车库里的人可以使用这些模型来创造新的和令人惊奇的东西。我不想否定有人会有一个绝妙的想法，即使只有两个人也能完成的可能性。但看起来，前沿正在由像我们这样的大公司推动。我认为我们现在处于前沿，我为我们去年取得的产品进展感到非常自豪。所以，老实说，我非常感激能够成为其中的一部分。所以我认为我不会选择那种时光倒流到年轻时的传送。

展望Gemini未来

主持人：是的。您真正相信的最具科幻色彩的事情是什么，您认为在未来 10 年内有很大机会成为现实？

谢尔盖·布林：我认为最令人兴奋的事情将是 Gemini 对自身做出一些实质性的贡献，在机器学习思想方面，它提出想法，也许自己实现，并开发出下一个版本的自己。我们已经大量使用 Gemini，比如一些人工智能研究员会说：“哦，我需要你为我调试这段代码。”或者“帮我解决这个数学问题。”或者诸如此类的零星任务。但作为一种真正实质性的、某种新的、重要的突破，由人工智能本身创造，我认为对我来说那是科幻小说，但我认为它很可能发生。

主持人：如果您要粗略估计一下，您认为 Gemini 何时会创造出下一个版本的 Gemini？

谢尔盖·布林：我的意思是，就像我说的，它已经在提供帮助了，这已经发生了。但从某种意义上的从零开始的重写……我不知道，这是个难题。我不知道，我不知道这在某种程度上是不是一个很高的优先级，因为我们可以在某种程度上指导它。在什么程度上它是可能的？也许三年，比如说三四年。我不知道它自己创造的版本是否会和它自身一样好。

但如果你想想我们的新视频模型 V3，顺便说一句，它在演示区让我感动得流泪，是好的方面，非常好的方面。

主持人：好的，只是确认一下。

谢尔盖·布林：是的，是的。声音，有些东西就是。是的，声音是如此重要，直到有了它我才意识到自己错过了多少，它都在那里，它就像一块巨石击中了我。

主持人：哦，谢谢。

谢尔盖·布林：但你知道，理论上，我想我从来没有尝试过这个，但首先，你不需要，我不知道我们在用户界面中是否支持这一点，但你不需要给它一个提示。它会直接生成一个视频，我们的用户界面可能不支持不给提示。但是那样你就会不知道它会做什么。你可以说“制作一个好的视频”，我想。那将是模型自己运行，但通常我认为当它由人指导时，你可能会得到很好的结果，我想你就是这样做的，你给了它一些提示，一些目标。所以我想说的是，如果 Gemini 创造了下一个伟大的 Gemini 版本，我认为在可预见的未来，如果有人在某种高层次上指导它，它可能会做得更好。我的意思是，它有一天可能会完全空白，做所有事情而没有任何指导。但是，是的，那是科幻级别，我认为我们还没有达到。

主持人：明白了。所以，在可预见的未来，您确实预见到一个世界，谷歌员工会帮助人工智能构建 Gemini 的下一个版本，以及我们将要迎来的未来。

谢尔盖·布林：是的，是的，没错。

关于人工智能的深层研究

主持人：嗯，我很好奇您花了多少时间和精力在人工智能的这些更深层次、更实质性的哲学问题上，而不是您确信所有的技术问题、实际问题、商业问题。鉴于我们正在发现宇宙某种基本底层能力的同时，也在构建很酷的技术，您的精力有多少投入到所有这些方面？

谢尔盖·布林：是的，我的意思是，就实际情况而言，可能没有太多时间花在哲学问题上。只是因为在达到目标的过程中，有太多的技术细节需要解决。是的。你知道，我正在为我们能否注册 Ultra 和 B3 以及所有那些不太顺利的事情而烦恼。我现在正在催促工程师和产品经理解决所有这些小问题。我的意思是，退一步思考当然很好。

一些哲学问题确实是从技术细节中浮现出来的，比如，我们有一个新模型，我们如何评估它？比如说，模型好是什么意思？我们有某种标准基准和指标，在某个时候，模型在这些基准上会表现得非常好。嗯，每次你需要重新设计时，你确实会从哲学角度退一步思考，试图弄清楚什么是重要的。当你拥有新型人工智能模型时，例如你现在可以玩转的扩散模型，文本扩散，这并不是一个苹果对苹果的比较。所以现在我们正在问，我们如何比较一个不从左到右，而是同时生成整个东西的东西？是的。我们如何衡量它与我们常规的自回归模型相比？所以很多这些事情都带来了一些哲学问题。

但是你非常脚踏实地，埋头苦干地回答它们。是的。

主持人：嗯，这根植于如此多的实用性。您实际上，它不是关于其他人正在做什么的理论，而是在实验室里真正构建。

谢尔盖·布林：是的，是的。所以我不知道。也许我能花更多时间在一些哲学问题上会很棒，但是有很多事情正在发生。

主持人：有很多。是的。嗯，我不知道我们还有多少时间，但我确实想确保有机会问一个问题：您希望像我这样的采访者更多地问您什么问题或话题？您希望人们问我什么问题或话题？哦，天哪。嗯，好吧。如何将其表述为一个问题？我想，我想我可以直接回答这个问题，也许会更容易。

谢尔盖·布林：我想这是一种整体的观念，人们对比如说新的人工智能公告做出反应。我们昨天宣布了一些事情，现在，你可以用这些东西做什么？有很多很酷的事情你可以用这些东西来做。然后有很多事情你不能做，或者不是完全正确。但我认为有趣的问题是，你将在下一代，一年后，两年后，能够用这些东西做什么？那会带来各种各样令人兴奋的问题。我的意思是，两年前的语言模型会犯很多非常尴尬的错误。就像“哦，哇，这个东西竟然做得这么正确，这太酷了！”这与“哦，天哪，我竟然可以用它作为工具来做任何事情”非常不同，因为我知道，如果它只有 20% 的时间是正确的，我可以，你知道，用它发一条推特，这很酷。但我不能每天都用它。然而，当你看看这个趋势时，你可能会在每天都以合理的可靠性使用它。

所以我想，当人们思考他们将把这些工具应用到他们正在尝试做的任何事情中时，你知道，你正在制作一部电影。VO 很有趣，而且现在有声音了。你知道，大约一年前你可能会说：“嗯，它没有声音，那会很麻烦。”我们已经为角色连续性等做了一些工作，但它仍然，我们实际上有一些正在用它制作的电影，但它可能仍然不适合制作两小时的电影。当然。

但尽管如此，我认为当你看看这些工具在过去几年里取得了多大进展时，你知道，所有这些，视频模型，不仅仅是我们的，而是所有这些，如果你再预测几年，你将能够用它们做很多非常有趣的事情。所以，我能给一些例子吗？

主持人：嘿，那么人工智能视频只是一台“大脑腐蚀机”吗？因为我听到的一个论点是，视频是迄今为止计算成本最高的。如果你看看这里所有不同的模态，视频的计算成本最高。那么它的实际应用是什么？YouTube 上的有趣视频，TikTok 上的“人工智能腐蚀”。关于为什么我们要投入如此多的时间和精力去做它，除了它真的很酷之外，有很多争议或讨论。您能分享一些这些视频模型的其他实际应用吗？

谢尔盖·布林：是的，我的意思是，就像我说的那样，我认为它就像是一个酷炫的玩具和一种有用的工具之间的区别，你知道，时间问题，它会逐渐发生。嗯，我们有一些电影制作人在这里。我想达伦·阿罗诺夫斯基可能已经发言了，我不知道他是否参加了小组讨论什么的，但他正在制作一个视频。我的一位亲密朋友达斯汀正在制作一个视频。但你看，一些真正的艺术家正在使用这些工具，但现在还处于早期阶段。我的意思是，他们显然正在处理一些两年后电影导演会觉得好笑的东西。但他们正在忍受它，以便处于前沿，我认为这些模型将能够制作出真正引人注目的视频。它们将能够与人类导演、人类演员等等协同工作。我认为阿罗诺夫斯基的电影确实结合了真实表演和人工智能生成，以一种非常酷的方式。

但你知道，今天我们显然有工业光魔，所有卢卡斯影业，他们做所有的特效。我们已经使用技术来生成电影。这只是这方面的一个新维度，显然还处于早期阶段，也许它的分辨率不是最好的，长时间的连续性也不是最好的，但我想你会看到所有这些都会出现。所以我们正在努力推动极限，让这些东西成为真正的工具，而不仅仅是玩具。

主持人：是的，是的。我总是在我的平台上说的一件事是，无论你今天对它有什么看法，它都是它最糟糕的样子。

谢尔盖·布林：是的，没错。完全正确。嗯，好的。我得到了一个信号，还有一个问题。所以我会代表所有那些对这个时刻感到兴奋但不是谷歌员工，不在前沿实验室工作的人来问这个问题。您是否会给这些人指明方向，无论他们是否具有软件工程背景，或者只是一个了解这个时刻的深度和重要性并希望参与其中的人？您会给他们指明一个方向，说“从这里开始”吗？或者您会说“不要走那条路，不要浪费时间”吗？

谢尔盖·布林：嗯，有很多很棒的想法，所以我不会阻止任何人做任何事情，因为你永远不知道。嗯，我想实际上有越来越多的非常有趣的学术工作，甚至在大实验室之外。我认为这种情况随着推理模型的出现而发生，这更多地发生在我们在训练后称之为强化学习的步骤中，这对于许多学术机构或小型公司所拥有的计算资源来说更易于管理。而且实际上有很多开放权重模型，包括我们的 Java 模型，你可以用它们来实验。我想你越来越多地会看到来自顶级模型的一些强化学习 API，这样你就可以把你的问题发送给我们，也许带有正确的解决方案或评分器，你知道，我们可以将你的问题添加到混合中，如果你希望模型擅长那个。所以我认为这种事情正在发生。是的，我实际上认为这是一个很好的时机，能够在不训练基础模型的情况下产生影响。

5月24日洛根专访

在接受知名播客洛根采访时，对话从谷歌刚开完的I/O大会开始。布林觉得这次大会发布的东西相当不错，比如搜索里的虚拟试衣功能，连他自己都觉得眼前一亮，市场反响也h很好。不过布林也认为要实现已宣布的功能，还有大量工作要做。

跳出具体产品，布林也谈了谈他对AI发展大方向的一些看法。他说，现在看到的AI发展，跟他几年前理论上推演的“奇点”很不一样，人工智能现在的发展道路有些出乎意料：

语言模型的主导地位超乎预期，这在15年前并非显而易见的趋势。彼时的DeepMind更倾向于让AI通过跟物理世界互动来学习。
当前“思考型”AI模型在推理过程中展现出的“惊人的可解释性”带来了积极信号，思考过程有相当程度是能被我们理解的，从安全角度看，这无疑是个好消息。

从技术架构层面，布林提到，其实很多不同的AI模型，它们的底层设计思路比我们想象的要接近得多，哪怕是像视频处理那种看起来差异很大的模型。模型的“培养方式”也在进化。现在，“后训练阶段”（比如微调、强化学习）占的比重越来越大，在这个阶段给模型添加使用工具的技能后能让它们变得更强大。

聊到推理扩展，特别是“DeepThink”的项目时，布林说，谷歌的目标是让模型能花更长时间去琢磨复杂问题——可能几小时，几天，甚至几个月——然后给出更靠谱的答案。难度不亚于之前攻克超长上下文的挑战。

最后，关于谷歌的AI战略和创新步伐，布林认为，公司需要定期进行自我重塑，并且在某些方面，谷歌一直是一家人工智能公司，这根植于公司的DNA中。他对当前的进展感觉很好。

访谈原文：

主持人：大家好，感谢你们的加入。我们有一个 I/O 特别节目。谢尔盖·布林，我们正在谈论有关谷歌的一切。感谢你抽出时间来聊天。

谢尔盖·布林：谢谢你，洛根。而且，你和我一直在聊天空间和各种产品中，但在现实生活中一起出去玩也很愉快。

主持人：是的。我在加州的经历总是非常有趣。我昨天和今天花了很多时间和团队（Korea）在一起，当你与每个人面对面相处时，你会感受到人工智能进步的温暖和人性。所以这真的非常有趣。但是我们坐在 I/O 这里，我认为全世界的普遍情绪以及内部团队的情绪，对于 Google 来说都是无比伟大的一天。我们所有产品的模型都取得了巨大的进步。你的看法是什么？你的反应是什么？显然，我们还有很多事情要做，但是你的心思在哪儿？

谢尔盖·布林：嗯，是的，我认为这绝对是一系列非凡的发布。老实说，我可能都不知道其中的30%左右。你知道，时间有限，而且我一直深入研究 Gemini，我甚至都不知道，比如，谷歌搜索中的虚拟试穿（virtual fit）产品。我都没意识到我们发布了那个。所以有很多事情也让我感到惊讶，这很棒。我认为反响很好。不过，我认为有很多事情需要一段时间让人们去探索，去理解。显然，我们现在正忙于交付所有这些东西，整个过程中都充满了活力，确保一切都能顺利发布，人们能够注册 Ultra，获得所有这些新功能等等。

主持人：我感觉IO对很多人来说是很多工作的开始。对一些团队来说是终点线，但对另一些团队来说又是起跑线。

Gemini 的核心文本模型

主持人：显然我们发布了更多内容，有很多关于 Gemini 的公告，Gemini Diffusion 我们稍后会详细讨论，还有 DeepThink 在持续推动推理模型的边界。我经常看到你敦促大家继续推动前沿。你怎么看待你的关注点，以及像 DeepMind 团队在 Veo、Imagen 方面的关注点——我们有一整套生成媒体模型，刚刚宣布了音乐模型 LIA。与此同时，还有核心的 Gemini 主模型。你目前是更多地参与生成媒体方面的工作，还是主要激光般地专注于 Gemini？

谢尔盖·布林：我主要关注 Gemini，即核心文本模型。主要是因为我认为这将帮助我们更好地编码和开发人工智能背后的科学，实现自我改进。这是我最关注的重点。同时，生成媒体也非常令人惊叹，感觉像是超人。

使用文本模型，你知道，有一些数学问题我可能能够解决但它会出错，或者在一段代码上卡住，虽然这种情况越来越少，实际上我现在依靠 Gemini 来做一些编码、数学等等。但无论如何，它还是在人类的能力范围内。鉴于我的艺术天赋，我根本不可能创作出图像或视频。我的意思是，如果我是一名专家，比如摄像师、3D 渲染师或特效师，那么我可以想象这需要做大量的工作。那可能需要整整一个月的工作才能得到我几分钟内就能得到的东西。而且，它在视觉上非常引人注目，它会吸引你，你无法逃脱。

Gemini 和 Veo 中的原生音频

主持人：Veo 中的音频部分让它感觉……我个人历史上一直认为生成视频很棒之类的，但总感觉有点花哨。我想当我昨天在舞台上看到 Veo (V3) 中的音频时，那一刻让我觉得，好吧，这实际上很多人都能够做到。因为实际上从历史上看，你可以生成视频，但然后你必须去想，音频从哪里来？你怎么同步所有内容？现在你可以让人类说话和进行对话，而且它做得很好，这真是让我大吃一惊。

谢尔盖·布林：是的，你说得对。我一直是它的忠实粉丝。我个人不是一个非常……我想我不是一个非常听觉型的人，但是这些年来，特别是像谷歌眼镜这样的产品，我的意思是，当我们添加一些声音时，那简直……声音增添了如此多的丰富性。我的意思是，添加音频比添加例如3D效果更好，尽管一些3D的东西也很酷，如果你玩过那个大型可穿戴设备的话。但无论如何，是的，当你让音频工作时，这只是一个令人难以置信的感知变化。我知道我看到了模型在过去一两个月里进行训练，而且，你知道，我只是从一个检查点看到另一个检查点，我知道，哇，这感觉会完全不同。

主持人：是的，看看这些能力的融合会如何发展将会很有趣，因为它看起来确实与主流 Gemini 模型有很多相似之处。显然我们在 I/O 上为主流 Gemini 模型和 Veo 都实现了原生音频支持。我今天早上与 Tulsi 进行了交谈，讨论这些是相似的突破还是不同的。从技术角度来看，这听起来实际上在技术上非常不同，但很酷的是，我们有其他途径来进行这项创新，理想情况下，所有这些都以某种方式回溯到 Gemini。

谢尔盖·布林：是的，老实说，我认为我们花了很长时间才在 Gemini 中发布原生音频。它已经在那里（基础模型中）存在一年了——基础模型中包含的音频已经训练了至少一年了。我不知道，总是有……老实说，我认为只是有太多的事情要做，太多的东西要发布，以至于没有人，出于某种原因，把它推出来。我的意思是，原生的音频输入、原生的音频输出。我认为原生音频输入存在的时间更长。但是要通过所有这些小障碍让它真正运行良好，我认为需要很长时间。但是，它终于出来了。我不认为这和 Veo 做的方式一样。我相信 Veo 的音频也是通过 Diffusion 来实现的，就像视频一样。

事实上，如果你在训练过程中观察，你实际上可以看到它生成的视频，比如进行到百分之几的时候，形状不太正确，文字也有点扭曲之类的东西。但后来它成形并发展，直到在运行结束时你就得到了你今天所看到的东西。我很确定那是基于 Diffusion 的音频。Diffusion 是一种非常强大的技术。正如你所知，我们为小规模早期测试发布了文本 Diffusion。我认为这是我很感激的事情之一，我们拥有一批机器学习研究人员，可以同时在不同的模态下探索不同的基础技术。

模型训练运行的见解

主持人：是的，到目前为止，Gemini Diffusion 的结果看起来非常有希望。我希望模型能够取得进展，并且一切能够完全发挥作用，因为演示是有效的。我们在镜头外交谈，演示看起来真的很棒。所以希望它的能力能够很好地转化，并且从这个角度来看一切都能正常运作。但是你之前提到过关于观看训练过程的事情，我实际上还没见过这是什么样子的。那么观看训练运行究竟意味着什么呢？

谢尔盖·布林：哦，好吧。嗯，也许你已经看到了我们的文本模型，但是，你知道，我们能够测试中间的检查点，比如训练了10%，20%等等。在那些时候模型还比较弱，但你可以大致了解它的发展轨迹。所以，你知道，通常情况下，特别是当你有一个大型的训练任务，你投入了大量的计算资源，并且抱有很高的期望时，你会在整个运行过程中以各种方式多次测试它。所以你会对它有望达到的效果有一个很好的了解。文本模型是这样，Veo 的扩散视频模型也是这样。是的，所有这些模型都有这些中间结果，你可以看一看。如果你真的深入其中，你肯定会检查它们，因为你既紧张又兴奋，想知道它到底会产生什么。

当前 AI 发展与过去预期的对比

主持人：我当时正在听 Sundar （谷歌CEO）和Dave Freeberg 的对话，Sundar 评论说，甚至 15 年前，你和 Larry （谷歌另一位创始人拉里·佩奇）以及他就在谈论，就像谷歌的团队也在谈论这个面向未来的人工智能时刻会是什么样子？这与你们10 或 15 年前谈论的内容非常相似。我很好奇，此刻最让你惊讶的事情是什么？如果你想看看搜索或技术，我们可以将其应用于产品，或者看看什么是令人惊讶的，什么是几乎如你所料会发生的？

谢尔盖·布林：是的。你知道，我认为从智力的角度来看，你可以通过奇点来推理。著名的雷·库兹韦尔（Ray Kurzweil）就做过这样的事，但那是几十年前的事了。我不记得他说的是哪一天，是2037 年吗？我不记得了。他根据自己的推断确定了一些日期。今天看来也许有点保守，我不知道，但是你可以通过理智来推理它。我认为看到它的发生是完全不同的。我认为当你谈论大约15 年前的事情时，我不会说你是在开玩笑。你真的在谈论它，但你有点像想象科幻的未来，但它几乎就像一个游戏，就像你只是与其他对此感兴趣的人聊天。我觉得这很有趣。但是正如我所说的，看到它真正开始发生，感觉非常不同。

当然，事情发生的方式相当令人惊讶。我可以给你举个例子。语言模型似乎就是人工智能现在的发展方式。我认为15 年前你不一定知道这一点。事实上，DeepMind在过去，甚至现在在一定程度上，都非常看重这种物理基础，认为拥有一个物理世界作为基础是很重要的，而且我们显然正在做这方面的实验，比如Genie等等。但这些语言模型已经发展到这个程度的事实并不明显。而且有一个有趣的副作用，特别是对于思维模型而言，它们也具有令人惊讶的可解释性。就像你可以看透这些思维模型之一的想法以及它是如何得出结论的。如果没有大量的工具，你就不可能检查模型的权重并尝试从中推断出一些东西。但是你可以用非常容易理解的术语来理解它的大部分推理过程。

所以我认为这是15 年前你不一定能想到的。这是一个有趣的惊喜，我认为这给人很大的安慰——当然不是无限的安慰，我不是说我们应该忽视它——但从安全的角度来看，这些东西在某种程度上确实表达了它们的想法，我认为这是一个很大的优点。是的，有一些论文讨论它们是如何撒谎之类的，但我认为影响相对较小。

模型训练的演变

主持人：就你目前对模型训练过程的了解而言，当模型从文本输入、词元输出或文本输出转变为实际系统时，这个过程看起来有多么不同或多么相似？我认为我们实际上已经把它当作了 Gemini 的下一步，比如搜索是原生的，代码执行是原生的，就像模型在过程中学习这些一样。你是否认为训练基础设施或我们对模型的思考方式会发生根本性的变化，因为它们不再仅仅是模型，而是我们为人们构建的完整系统？

谢尔盖·布林：我认为这是几件事的汇合。有一点非常引人注目，那就是所有不同模型在架构上是多么的相似，例如 Veo，你可能会认为视频扩散与某些文本语言模型非常不同，但从架构上讲，它们有大量的共同之处。令人吃惊的是，共享的内容如此之多，其中很多都以 Transformers 为核心，这要感谢 Noam 和团队，我们拥有它已接近十年了。现在我们正在添加诸如工具使用之类的内容。

这些事情大多发生在我们所谓的后期训练（post-training）期间。目前，后训练在整体训练中所占的比例越来越大。以前一切都像是99%的预训练（pre-training），现在有点转变了，也许是 90% 或80% 等等。这种后训练，有些人称之为微调（fine-tuning），但它包括我们所做的强化学习（RL）类型的工作，以前这只是你最后做的一点点塑造。但是现在，它越来越重要（material），而你提到的像工具使用这样的东西，就是在现在这个大得多的阶段中出现的，这让模型变得更加强大。

推理和深度思考的未来

主持人：是的，我还有两个问题，因为我想让你回到办公室工作，以便我们能够继续取得模型进展。第一个是关于推理能力的扩展，我想我们宣布并展示了 DeepThink 的结果，它有点像继续扩大 2.5 Pro 版并让它推理更长时间并具有某种平行的思维过程。你对此的总体反应是什么？我们似乎还处于这个扩展范式的早期阶段，将会有大量额外的解锁，但你显然深入参与其中，所以我很好奇你的想法是什么？

谢尔盖·布林：嗯，是的，有趣的是，我们大约有五种不同的方法来做那种事情，它们都汇集到了这个 DeepThink 上。所以，很高兴看到所有这些人和这些团队聚集在一起。你知道，有时我们会分散精力，需要很长时间，但在这种情况下，我们采纳了所有这些想法中最好的部分，一次性地结合起来。是的，它确实产生了更强的结果，很明显。我认为这种情况持续发生得越多，就越像是一种超能力。如果你能拥有这些模型——我知道很多顶级人工智能实验室都在谈论这个问题——但如果你能让这些模型，而不是只花一分钟思考就能得出答案，如果你可以让它们运行一个小时、一天或一个月，它们实际上能让你对一个非常重要的问题给出更好的答案，这将是非常有价值的。

这有点新，而且并不简单。这有点像，我们破解了输入的长上下文。我们之前就这样做过，而且我们已经有一年半左右的时间掌握了超过一百万的上下文。现在，我们需要无限的上下文，所以必须继续努力。我不是说一百万就够了，但这种泛化能力并不简单。对于一个模型来说，这就像你要经历《土拨鼠之日》一样，你只是一遍又一遍地以个人身份体验同一天。你尝试这个，尝试那个，现在突然间你的生活就开始了，事情日复一日、周复一周、月复一月地发生着。这是一种非平凡的（non-trivial）概括。但我们已经知道该怎么做了。

在输出方面，这也是不简单的。如果你所做的只是解决一些简短的小数学问题，那么从这个角度来看，这有点像我们面试人时，我们会问他们10 个面试问题或其他问题，然后我们希望他们在几个月内建立这些大型系统，但不清楚这是否真的是测试一个人的正确方法。但是在人工智能模型上，我们已经这样做了一百万次。就像我们只训练它们做一些简短的、聪明的数学问题、编码之类的。然后从那里开始的期望是，它们实际上可以花很长时间来开发一些新的东西，这需要花上好几天的时间去思考。这很不简单，但这是一个我们正在开始克服的差距，这是一个巨大的飞跃。

谷歌的创业文化与AI 创新

主持人：是的，你给出的这个关于我们如何测试和评估模型的例子，一直在提醒我，生活中的很多事情——这个人工智能时刻教会了我，生活中的很多事情实际上就像一个评估问题。甚至像面试人、试图建立一个伟大的团队这样的挑战，所有这些事情的核心都是一个评估问题。而我们人类还没有解决这个问题，所以我并不奇怪我们也没有解决人工智能评估问题。做到这一点并不是一件容易的事。

我要问你的最后一个问题是，这就像是对我们所看到的一切以及 I/O 和创新步伐的再次回应。Sundar 在屏幕上展示了一张幻灯片——实际上是 Demis（谷歌DeepMind CEO戴米斯·哈萨比斯）展示的——其中展示了我们在 2024 年发布的所有产品，以及到目前为止我们在 2025 年发布的所有产品。而且我很确定 2025 年的部分比 2024 年的部分要大，因此就像发生明显的加速。至少从我个人角度来说，加入谷歌感觉我已经在这里待了差不多一年或一年多一点了。对我来说，加入谷歌确实感觉像是一次创业经历，我很好奇你对此的反应。但同时，在看到谷歌成长和扩张以及过去 20 年发生的一切之后，你对此有何看法？

谢尔盖·布林：很好的问题。首先，我认为公司需要定期进行自我重塑。有不同的重要技术转变，我想你知道我们最初是一家网络公司，我们必须让移动设备运转起来；老实说，我们从来都不擅长社交。现在我们处于人工智能领域，我认为从那里开始它是令人兴奋的，因为在某些方面谷歌一直是一家人工智能公司。我们一直致力于大规模数据和分析。我们也是许多现代大型机器学习的诞生地，从谷歌大脑（Google Brain）到Transformer等等。我的意思是，这是公司的 DNA。所以，这是我们应该做好充分准备去实现的转变。

任何转变对于任何公司来说可能都是困难的。但我对此感觉非常好，而且我认为从 2024年——老实说，我们在很多层面上都还在追赶——到2025年，特别是随着 Gemini 2.5 Pro的推出，是的，我的意思是，那就像是一个明显的飞跃。我知道无论在不同的基准上，也许我们在它之前是某个数字的第一名，但2.5 Pro是一个巨大的进步，几乎是全方位的。甚至到目前为止，它仍然在大多数排行榜上排名第一，无论是否有风格控制，不管你怎么衡量它。所以这真的是一个非常令人兴奋的飞跃。我认为这既是我们背后科学引擎的因果，也是其结果。它将帮助我们前进，也正因为我们过去一年来所做的所有科学研究，我们最终才能够生产出这个模型。

此后不久，又发生了很多其他事情。我们已经经历了2.5 Pro 型号的几次不同迭代。我不知道大家是否注意到昨天我们推出了新的2.5 Flash。你是否注意到，实际上在许多测量中，它都排在2.5 Pro之后，排名第二。因此，凭借 Gemini 2.5 Flash 模型，我们现在在许多不同的排行榜上都名列前茅。我认为，在所有其他公告中，很多人可能都忽略了这一点。它被埋没了，但它就像一个超级快速的模型，非常强大。我认为它会对很多用例有吸引力。是的，但确实，有了今年 2.5 Pro 的基石，我认为我们能够在此基础上继续发展并保持这种势头，这真的令人兴奋。这将是伟大的一年。

主持人：谢尔盖，感谢你抽出时间。我感谢你对大家的大力推动。看到这一切真的很有趣。我们为你准备了一份特别的礼物，我很想看到你拆箱，然后有人会在一秒钟内把它带给我们。

谢尔盖·布林：嗯，谢谢你，洛根。在他们拿过来的时候，我只想说谢谢你，洛根。我的意思是，我看到你一直在努力工作，让你所有的客户和合作伙伴都满意，并追踪可能出现的数百万个问题。我的意思是这并不那么容易。你知道，拥有这些如此多的人和企业都想要的模型，并将它们部署出去，确保TPU不会熔毁，处理从函数调用到缓存等所有数以百万计的细微差别。我看到你非常擅长把客户放在第一位，将需求传达给团队，真正地掌控一切。

主持人：团队现在正在努力，谢谢。团队正在全力以赴。为你准备一份特别的礼物。

谢尔盖·布林：好的。谢谢。我现在就拆箱吗？

主持人：是的，是的，你必须立即拆箱。我们必须抓住它……正如这次谈话的主线之一，除了谷歌内部所有使这一切成为可能的人之外，还有我们的……

谢尔盖·布林：这是我们的TPU V4，顺便说一句，在内部我们称之为 Pufferfish。我可能不……这可能不是什么太大的秘密。我想 Pufferfish 是 V4，对吧？我从来不知道外部的名称，我们只叫这些……我的意思是，这些是一两年前最热门的东西，我们现在已经进入了新一代。但我们仍然在这上面做很多工作。所以这很棒。

主持人：希望我们能在 MK 为团队准备很多这样的东西。这真的很酷。这是一个真的，他们必须将其从某个数据中心取出。它没有被使用，我们没有占用计算资源……

谢尔盖·布林：真的吗？我们确实需要TPU。有时一些早期的样品有点缺陷，也许这就是其中之一。但我很感激。这太好了。

主持人：当然，我给你放大看看。谢谢。

谢尔盖·布林：谢谢，谢谢。感谢各位收听，正在收听的朋友们，这是 Release Notes，感谢收看。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.