AI的「神之一手」，将在人类探索的每个领域再现｜AlphaGo之父最新访谈|围棋|宇宙|人工智能|爱因斯坦|alphago|deepmind

分享至

来源：学术头条

编译：锦鲤

https://www.possible.fm/podcasts/demis/

作为一个天才少年、新晋诺奖得主、Google DeepMind 联合创始人兼首席执行官，以及人工智能（AI）行业最具影响力的人物之一，Demis Hassabis 对 AI 的技术发展、应用和未来趋势有着前瞻性的理解。

他坚信，AI将成为有史以来最具变革性的技术，将影响整个世界，影响每一个行业，影响每一个国家。他将 AI 比作为“电”和“火”，并认为全世界都应该参与其中。

“（要让）哲学家、社会科学家、经济学家（都参与进来），而不仅仅是科技公司，也不仅仅是科学家，让他们参与到决定如何建造以及如何使用 AI 的过程。”

日前，在做客由美国知名风险投资家、LinkedIn 联合创始人 Reid Hoffman 主持的播客频道 Possible 时，他毫不吝啬地分享了他对 AI、博弈论、多模态以及创造力的个人见解。

他不仅回忆了个人经历——从童年时期就对国际象棋和围棋等游戏充满兴趣，并最终将兴趣转向 AI 领域，还重点谈到了 DeepMind 的两个重要项目：AlphaGo（第一个在围棋中击败人类世界冠军的 AI）和 AlphaFold（解决了长达 50 年的蛋白质折叠问题）。

核心观点如下：

AlphaGo 的“第 37 步”证明了机器能够超越人类既定的知识框架，凭借经验自学出前所未见的创造性策略，这正是我们追求的‘智能’标志。
真正的创造力有三个层次：插值、外推法和发明。AI 目前能做到前两个层次，但第三个层次仍然是我们尚未实现的目标。
AI 的最大价值在于加速科学发现。AlphaFold 在一年内完成了博士生 10 亿年的研究工作，将蛋白质折叠问题从几十年的难题变成了可解决的任务。
被动感知可能足够让 AI 理解世界，但具身智能需要在现实世界中行动，才能真正掌握物理世界的复杂性。
AI 将成为人类创造力的延伸，让创意人士和程序员能够以全新的方式实现想法。未来的工作流程将更加流畅，效率提升 10 倍。

学术头条在不改变原文大意的情况下，对完整访谈做了精编，如下：

REID：

Demis，欢迎来到 Possible。在皇后区和你共进晚餐真是太棒了。从各方面来说，这都是一个特别的时刻。我想先从一个问题开始，这个问题出自你在巴贝奇剧院的讲座，也出自你和 Mohamed El-Erian 的炉边谈话。我的问题是：请你分享一下，你如何从“我童年一直在玩国际象棋”转变为“我想开始关于「思考」的思考。我想加速思考的过程，而计算机是实现这一目标的一种方式”。你是如何想到这一点的？当时你多大？是什么促使你有了这种元认知？

Demis Hassabis：

首先，感谢你的邀请。对我来说，国际象棋，以及游戏，其实就是一切的起点。我从 4 岁开始认真下棋，整个童年都如此，代表英格兰大部分青少年队参赛，还担任过很多队的队长。很长一段时间里，我的主要目标是成为一名职业棋手，一位特级大师——也许有一天，成为世界冠军。我的整个童年都围绕着这个目标展开。除了上学，我一有空就去下棋，去世界各地，在国际比赛中与成年人对弈。大约 11 岁时，我突然觉得，虽然我热爱国际象棋——直到现在我仍然热爱——但它真的值得人们倾尽一生吗？这是对我的思维的最佳利用吗？这曾经是让我有点困扰的一件事。但另一件事是，当我们和英格兰国际象棋队一起去训练营时，我们开始使用早期的国际象棋计算机来尝试提高棋艺。我记得我当时是这样想的——当然，我们应该专注于改进国际象棋的开局、理论和战术——但实际上，更令我着迷的是，有人竟然能够通过编程让这个毫无生气的塑料块跟我下得一手好棋。我对他们的实现方式非常着迷。我真的很想理解这一点，并最终尝试编写我自己的国际象棋程序。

ARIA：

这太有趣了。之前我跟 Reid 说过，我 7 岁的孩子所在的学校刚刚赢得了纽约州国际象棋锦标赛冠军。所以他们要追上你还有很长的路要走，但他却信以为真，说：“哦，对了，妈妈，我要去玩玩电脑上的 ChessKid。我要和电脑下几盘。”这在几十年前当然算得上是天方夜谭。我记得我上中学时，那场比赛显然是 Deep Blue 对阵 Garry Kasparov，那是人机对决的时刻。你刚才提到，根据大师级的数据，这说明，这是蛮力对抗自学系统。你能详细谈谈这种二分法吗？

Demis Hassabis：

是的。首先，你儿子下棋真是太好了，我觉得这太棒了。我非常提倡在学校里把国际象棋作为课程的一部分。我认为这对思维能力的训练非常棒，就像数学或编程一样。它确实影响了我处理问题、解决问题、构思解决方案和制定计划的方式。它教会了我所有那些令人惊叹的元技能——如何应对压力。所以你在小时候就能学到所有这些，这对你以后做其他事情都很有帮助。至于 Deep Blue，你说得对，大多数早期的国际象棋程序——后来 Deep Blue 成为了其中的巅峰——都是这类专家系统，在当时是研究人工智能的首选方式。实际上，解决问题的是程序员——在这个例子中，就是下棋。

然后，他们将解决方案封装成一套启发式规则，引导一种蛮力搜索，在本例中，就是为了找到好的棋步。我一直有这种想法，虽然我对这些人工智能象棋程序着迷——它们能做到这一点——但我也对它们略感失望。实际上，当我接触到 Deep Blue 时——当时我已经在剑桥大学读本科了——我对 Kasparov 的思维比对机器的印象更深刻，因为我当时已经开始学习神经科学了。因为这是一个非常强大的机器——它只会下棋。而 Kasparov 不仅能下棋达到差不多的水平，还能做其他所有人类能做到的令人惊叹的事情。所以我想，这难道不正说明了人类思维的奇妙吗？

更重要的是，这意味着 Deep Blue 和这些专家系统方法缺少了某种非常根本的东西。非常明显。因为 Deep Blue 看起来并不智能——尽管它在当时是人工智能的巅峰之作——它缺少的是学习能力，学习新事物的能力。比如，Deep Blue 能达到国际象棋世界冠军的水平，却不精通井字棋，这太不可思议了。你必须重新编程，因为系统中没有任何东西允许它玩井字棋。这很奇怪，这与人类大师级选手截然不同，他们显然可以轻松地玩一些更简单的游戏。而且，它也不具备通用性，就像人类思维那样。我认为这些正是人工智能的标志。我从那场比赛中得到的启示是，这些是智能的标志，如果我们想要攻克人工智能，这些标志是必不可少的。

REID：

稍微谈一下深度学习，这显然也是 DeepMind 命名的原因之一。我认为，你们提出的那个看似完全相反的假设——自我对弈和学习系统——部分原因是，这种学习方法正是生成这些重要系统的正确方法。所以，请简单谈谈这个假设，比如穿越沙漠的旅程是什么样的，以及最终找到尼罗河的结果是什么。

Demis Hassabis：

我们在 2010 年创立 DeepMind 时，工业界还没有人研究这个，学术界也几乎没有这方面的研究。我们把公司命名为 DeepMind，一部分原因是因为深度学习。这也是对 Hitchhiker’s Guide to the Galaxy 中的“Deep Thought”（深思）以及 Deep Blue 和其他人工智能产品的致敬。但主要还是围绕着一个想法——我们会押注这些学习技术。深度学习和分层神经网络，它们才刚刚被发明出来，是 Jeff Hinton 和同事在 2006 年进行的开创性工作。所以它非常非常新。强化学习一直是 DeepMind 的专长。还有从反复试验中学习，从经验中学习的理念；然后制定计划，并在现实中采取行动。

我们将这两者结合起来，实际上，我们算是先行者，我们将这两种方法称为深度强化学习。深度学习用于构建环境模型，或者说你正在做的事情的模型——在这个例子中是游戏。然后强化学习进行规划和行动，并真正实现并能够构建能够实现目标的 agent 系统——在游戏中就是最大化得分，赢得比赛。我们认为这实际上就是智能所需的全部内容。我们对此非常有信心的原因实际上是用大脑作为例子，基本上，这是大脑运作的两个主要组成部分。大脑是一个神经网络。它是一个模式匹配和结构查找系统。

但它也包含强化学习，以及通过反复试验进行规划和学习，并试图最大化回报的理念，这实际上存在于人类大脑和动物大脑——哺乳动物的大脑——多巴胺系统实现了这一点。一种强化学习的形式叫做 TD（temporal difference，时间差分）学习。所以这给了我们信心，如果我们在这个方向上足够努力，即使没有人真正这样做，最终也应该会成功，因为我们有人类思维存在的证据。当然，这也是我学习神经科学的原因。因为当你身处沙漠时，你需要任何水源或任何可能让你走出沙漠的证据。即使是远处的海市蜃楼，在你身处沙漠之中时，也能为你指明方向。当然，人工智能本身也处于这种困境之中，因为它已经失败了好几次。专家系统方法基本上已经达到了极限。

REID：

所以，这个学习系统最终创造的成果之一，显然就是解决了之前被认为是无解的问题。甚至有人认为计算机无法解决围棋问题，而它做到了。它不仅解决了围棋问题，而且在经典的“第 37 步”中，展现了超越数千年围棋、书籍和数百年比赛的独创性和创造力。“第 37 步”对于理解人工智能的现状有何意义？你认为下一个“第 37 步”是什么？

Demis Hassabis：

围棋之所以比国际象棋难得多，最终也比国际象棋难得多，就是因为又花了 20 年时间，我们才有了 AlphaGo。所有用于国际象棋的方法，这些专家系统的方法，在围棋上都失败了，基本上连职业选手都赢不了，更不用说世界冠军了。主要有两个原因，一是围棋的复杂性非常巨大，衡量这一点的一种方法是，围棋有 10 的 170 次方种可能的走法，比宇宙中的原子还要多得多。你不可能强行破解围棋；但更难的是，它是一项如此美丽、深奥、优雅的游戏，它被认为是一种艺术——实际上是一种亚洲的艺术形式。

因为它不仅在美学上很美，而且它关乎模式，而不是国际象棋更注重的那种粗暴计算。所以，即使是世界上最优秀的棋手也无法清楚地向你描述他们所使用的启发式方法。他们只是直觉地感觉到正确的走法，他们有时会这么说。“这步棋，你为什么走这步棋？”“嗯，感觉是对的。”然后事实证明，他们的直觉——如果他们是一位天才棋手——是天才的，非常棒。这是一步非常漂亮和有效的棋步。但是，很难将其概括成一套启发式方法和规则来指导机器如何下围棋。这就是所有这些 Deep Blue 方法都不起作用的原因。

现在我们通过让系统自学来解决这个问题——什么是好的模式，什么是好的落子，什么是好的动机和方法，以及哪些是我们有价值的、高概率的获胜局面。所以它通过经验自学，通过观看数百万盘棋局，并与自己对弈数百万盘。这就是我们让 AlphaGo 超越世界冠军的原因。但更令人兴奋的是，这意味着这类系统实际上可以超越我们程序员或系统设计师的认知范围，没有专家系统可以做到这一点，因为它当然受到我们已知知识和可以描述给机器的知识的严格限制。但这些系统可以自学。

这就是我们在著名的世界冠军赛第二局中，也就是 2016 年在首尔对阵李世石的挑战赛中，迈出的“第 37 步”的棋步。这真是一步极具创意的棋步。要知道，围棋已有数千年历史，是人类发明的最古老的游戏，也是最复杂的游戏。即便如此，尽管众多杰出的人类棋手进行了如此多的探索，这“第 37 步”仍然是前所未有的。它甚至被认为是一个糟糕的策略，事实上，如果你去看 AlphaGo 的纪录片，你会看到，当专业解说员看到“第 37 步”时，他们差点从椅子上摔下来，因为他们认为这是一个错误。

他们以为是电脑操作员 Aja 操作失误，因为简直无法想象有人会下出这样的棋。当然，一百步之后，事实证明，“第 37 步”——棋子，也就是放在棋盘上的那个棋子——正好落在了决定整盘棋局的正确位置。所以现在它被当作围棋的伟大经典、围棋史——那盘棋和那步棋——来研究。更令人兴奋的是，这正是我们希望这些系统能够做到的。因为我和我的整目标，我一生致力于人工智能研究，就是为了利用人工智能来加速科学发现。而这些新的创新，尽管是在棋局中，正是我们从我们的系统中所寻求的。

REID：

我认为这很好地诠释了为什么这些学习系统至今仍在进行原创性探索。你认为下一个“第 37 步”会是什么，它能让我们更加深入地了解人工智能如何极大地提升人类思维、人类生活和人类科学的质量？

Demis Hassabis：

嗯，我觉得几乎在人类探索的每个领域都会出现很多“第 37 步”。当然，从那时起，我一直关注的是如何将这些人工智能技术、学习技术、通用学习技术应用于科学。我将重要的科学领域称为根节点问题。也就是说，如果你想象一下宇宙中所有知识的树状图——你能否解锁一些根节点，从而解锁完整的分支或新的发现途径，供人们日后在此基础上进行探索，对我们来说，蛋白质折叠和 AlphaFold 就是其中之一，它始终是我的首选。我脑子里列着一份清单，记录了我一生中遇到的所有这类问题，我对所有科学领域都很感兴趣，并且一直在思考哪些问题适合——既能产生巨大的影响，又能适用于这些技术。

我认为，我们将在人类从事的非常重要的领域，见证这类新战略、新理念的黄金时代。不过，我想说的是，我们还没有完全掌握创造力，所以我不想声称我们已经掌握了。我认为创造力有三个层次，人工智能能够做到前两个层次。第一个层次是插值：你给它一百万张猫的照片——一个人工智能系统，一百万张猫的照片——然后你说：“给我画一只原型猫。”它只会对它见过的所有一百万张猫的照片取平均值，而那个原型猫不会出现在训练集中，所以它会是一只独一无二的猫，但从创造力的角度来看，这没什么意思，这只是平均数。

第二点是我所说的外推法。这更像 AlphaGo，它玩过 1000 万盘围棋，也看过几百万盘人类围棋比赛，然后它从已知知识中推断出一个前所未见的新策略，比如“第 37 步”。这已经非常有价值了。我认为这才是真正的创造力。但还有第三个层次，我称之为发明或跳出思维定式，也就是说，你不仅能想出“第 37 步”，还能发明 AlphaGo。或者我喜欢用的另一个衡量标准是，如果我们回到 1900 年，也就是 20 世纪初爱因斯坦的时代，一个人工智能系统真的能用爱因斯坦当时掌握的相同信息来推导出广义相对论吗？显然，今天的答案是否定的，它无法发明出像围棋这样伟大的游戏，也无法仅凭爱因斯坦当时掌握的信息就发明广义相对论。所以，我们的系统仍然缺少一些东西来支持真正的突破思维定式。但我认为它终将到来，只是我们目前还没有。

ARIA：

我想很多 AI 领域之外的人会惊讶于这一切都始于游戏，但这对我们正在做的事情来说却是一种福音。我们就是这样创建这些系统的。所以，我们从棋盘游戏转向了电子游戏。你能否简短地解释一下，为什么像 AlphaStar 这样能够玩《星际争霸 II》的 AI 比那些能够下国际象棋或围棋的 AI 更加先进、更加吸引人？

Demis Hassabis：

是的，AlphaGo 算是登上了棋盘游戏的巅峰，围棋一直被认为是（棋盘）游戏中的“珠穆朗玛峰”。但如果把电脑上能玩到的最复杂的策略游戏也算上，那么从某种程度上来说，还有更复杂的游戏。《星际争霸 II》被公认为实时策略游戏的经典之作。它是一款非常复杂的游戏。你必须建立你的基地、你的单位等。所以每场游戏都是不同的，棋盘游戏的流动性非常强，你必须实时移动许多单位。我们解决这个问题的方法是增加一个额外的级别，让 agent 联盟相互竞争，每个 agent 的初始策略略有不同。

然后你就得到了一种适者生存的规则。所有 agent 之间会进行一场竞赛。现在设置了一种多 agent 系统，在竞赛中胜出的策略将进入下一个阶段，然后围绕该阶段生成一些其他的新策略。如此反复，持续很多代。你既继承了我们在 AlphaGo 中提出的自我对弈的理念，又加入了这种多 agent 竞争、近乎进化的动态机制。最终，你会得到一个 agent——或者一系列 agent，或者一组 agent——它们服从纳什分布，没有其他策略能够胜过它们，但它们会主导大多数其他策略。然后你就得到了这种纳什均衡，然后你从中选出最顶尖的 agent。这种策略在这种非常开放的游戏玩法中取得了巨大的成功。

所以它与国际象棋或围棋截然不同，后者规则非常固定，棋子也总是相同的，而且它是一种非常有序的游戏。而像《星际争霸》这样的游戏则更加复杂。所以处理这个问题很有趣。它也包含隐藏信息。你无法一次看到整个地图。你必须探索它。所以它不是一个完全信息的游戏，我们希望我们的系统能够应对部分信息的情况，这实际上更像现实世界，在现实世界中，你很少真正掌握所有事情的完整信息。通常你只有部分信息，然后你必须推断其他所有信息才能制定出正确的策略。

REID：

而这部分游戏方面的内容是——我想你听说过“游戏的人”（Homo Ludens）理论。我们是游戏玩家。这是否能启发我们思考游戏如何既具有战略性，又能促进科学发展，促进创新的偶然性？除了适应度函数、自我博弈的进化以及游戏规模计算的能力之外，游戏的本质中是否还有其他更深层次的元素，能够让我们进行这种思考？

Demis Hassabis：

嗯，很高兴你提到《游戏的人》，这是一本很棒的书，它的核心论点是玩游戏实际上是人类生存的基本组成部分，从很多方面来说，玩游戏本身就是一种人类本能，还有什么比它更人性化呢？当然，它还能激发创造力和乐趣。正如你所知，所有这些都建立在玩游戏的基础上。所以我一直很喜欢玩游戏，把它作为一种练习和训练思维的方式，在现实生活中你可能只会遇到少数几次，但通常都非常关键的情境中，比如创办什么公司、达成什么交易等等。所以我认为游戏是一种练习这些情境的方式。

如果你认真对待游戏，你实际上可以模拟人们在决策情境中会面临的许多压力。回到之前，这就是为什么我认为国际象棋是孩子们学习的绝佳训练场，因为它确实教会了他们所有这些情况。当然，人工智能系统也是如此。我们早期的人工智能系统理念曾是完美的试验场，部分原因是它们被发明出来是为了给人类带来挑战和乐趣。当然，游戏玩法也有不同的层次。所以我们可以从非常简单的游戏开始，比如雅达利游戏，然后一路升级到最复杂的电脑游戏，比如《星际争霸》，并不断挑战我们的系统。所以我们处于 S 曲线的最佳点。所以它不会太容易，不会太琐碎，也不会太难，你甚至看不到自己是否取得了任何进展。

你想要达到 S 曲线的最大值，也就是你几乎呈指数级增长。随着系统的不断改进，我们可以不断选择难度越来越高的游戏。游戏的另一个优点是，由于它们是现实世界的某种缩影，它们通常被归结为非常明确的目标函数，所以赢得比赛或最大化得分通常是游戏的目标。这对于强化学习系统或基于 agent 的系统来说很容易实现。所以它非常适合爬山对抗，还可以衡量 Elo 分数、评级以及你的确切位置。最后，当然，你可以与最优秀的人类玩家进行比拼。这样你就可以校准你的 agent 在它们自己的比赛中的表现。

最后，即使有了星际争霸 agent，我们最终也不得不挑战一位星际争霸的职业大师，以确保我们的系统没有过度拟合它们自己的比赛策略，实际上需要——我们以此为基础——它可以是一位真正的人类星际争霸大师级选手。当然，最后一件事是，你也可以用游戏生成任意数量的合成数据。这又开始流行了，因为数据限制、大语言模型、世界上还剩下多少个 token 以及它是否读取了世界上的所有内容。显然，对于像游戏这样的事物，你实际上可以让系统与自己对抗，并从正确的分布中生成更多数据。

ARIA：

你能稍微解释一下吗？就像您说的，现在很流行讨论——我们的数据是否已经用完了？我们是否需要合成数据？你对这个问题持什么立场？

Demis Hassabis：

我一直是“模拟、模拟、然后人工智能”的坚定支持者。就计算系统而言，思考现实世界是什么也很有趣。所以，我一直在尝试构建非常逼真的模拟系统。现在，这当然也与人工智能相互影响，因为你可以让人工智能学习某个真实世界系统的模拟器，只需观察该系统或该系统的所有数据即可。所以，我认为目前的争论在于，这些大型基础模型现在几乎使用了整个互联网。那么，一旦你尝试从这些模型中学习，还剩下什么呢？这就是现有的所有语言。当然，还有其他形式，比如视频和音频。

我认为我们还没有用尽所有这类多模态 token ，但即使这样也会达到某个极限。那么问题就变成了，你能生成合成数据吗？我认为，这就是数学和编码领域取得如此巨大进步的原因，因为在这些领域，生成合成数据相当容易。因为合成数据的问题在于，你创建的数据是否来自正确的分布？它是否模拟了真实的分布？你生成的数据是否正确，当然，对于数学、编码和娱乐（比如游戏）等方面，你可以在将最终数据输入新系统的训练数据之前，对其进行实际测试，并验证其是否正确。所以，在某些领域，它非常适用。事实上，在人类思维中更抽象的领域，你可以验证并证明其正确性。因此，这解锁了创建大量合成数据的能力。

REID：

因此，除了围绕数据的频繁讨论之外，还有一个问题是我们如何获取更多信息，但其中一个问题是，为了实现人工智能，将其真正嵌入到世界中是否重要？

Demis Hassabis：

是的。有趣的是，如果我们 5 年前，或者 10 年前讨论这个问题，我会说，需要一些现实世界的经验，也许是通过机器人——通常我们谈论具身智能时，我们指的是机器人，但它也可以是一个非常精确的模拟器，就像某种超逼真的游戏环境——才能完全理解你周围世界的物理特性，以及你周围的物理环境。实际上，神经科学中有一整套分支学科都以此为基础，它被称为“感知中的行为”。也就是说，除非你能够在世界中行动，否则你无法真正完全感知世界。人们会争论说，除非你能拿起东西并进行比较，然后对重量有概念，否则你怎么能真正理解重量的概念呢？你真的能仅仅通过观察就能获得这种概念吗？

这看起来很难，对人类来说确实如此。我认为你需要在现实世界中行动起来。所以，在现实世界中行动是你学习的一部分。你有点像一个主动学习者。事实上，强化学习就是这样，因为你做出的决定会给你新的体验，但这些体验取决于你采取的行动，但这些体验也是你随后学习的对象。所以，从某种意义上说，强化学习系统参与了它们自身的学习过程，因为它们是主动学习者。而且，我认为你可以很好地论证，这在物理世界中也是必需的。但现在，事实证明，我不再相信这一点了。因为现在有了我们的系统，尤其是我们的视频模型，甚至连我都感到震惊，尽管我们正在构建这个系统，但基本上通过观看大量的 YouTube 视频，它就能弄清楚这个世界的物理原理。

针对视频模型，有一种有趣的图灵测试，某种意义上是“图灵测试”。那就是，你能切西红柿吗？你能播放一段视频，视频中用刀切西红柿，手指动作都恰到好处，西红柿不会神奇地弹回原位，或者刀穿过西红柿而没有切开，等等。如果你仔细思考物理学的复杂性，就能理解你必须保持一致性等。这非常了不起。很难说它不了解物理学和现实世界的物理学，而且它不需要在这个世界上行动，就能做到这一点。当然也不会像机器人一样在世界上行动。

Demis Hassabis：

所以，我目前还不清楚单纯的被动感知是否存在局限性。有趣的是，我认为这对机器人作为一种具身智能的应用有着巨大的影响。因为我们构建的 Gemini、Veo，以及我们将在未来的某个时候将它们结合在一起——我们从一开始就将 Gemini 构建为多模态的。我们这样做有两个原因。首先，我们对通用数字助理的概念有一个愿景。一个可以随身携带的助理，它既可以在数字设备上使用，也可以在现实世界中，比如在你的手机或眼镜设备上。它可以在现实世界中真正地帮助你——向你推荐东西，帮你导航，帮助你处理烹饪等现实世界中的实际事务。

要做到这一点，你显然需要了解你所处的环境。这不仅仅是我在聊天机器人中输入的语言。实际上，你必须了解我所处的三维世界。我认为要成为一个真正优秀的助手，你需要做到这一点。当然，第二点也正是机器人所需要的。我们发布了我们第一个 Gemini robotics 研究成果，这是展示我们能够利用这些多模态模型做什么的开始，这些模型能够理解世界的物理特性，并在此基础上进行一些机器人学微调，以处理机器人需要执行的动作、运动和规划。看起来它会奏效。所以实际上现在，我认为这些通用模型实际上将转移到具身机器人环境中，而无需太多额外的特殊外壳、额外的数据或额外的工作。这或许是 5 年前大多数人甚至是顶尖机器人专家所无法预料的。

ARIA：

我的意思是，这太疯狂了（笑）。想想基准测试，想想我们需要这些数字助理做什么。当我们深入研究这些大型人工智能模型时，会发现——嗯，有些人会说这是一种矛盾。所以，权衡的重点在于思考时间和输出质量。我们需要它们快速，但我们当然也需要它们准确。所以，谈谈这种权衡是什么？现状是怎样的？

Demis Hassabis：

我们可以说是思维系统领域的先驱，因为我们最初的游戏系统都是这么做的，围棋、AlphaGo。但实际上最著名的是 AlphaZero，它是我们的后续系统，可以玩任何双人游戏。你总是需要考虑你的时间预算、计算预算，你必须真正做好规划部分，所以你可以对模型进行预训练，就像我们今天对基础模型所做的那样。所以你可以离线玩数百万场游戏，然后你就有了你的国际象棋模型，或者围棋模型，不管它是什么。但在测试时，在运行时，你只有一分钟的时间来思考你的举动，一分钟乘以你运行的计算机数量。所以这仍然是有限的计算预算。

所以今天非常有趣的是，在使用更昂贵、更大的基础模型时要有一个权衡，所以在我们的例子中，我们有不同大小的名称，比如 Gemini Flash、Pro，甚至更大的 Ultra。但这些模型运行成本更高，所以运行时间更长，但它们更准确，功能更强大。所以你可以运行一个规划步骤更少的更大模型，或者你可以运行一个非常高效、更小的模型，虽然功能稍弱，但可以运行更多步骤。实际上，我们发现，两者大致相同。当然，我们想要找到的是这个模型的帕累托前沿 (Pareto frontier) ，就是在模型大小、运行该模型的成本与你所需的思考时间以及单位计算时间能够完成的思考步骤之间找到一个恰当的平衡点。我认为这实际上是目前相当前沿的研究，所有领先的实验室可能都在进行实验。我认为现在还没有一个明确的答案。

REID：

所有主要的实验室，包括 DeepMind 和其他一些公司，都在积极研发编程助手。原因有很多。首先，它是加速整个前端生产力的因素之一。它拥有良好的适应度函数。当然，它也是提高每个人生产力的方法之一，那就是拥有一个软件副驾驶 agent 来提供帮助。原因有很多。现在，有一件事情变得有趣，那就是在构建这些软件时，显然人们倾向于从为人类设计的计算机语言入手。那么，哪些计算机语言是为人工智能或 agent 世界设计的呢？或者说，哪些计算机语言是为人类和人工智能的混合过程设计的？这是一个开始研究这些计算机语言的好时机吗？它将如何改变我们的计算理论、语言学等？

Demis Hassabis：

我认为我们正在进入一个编码的新时代，这将会非常有趣。正如你所说，所有领先的实验室都在推进这一前沿领域的研究，原因有很多。创建合成数据很容易，这也是每个人都在推进这一方向的另一个原因。我认为我们将进入一个新世界——有时被称为氛围编码——你基本上是在用自然语言进行编码。我们以前在计算机上见过这种情况，我记得上世纪 80 年代我刚开始编程时，我们用的汇编语言。当然，现在看来这很疯狂，比如为什么要用机器代码？你一开始用的是 C 语言，然后是 Python 等。

实际上，我们可以看到编程语言的抽象层级越来越高，而某种意义上，越来越多的底层实现细节留给编译器，这是自然而然的演进。现在，我们可以将其视为自然而然的最终步骤——“好吧，我们就用自然语言吧。” 然后一切都变成了高级编程——超高级编程语言。我认为最终我们或许会达到这个目标。令人兴奋的是，它当然会让一系列全新的人群，包括创意人士，更容易理解编程，设计师、游戏设计师、应用程序编写者，如果没有程序员团队的帮助，他们通常无法实现自己的想法。

所以，我认为从创造力的角度来看，这将非常令人兴奋。对程序员来说，这也可能非常有利，至少在未来几年是这样。因为我认为这些人工智能工具的普遍情况是，最初从中获益最多的人将是该领域的专家，他们也知道如何以正确的方式使用这些工具。无论是提示还是与现有代码库交互。我认为会有这样一个过渡期，届时那些拥抱这些新工具的专家——无论是电影制作人、游戏设计师还是程序员——将会像超人一样，展现出他们的能力。我看到我的一些电影导演和电影设计师朋友，他们能够在一天之内独立完成新电影创意的设计。但这是一个质量非常高的宣传方案，他们可以争取到 1000 万美元的预算。

通常情况下，他们得花费数万美元才能完成那个融资演示，这对他们来说是一个巨大的风险。我认为这将会是一系列全新的、令人难以置信的机遇。还有一个问题是，如果你考虑创意，考虑创意艺术，是否会有新的工作方式。更加流畅。你不用再使用 Adobe Photoshop 之类的工具，而是用这个流畅响应的工具来共同创作。这有点像我想象中的少数派报告（Minority Report），但这需要人们适应全新的工作流程，才能最大限度地利用它。但我认为，当他们这样做时，对那些人来说可能是不可思议的。他们的工作效率会提高 10 倍。

ARIA：

所以，我想回到我们之前讨论的多模态世界，也就是现实世界中的机器人。目前，大多数人工智能不需要实时地实现多模态，因为互联网本身就不是多模态的。对于我们的听众来说，这意味着需要同时吸收多种类型的输入——语音、文本、视觉。你能否更深入地谈谈，你认为真正实时的多模态人工智能会带来哪些好处？要达到这一点，又面临哪些挑战？

Demis Hassabis：

首先，我们生活在一个多模态的世界，我们拥有 5 个传感器，这就是我们之所以为人的原因。所以，如果我们希望我们的系统成为出色的工具或辅助工具，我认为最终它们必须理解我们所处的世界——空间和时间的世界。而不仅仅是语言和数学的世界，抽象思维的世界。我认为它们需要能够在现实世界中行动、规划和处理事物，并理解现实世界。我认为机器人技术的潜力巨大，还没有迎来 ChatGPT 或 AlphaFold 那样的时刻，比如在科学和语言领域，或者 AlphaGo 那样的时刻。我认为这些即将到来，我们已经很接近了，正如我们之前谈到的，为了实现这一点——我认为最短的路径就是这些通用的多模态模型最终足够好，可以安装在机器人身上，也许我们离这个目标并不远了。

现在还存在额外的挑战，比如你必须把它安装在本地，或者本地芯片上，确保延迟足够快等等。但众所周知，只需再等几年，今天最先进的系统明天就能装在小小的移动芯片上。所以，我认为从机器人、辅助以及创造力的角度来看，多模态是非常令人兴奋的。

我觉得大家似乎真的很喜欢使用它。你现在是在和一个多模态聊天机器人对话，你可以让它用图片表达情感。或者你可以给它一张图片，让它修改，然后再用文字描述继续处理。比如，“你能去掉那个背景吗？你能做到这个吗？”所以这又回到了我们之前提到的关于编程或任何这类在新工作流程中运用创意的事情。这仅仅是个开始。当然，它还能处理视频、编码以及各种各样的东西。

REID：

人们经常猜测的一件事就是人工智能工作的地理定位。显然，在美国，我们会密切关注西海岸发生的一切。我们也密切关注 DeepMind，还有 Mistral 和其他公司。对于世界来说，了解欧洲的发展有哪些真正关键的东西？拥有多个主要创新和发明中心有什么好处？不仅仅是西海岸，显然还有伦敦的 DeepMind，巴黎的 Mistral，以及其他一些地方。有哪些事情值得人们关注——为什么它很重要以及正在发生什么，尤其是在英国和欧洲的人工智能生态系统中？

Demis Hassabis：

我们在伦敦创立了 DeepMind，并将总部设在这里，背后有很多原因。首先，这里是我成长的地方，是我熟悉的环境，我的人脉也大多在这里。

从竞争角度来看，我们认为英国和欧洲的人才质量可以媲美美国顶尖高校，尤其是应届毕业生。你知道，我的母校是剑桥大学，还有牛津大学，这些学校和麻省理工、哈佛、常春藤盟校齐名，通常都排在世界大学排名的前十位。但如果你在剑桥拿到物理博士学位，不想进入伦敦的对冲基金做金融，而是想继续接受智力挑战，留在英国，选择其实并不多。因为深科技初创公司很少。我们是第一家真正证明这条路是可行的公司，也因此对整个欧洲都产生了强大的吸引力。我们从慕尼黑、瑞士等地的技术大学招募了许多顶尖人才，这在很长一段时间内都是我们的核心竞争力之一。另外，相比美国西海岸，这里的薪资水平更低，也几乎不用与大型科技公司正面竞争，这对我们来说是非常有利的。

我选择这样做的另一个原因是，我知道通用人工智能（AGI）是一个需要 20 年完成的使命。这是我们从一开始就计划的，先解决智能问题，然后以此解决其他所有问题，也是我们阐明的使命宣言，时至今日我仍然认同这个框架。如今我们已经完成了 15 年，虽然难以置信，但已大致步入正轨，这对于任何长达 20 年的计划来说都是很少见的。如果你投身于深入的技术、科学使命中，就不想受到太多干扰。比如我发现硅谷的一个问题是，虽然硅谷有很多好处——人脉、支持系统、资金和众多人才，但它很容易让人分心。就像每个人都想创办一家他们认为会改变世界的初创公司，但结果往往只是一个照片应用程序之类的东西。当然，这也有可能催生一些伟大的成果，但对于真的想致力于一项自认为是最重要的长期使命者来说，其中会有很多干扰。你和你的员工难免会动摇：“如果我跳槽，赶紧做个游戏应用什么的，说不定能赚个一亿美元！”我认为至少在当时，硅谷的环境就是这样的。现在情况可能已经有所改变，当下的初创企业可能更注重使命。但我也想证明，这样的使命在其他地方也能做到。

我认为，还有一个非常关键的原因是：人工智能将影响整个世界，涉及所有行业、每一个国家。我相信，它将成为人类历史上最具变革性的技术，甚至比电力、火、互联网或移动设备的影响更大。

既然如此，让全世界都参与到它的设计和治理中，就显得尤为重要。不同地区有着不同的价值观，比如来自西欧和美国的民主价值体系。我们不希望这种影响力仅仅局限在加州那一小块区域内。我们需要广泛的、多样化的投入——不仅仅是地理层面的，也包括来自哲学家、社会科学家、经济学家、学术界和公民社会的声音。不应该只是科技公司和科学家的专属。我们从一开始就非常重视这一点。让英国和欧洲参与顶层设计是件好事。

ARIA：

所以，Demis，当有人问我：“嘿，Aria，我知道你对人工智能很感兴趣，但它能帮我写邮件吗？它有什么特别之处吗？” 我会说：“不，想想它在医学领域能做什么。” 我总是谈论 AlphaFold。我会告诉他们 Reid 正在做的事情。我对这些突破感到非常兴奋。你能不能稍微介绍一下——你们在 AlphaFold 上取得了开创性的突破，它将对医学的未来产生什么影响？

Demis Hassabis：

我一直觉得，人工智能最重要的用途有两个。一是人类健康——试图解决和治愈可怕的疾病，这是最重要的。二是帮助实现能源可持续性和气候问题，我们称之为地球健康。这两个领域正是我们科学小组关注的。就我们从一开始就大力推动这两个领域而言，我们的小组在人工智能实验室中是相当独特的。蛋白质折叠对我来说尤其重要。30 年前，我在剑桥读本科时就接触过蛋白质折叠。它一直萦绕在我的心头，就像一个奇妙的谜题，能够解开无数的可能性。

关于蛋白质的结构。生命中的一切都依赖于蛋白质，我们需要了解蛋白质的结构才能了解它们的功能。如果我们了解了它们的功能，就能理解疾病的根源，并且如果了解蛋白质的三维结构，我们就能设计出与蛋白质表面正确位置结合的药物和分子。这是一个非常有趣的问题。它也涉及到我们之前讨论的所有计算问题。你能列举吗？你能从这片无限可能中看透一切吗？蛋白质折叠的方式多种多样。有人估计 Levinthal 在 20 世纪 60 年代就做出了著名的猜想——平均来看，1 种蛋白质折叠方式有 10 到 300 种。那么，如何列举这些天文数字般的可能性呢？然而，有了这些学习系统，这一切都成为可能。

这就是我们对 AlphaFold 所做的。以前，根据经验，一名博士生需要花费整个博士学位的时间才能发现一种蛋白质结构，也就是 4、5 年。而科学界已知的蛋白质种类有 2 亿种。而我们在一年内就将它们全部折叠。换句话说，我们在一年内完成了博士生 10 亿年的研究工作。然后将其免费提供给全世界使用。全球已有 200 万研究人员使用过它。我们成立了一家名为 Isomorphic 的新公司，试图进一步深入下游领域，开发所需的药物，并尝试缩短这一时间。

ARIA：

这真是太棒了。Demis，他们授予你诺贝尔奖是有原因的。非常感谢你在这个领域所做的所有工作。这真的太棒了。

REID:

现在快速提问一下，有没有一部电影、一首歌或一本书让你对未来充满乐观？

Demis Hassabis：

我看过很多电影，它们都给了我很大的启发。比如《银翼杀手》。它可能是我最喜欢的科幻电影。但它可能没那么乐观。如果你想看一部乐观的电影，我会推荐 Iain Banks 的《文明》系列。我认为这是对后通用人工智能宇宙的最佳描绘，在这个宇宙里，基本上就是人工智能、人类、甚至外星物种组成的社会，以及人类在银河系中最大程度的繁荣。这是我对人类未来美好而激动人心的期盼。

ARIA：

你希望人们经常问你什么问题？

Demis Hassabis：

我经常想，为什么包括我在内的人们，不怎么讨论现实的一些基本属性？实际上，这些问题在我小时候就促使我思考如何构建人工智能，将其作为科学的终极工具。例如，我不明白为什么人们不去思考时间是什么？引力是什么？这些其实就是现实的基本结构，它每时每刻都在我们身边。所有这些显而易见的事情都在影响着我们。而我们却对它们究竟是如何运作的一无所知。我不知道为什么人们没有对此感到困扰（笑）。这让我很困扰，我很想和大家就这些话题进行更多探讨。但实际上，大多数人似乎都回避这些话题。

REID：

在你的行业之外，哪些进步或动力可以激励你？

Demis Hassabis：

这个问题很难回答，因为人工智能非常普遍，几乎触手可及。除了人工智能之外，还有什么行业？我不确定有多少。也许量子领域的进展很有趣。我仍然相信人工智能会先被构建出来，然后或许会帮助我们完善量子系统。但我和我的一些量子领域的朋友，比如 Hartmut Neven，一直打赌他们会先构建量子系统，然后这将有助于我们加速人工智能的发展。所以我一直密切关注量子计算系统的进展。

ARIA:

最后一个问题。你能否给我们提个醒：如果一切都超过了人类的预期，人类会在未来 15 年内面临哪些可能？实现这一目标的第一步是什么？

Demis Hassabis：

我希望，我们在医学领域能取得真正的突破。我想，也许在未来 10年、15年，我们真的能够攻克所有疾病，这就是 Isomorphic 的使命。我认为，通过 AlphaFold，我们展示了以数字速度进行科学研究的潜力。为什么这不能也应用于药物研发呢？我希望 10 年、15 年后，我们回顾今天的医学，就像回顾中世纪以及当时的医学发展一样。我认为，这将是我们能想象到的 AI 带来的最不可思议的好处。

阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到3月31日 ”未来知识库”精选的百部前沿科技趋势报告

（加入未来知识库，全部资料免费阅读和下载）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.