来源:数字开物
3月25日,DeepMind 的联合创始人兼CEO Demis Hassabis在剑桥大学发表演讲,演讲中分享了 DeepMind的历程, DeepMind创立初被视为旨在构建AGI的“阿波罗计划”,还回顾了AI发展的两种主要路径,并将游戏作为AI试验场,游戏领域的成功是手段而非目的,是为了开发能解决现实问题的通用算法。此外谈论了谷歌 DeepMind 正在开发的 AI 工具如何能够极大地加快从健康到环境等科学领域的发现。
Demis Hassabis表示,AI 发展的下一步是将 AlphaGo 所展现的那类基于智能体的模型(它们能在游戏等有限领域内高效搜索并找到优良解决方案)与 Gemini 这类更通用的模型相结合,将高效规划和搜索能力与对世界广泛理解的能力相结合。
任何在自然界中能够生成或被发现的、具有真实物理结构的模式,或许都能被像 AlphaFold 这样的经典学习算法高效地发现和建模。
DeepMind押注的方向是强化学习以及强化学习和深度学习的结合,深度学习用于对环境和世界建模,强化学习则用来制定计划、寻找解决方案并在环境中行动。
以下是本次演讲实录
经数字开物团队编译整理
能回到剑桥真是太好了。每次回到剑桥,都感觉像是回家一样,心里暖暖的。特别是这座演讲厅,我记得曾对朋友们说过,也许有一天我会回到这里做演讲,宣布 AGI的到来,或许还会有一个机器人走上台,震惊全场。今天我不会这么做,也许几年后我会再回来,给大家带来那样的演讲。
对我而言,我的 AI 之旅始于游戏,特别是国际象棋,我从四岁开始下棋,这段经历引导我开始思考“思考”本身。我们的大脑是如何构想出这些计划和想法的?我们是如何解决问题的?又该如何改进?这让我深深着迷,甚至可能比下棋本身更吸引我的是其背后的实际思维过程。
我第一次接触计算机和 AI 就是通过国际象棋,当时我尝试使用非常早期的国际象棋电脑,我想这就是我的第一台象棋电脑。它们是实体棋盘,你必须实际按下棋盘上的方格来移动棋子。当然,我们本来应该用这些象棋电脑来训练开局理论,学习更多国际象棋知识。但我记得当时我完全被一个事实迷住了:竟然有人能给这个看起来毫无生气的塑料块编程,让它能和你对弈得如此出色。我当时真的非常好奇这是怎么做到的,怎么会有人能编出这样的程序。后来在我十几岁的时候,我自己用 Amiga 500 电脑做了实验——那可是 80 年代末 90 年代初非常棒的一款家用电脑——并自己动手编写了类似奥赛罗这种游戏的 AI 程序。那真是我第一次尝到 AI 的滋味,从那一刻起我就被深深吸引了。因此,我很早就下定决心,要将我的整个职业生涯都投入到推动这项技术的前沿发展中去。
在 2010 年,我们在伦敦创立了 DeepMind。当时我们确实是把它看作一项旨在构建 AGI的‘阿波罗计划’——这是我们当时的想法。也就是一种真正通用的、能执行人类所有认知能力的 AI。一个真正意义上的通用 AI 系统。实际上,这个想法真正源自图灵和他的图灵机,即一种能够计算任何可计算之物的机器,正如图灵通过其图灵机所证明的那样。这对我来说是重要的基础,也是我在剑桥的课堂上学到的核心内容之一:计算机科学与计算理论的基石,这些都是由图灵等人在 40 和 50 年代奠定的著名理论。
我们在 2010 年创立 DeepMind。令人感慨的是,这已经是将近 15 年前了。但当时,几乎没什么人在研究 AI,这在几乎人人都在谈论 AI 的今天看来,简直难以置信。仅仅十几年间,AI 领域的发展速度之快令人惊叹,而我们显然也参与并推动了这段激动人心的旅程。
我们 DeepMind 从创立之初的使命是负责任地构建 AI,以造福全人类。但我们最初的表述方式是分为两步:第一步,解决智能;第二步,用智能解决一切其他问题。在 2010 年,这个想法听起来非常大胆甚至有些不切实际。你可以想象,拿着这样的使命去向风险投资人融资会是什么情景。这听起来相当疯狂。但我至今依然从根本上坚信这一点。而且我认为,越来越多的人开始意识到,以通用方式构建的 AI,确实可能对几乎所有领域带来深刻的、变革性的影响。这显然就是我们使命宣言的第二部分。对我而言,这意味着利用 AI 加速科学发现本身、推动医学进步,并增进我们对周围宇宙的理解。
回想我们刚创业时,或者说我在 90 年代在这里(剑桥)学习的时候,广义上讲,构建 AI 主要有两种路径。一种是专家系统的路径,也就是将解决方案直接预先编程到系统中。比如在 90 年代非常有名的、击败了国际象棋世界冠军加里·卡斯帕罗夫 (Garry Kasparov) 的Deep Blue,这或许是专家系统的巅峰之作。但专家系统的问题在于它们无法处理预期之外的情况,这也是它们从未能真正扩展到完全通用智能的原因。如果发生了开发者没有预先设定好的意外状况,系统本身没有任何机制能够应对。它们的设计思路主要源于逻辑系统,因此往往比较死板、脆弱,适应性差。
相比之下,现代方法则基于学习系统。这些系统能够自主学习,直接从原始经验或数据中学习,遵循第一性原理。其灵感更多地来源于神经科学。显然,我们今天这类系统的潜力在于,它们有望超越我们这些程序员或系统设计者已有的知识范畴,解决我们还不知道答案的问题。
因此,在 2010 年代初,我们自然而然地从游戏入手。游戏在我生命中扮演了多重角色:首先,我用它训练自己的思维;后来,我为电脑游戏开发游戏和 AI;最终,也是第三种方式,我们用游戏来训练我们的AI系统。游戏是AI系统的绝佳试验场。你可以从非常简单的游戏开始,比如 70 年代的 Atari 游戏。而 DQN 这个系统,是首个能够直接从原始数据中学习的端到端学习系统。在 DQN 的案例中,输入就是屏幕上的原始像素。系统没有被告知任何关于游戏规则或其控制对象的信息。它唯一的目标就是基于输入的视频流(或者说像素流)来最大化游戏得分。
大约在 2013 年,我们用 DQN 掌握了各种不同的 Atari 游戏。之后,我们将这些系统进一步扩展,去挑战我认为是游戏 AI 领域的终极难题:开发出能够在围棋这项运动上达到甚至超越世界冠军水平的系统。围棋,无疑是人类发明过的最复杂的游戏之一。要理解围棋的复杂性,一个方法是看它的可能性:围棋中可能的局面数量达到了10的170次方。这个数字远超可观测宇宙中的原子总数。这背后重要的一点是:你不可能用暴力穷举的方法来制定围棋策略。那是不可能的,计算上是完全不可行的,所以你必须采用更智能的方法。
然后在 2016 年,我们迎来了一个举世瞩目的时刻:在一场百万美元的挑战赛中,我们的程序 AlphaGo 击败了十次世界冠军、韩国传奇棋手李世石九段。全球有两亿人观看了这场比赛。AlphaGo 不仅赢得了比赛,更重要的是,它甚至开创了全新的、原创的围棋策略。要知道,围棋已经有数千年历史,职业围棋也发展了数百年,但 AlphaGo 仍然能发现人类从未见过的下法。
所以,这再次向我揭示了这类系统在发明和发现新知识方面的潜力。当然,当时我们谈论的只是游戏领域的知识,但我的梦想显然是将这种能力推广到科学发现的所有领域。
那么这些系统是如何运作的呢?我们基本上是通过一套自我对弈机制来训练这些神经网络 的。这实际上就是 AlphaGo 以及后续系统,如 AlphaGo Zero 和 Alpha Zero 所采用的方法。这些后续系统将我们为围棋开发的技术进行了泛化,能够从零开始学习玩任何双人游戏。初始时,系统是版本一,它对游戏几乎一无所知,只了解规则,因此下棋是随机的。然后,你让这个系统与自身对弈大约 10 万局。这 10 万局游戏就产生了一个包含各种棋局位置的新数据库。基于这个数据库,你训练出第二个版本,即一个稍微改进了的模型,版本二。这个版本经过训练,能够预测在任何给定棋局下最可能的着法,以及哪一方 (黑棋或白棋) 更可能从当前局面获胜,还有他们获胜的概率是多少。
接着,你可以用版本二与版本一对弈,进行例如 100 局的比赛。如果版本二以显著优势胜出 (比如胜率达到 55%) ,就用版本二替换版本一,并用新的对局创建一个质量更高的游戏数据库。然后,你再训练出版本三系统。如果你重复这个过程大约 17 到 18 次,系统就能在 24 小时甚至更短的时间内,从最初的随机乱下,进化到第 17 或 18 版时,棋力超越世界冠军的水平。所以,能亲眼见证这个自我提升的过程在如此短的时间内完成,是相当不可思议的。
那么,这些神经网络究竟在做什么呢?它们实际上是将围棋那种极其庞大、难以处理的搜索空间(大约有 10 的 170 次方种可能性) ,压缩到在几分钟计算时间内就可以处理的规模。它是如何做到的呢?通过利用神经网络来有效地引导搜索机制,从而缩小搜索范围。想象一下,所有可能的下法构成一棵巨大的“可能性之树”,树上的每个节点代表一个围棋棋局。神经网络的作用就是,让你不必漫无目的地检查所有可能性,而是引导你集中探索那些最有趣、最有价值的分支路线 。最后,当思考时间用尽时,你就选择迄今为止看到的最佳、最有希望的那条路线。
这自然而然地引导我们,将这种能力应用于不仅仅是围棋,而是任何双人完美信息游戏 。令人惊讶的是,它甚至能够在国际象棋领域发现全新的策略和风格。考虑到当时像 Stockfish 这样的国际象棋程序已经非常强大,这一点尤其了不起。而 Alpha Zero 当时竟然能在国际象棋上击败 Stockfish,这几乎被认为是件不可能的事。Alpha Zero 不仅击败了 Stockfish更重要的是它下出了一些名局。在其中一盘最著名的对局的这个特定局面中,白方的 AlphaZero 正处于胜势,因为它选择了牺牲子力来换取机动性。大多数国际象棋计算机倾向于保全子力,而如果你懂国际象棋,你会看到图中黑棋虽然子力占优,但棋子几乎动弹不得,都被困在角落里。正是 AlphaZero 主动弃子,获得了这种机动优势。对于人类特级大师和顶尖棋手而言,这种下法不仅非常有效,而且具有极高的审美价值,是一种优美的棋风。
所以,AlphaZero 能够发现这种全新的、动态的下棋方式,确实非常了不起。而当时的世界冠军 Magnus Carlsen,在研究了 AlphaZero 的对局和相关书籍后将 AlphaZero 的许多思路融入了自己的棋风,并借此统治了国际象棋界将近十年。
所以,在 DeepMind 成立后的头十年左右,我们在游戏人工智能领域取得了一系列里程碑式的突破。但当然,这些成就仅仅是我们实现更宏大目标的训练场。玩游戏本身并非终点而是一种手段。我们的目的是创造出能够广泛应用于解决现实世界问题的算法。
那么,我们在现实世界中寻找哪些问题来应用这些技术呢?不仅仅是科学问题,也包括工业领域的问题。我们主要依据三个标准来判断一个问题是否适合用我们最初为游戏开发的这类 AI 系统、理念和算法来解决。第一,我们寻找那些可以被描述为庞大的组合搜索空间 的问题。这类问题通常极其复杂,组合方式太多,无法通过暴力破解找到解决方案。但关键在于,其中可能存在某种潜在结构,我们的神经网络可以学习并利用这种结构来高效地引导搜索。第二,我们寻找能够用明确的目标函数或某种可优化的度量来描述的问题。在游戏中,这很简单,比如最大化得分或赢得比赛。但实际上,许多现实世界的问题也可以被简化、归结为几个你希望最大化的度量或目标函数。
最后,第三个标准是,你需要有充足的数据或经验可供学习,并且需要有一个精确且高效的模拟器,以便生成更多的合成数据来补充你所拥有的真实数据。事实证明,如果你从这个角度审视,会发现有大量问题都符合这些标准,其中包含了科学领域的许多重要难题。对我而言,有一个问题一直萦绕在我心头,实际上从我还在剑桥读本科、初次接触到它时就是如此,那就是蛋白质折叠问题。对于不熟悉生物学和蛋白质的朋友,我来简单介绍一下。
蛋白质至关重要,它们是生命的基石。生物体内的几乎所有功能,从神经元放电到肌纤维收缩,都依赖于蛋白质。可以说,正是蛋白质使生命成为可能。那么,蛋白质折叠问题其实很容易描述。基本上,蛋白质由其基因序列 或遗传序列所定义,这个序列决定了氨基酸序列 。在自然界中,这条氨基酸链会自发地折叠成一个通常非常精美的特定蛋白质结构。所以,过程就是从遗传序列到蛋白质结构。
蛋白质结构,也就是它的三维结构之所以非常重要,是因为它在很大程度上决定了蛋白质的功能,即它在生物体内扮演的角色。当然,结构并非功能的全部,但它确实是决定蛋白质在自然界中实际作用的关键因素。因此,蛋白质折叠问题归根结底就是:我们能否仅根据一维的氨基酸序列,直接预测出蛋白质的三维结构?我们能否通过计算,从这个序列出发,预测出那个极其复杂的三维结构呢?
那么,为什么这个问题如此困难呢?著名蛋白质研究员 Leventhal 在 1960 年代提出了一个猜想,后来被称为 Leventhal 悖论。他计算出,一个普通蛋白质可能形成的形状数量大约是天文数字般的 10 的 300 次方。然而,在自然界和生物体内,蛋白质却能在短短几毫秒内自发地完成折叠。这就是悖论所在:既然存在如此多的可能性,自然界是如何做到快速折叠的呢?或者说,物理定律是如何实现这一过程的?这个悖论也给了我们希望:既然物理过程能解决这个问题 (并且在体内每秒发生数十亿次) ,那么通过计算也一定能在合理的时间内找到解决方案,这个问题在计算上应该是可行的。
此外,吸引我投身这个问题的另一个原因是,有一个名为 CASP的竞赛,科学家们通过艰苦的工作,使用电子显微镜等尖端且昂贵的设备来解析蛋白质结构。他们会将那些刚刚解析出来、尚未公开发表的结构提供给 CASP 作为竞赛题目。这样一来,竞赛组织者掌握着实际的基准真相,而来参赛的数百支计算团队则利用各自的计算方法尝试预测这些未知结构 。等到夏末,组织者公布真实的结构,大家就可以将预测结果与真实结构进行比较,评估预测的误差。
于是,我们在 2016 年启动了 Alpha Fold 项目,实际上差不多就在我们从韩国首尔的 AlphaGo 人机大战回来后的第二天。我们当时觉得,技术已经足够成熟,是时候将其应用于游戏领域之外,去解决那些真正有意义的重大难题了。我们称这类问题为“根节点问题”,因为一旦解决,它们就能开辟出全新的研究分支和发现途径,后续的大量工作都可以在此基础上展开。蛋白质折叠正是这类问题的典型代表。我们在 2018 年首次带着 Alpha Fold 1 参加了 CASP 竞赛。
我们从 2016 年开始这项工作。几年后,Alpha Fold 1 准备就绪,我们用它参加了 CASP 13 竞赛。你可以从图表中看到,在此之前的十年间,在最难预测的蛋白质类别中,获胜团队的最高得分一直徘徊不前。这个分数可以大致理解为一个准确度百分比,衡量预测出的氨基酸有多少比例位于真实结构的正确位置上。如图所示,过去十年进展甚微,分数一直卡在 60 分左右的水平。而实验科学家们告诉我们,预测精度需要达到 90 分这个门槛——也就是达到原子级精度——计算方法才真正具有与实验方法相媲美的实用价值,实验科学家们才能真正依赖这些计算预测,而不必总是进行那些费时费力的实验工作来解析结构。
生物学家们普遍认为,一个博士生需要花费整个博士生涯,也就是四到五年的时间,才能解析出仅仅一个蛋白质的结构。科学界已知的蛋白质有 2 亿种,而人类蛋白质组中就有 2 万种。我们凭借 Alpha Fold 1 赢得了蛋白质结构预测竞赛,并且比次优系统好了将近 50%。Alpha Fold 1 首次将 机器学习 技术作为系统的核心组件引入。但这还不足以达到 原子级精度。我们必须从头开始,利用已有的经验教训,为 Alpha Fold 2 重新设计架构,并运用从 Alpha Fold 1 中学到的一切,最终才达到了这种原子级精度。这使得竞赛组织者在 2020 年底宣布,蛋白质折叠问题已被解决。
Alpha Fold 不仅极其精确,而且速度极快——它能在几秒钟内完成一个普通蛋白质的折叠。我们很快意识到,实际上可以预测所有已知的 2 亿种蛋白质的结构。在随后大约一年的时间里,我们利用 Google Cloud 上的大量计算资源完成了所有蛋白质的结构预测,然后通过我们欧洲生物信息学研究所的同事们,将这些数据在一个数据库中免费公开发布,为全球任何人提供了免费、无限制的访问权限。
实验方法确定一个蛋白质结构就需要四五年时间,预测这 2 亿个蛋白质结构,相当于在一年内完成了实验方法下需要十亿年博士研究才能完成的工作量。科学研究能被加速到何种程度,可见一斑。这也开辟了全新的探索领域。许多蛋白质结构,特别是那些研究较少的生物体 (比如某些特定类型的植物),虽然对科学和农业研究极为重要,但其结构却鲜有被解析和公开。现在,这些结构数据都唾手可得了。此外,有了这 2 亿个结构数据,我们可以在宏观层面分析跨物种的结构模式,甚至是 元结构,探寻进化过程中的共性。这确实为 结构生物学 开辟了引人入胜的新研究方向,目前正有待探索。
我们从一开始就将安全问题置于优先地位,并严肃对待作为 AI 前沿开拓者的责任。在这个项目上,我们咨询了超过 30 位 生物安全 和 生物伦理学专家,确保向世界公开成果所带来的益处远超任何潜在风险。全球几乎每个国家都有研究人员在使用 Alpha Fold,总数已超过 200 万。这项工作已被引用超过 3 万次,已成为生物学研究的标准工具之一。在座的许多博士生们,希望你们也在使用并受益于它。如今,Alpha Fold 的应用几乎遍及生物学和医学研究的各个领域。
在过去几年里,我们持续开发,取得更多进展并改进系统。今年早些时候,我们发布了供学术界使用的 Alpha Fold 3。我们将 Alpha Fold 3 的能力扩展到处理相互作用。Alpha Fold 2 主要提供蛋白质的静态结构快照,但生物学本质上是一个动态过程。因此,理解不同生物分子元件之间如何相互作用至关重要。这包括蛋白质与其他蛋白质的相互作用,也包括蛋白质与生命必需的其他分子 (如 DNA 和 RNA) 以及 配体 的相互作用。配体是 小分子,比如药物化合物。了解蛋白质与这些化合物的结合方式非常重要。
此外,我们还开发了 Alpha Proteo,它致力于解决蛋白质设计的逆向问题,并同样基于 Alpha Fold 的技术。也就是说,如果想设计一种自然界中可能不存在的新型蛋白质,赋予其特定任务或功能,就需要确定能够形成这种特定结构的氨基酸序列和基因序列。这便是尝试设计出能够执行新颖功能的新结构,在设计药物、抗生素 和 抗体 等方面具有极高的应用价值。
无论是早期在游戏领域取得的成就,还是后来在科学研究工作,其核心都在于解决棘手的搜索问题。面对极其复杂的问题和海量的可能解决方案必须找到最优解。这在巨大的组合搜索空间中,单靠暴力破解是无法实现的。因此,必须训练一个神经网络模型。该模型能学习问题的拓扑结构,从而有效地引导搜索过程,以找到预定目标的最佳解决方案。
这是一种极其通用的方法。以 Go 为例,我们利用系统寻找最佳落子点。若将棋盘节点想象成化学化合物,那么就是在化学空间中寻找最佳分子。找到最佳分子,便是药物设计的开端——找到能特异性与目标靶点结合、而不影响其他分子的化合物,从而减少副作用和毒性。当前我们用于设计这些分子的技术,与此前的原理一脉相承,标志着我们向药物发现领域迈出了新的一步。
我们相信,生物学正进入一个可称之为数字生物学的新时代。生物学在其最根本层面上是一个信息处理系统,在不断抵抗周围环境的熵增,这或许是生命的本质。它是一个极其复杂且具有涌现性的信息处理系统。AI 正是应对这种复杂性的理想工具。正如数学是描述物理学和物理现象的完美语言,AI 有潜力成为描述生物学的完美语言。AI尤其擅长处理像生物学这样的动态系统中复杂、涌现的行为和相互作用。
Alpha Fold 正是这一理念的力证。希望十年后回望,它不仅是一个孤立的突破,而是真正开启了数字生物学的黄金新纪元。
AI 的应用远不止生物学,它可以广泛用于科学、数学、医学等领域。我们已取得一系列突破,涵盖健康 (通过视网膜扫描识别眼疾)、新材料发现、助力等离子体约束和聚变反应堆、研发更快算法 (如 AI 发现更快的矩阵乘法算法)、天气预测,甚至在 量子计算机 及其 纠错 方面提供帮助。AI 的应用潜力几乎覆盖所有领域。因此,我们鼓励大学加强多学科交叉合作,将 AI 应用于特定专业领域的关键问题上。相信未来 5 到 10 年,通过这种方式可以取得诸多进展。
最后,谈谈更宏观的视角:通往AGI的路径以及相关进展。我们在对世界进行一般性理解的各个方面都取得了很大进展,有时称之为世界模型。去年底发布的 VO2 视频模型就是一例。VO2 是目前最先进的视频生成技术,能仅凭文本描述或单张静态图像生成视频。
其中一些视频效果惊人。例如那个切番茄的视频,堪称视频模型的图灵测试。通常模型会出错,比如番茄复原、切到手指或刀移位。但 VO2 能较好地处理,说明系统为了生成逼真效果,必须深刻理解现实世界的物理规律。再比如蓝莓掉入水中的气泡效果,仅根据文本生成,却准确模拟了物理现象。还有卡通人物的运动、蜜蜂的飞行等,都展示了模型对物理和动态的理解。五年前,如果有人告诉我无需专门编程、仅靠学习就能实现这种效果,我会觉得难以置信。然而,这些 学习系统 竟能通过观看海量 YouTube 视频学习到现实世界的物理规律。这展现了学习系统惊人的能力。
我们已经在这方面取得了进展,并且通过 Genie 2 项目更进了一步。这让我得以再次运用我在游戏领域的经验。Genie 2 将相关的视觉输出或理解模型提升到了新的水平。现在,用户仅凭一条文本指令,就能生成一个完整的游戏。例如,我们曾输入指令:“生成一个可玩世界,玩家扮演一个身处未来城市的机器人”。系统随之生成了相应的游戏画面,玩家可以用 QWE 键和箭头键控制机器人。目前,这个生成世界的连贯性只能维持几秒钟,但我们正在努力延长这个时间,目标是让游戏世界的连贯性可以持续数分钟。这样一来,用户就能真正体验到我所说的世界模型——一种对真实世界及其互动规律、物理法则的深刻理解。
我们一直非常专注于 AI 技术的安全问题。早在 2010 年,当 AI 领域还鲜有人问津时,我们就已经开始为这项技术未来可能取得的成功进行规划和准备。我们当初设想这会是一个长达二十年的使命,令人欣慰的是,十五年过去,我们基本仍行走在预定的轨道上。我们当时就意识到,如果真要构建这类具有变革力量的系统和技术,就必须承担起重大的责任,确保它们以安全、负责任的方式部署。为此,我们开发了名为 Synth ID 的技术系统。该系统利用 AI 技术,具体是一个对抗性 AI 系统,对图像的像素、文本或音频进行微调,嵌入人眼或人耳无法察觉的无形水印。但专门的检测系统能够识别出这些经过处理的内容是合成生成的图像,无论其形式是音频、图像还是视频。随着此类技术日益普及,能够轻松区分合成内容和真实内容的能力,其重要性将愈发凸显。
AI 展现出巨大的潜力,有望帮助我们应对从气候变化到公共健康等最严峻的全球性挑战。但显而易见,这项技术将深刻影响社会中的每一个人。因此,至关重要的一点是,相关决策不能仅由技术专家掌握,而需要社会各界的广泛利益相关者参与深入的沟通和互动。令人欣喜的是,过去几年 AI 的主流化带来了积极的现象,许多国家的政府及社会各界都开始高度关注 AI。国际峰会的召开也极具意义,例如,英国几年前在Bletchley Park主办的首届峰会,汇集了各国政府首脑、学术界和公民社会代表,共同探讨如何为 AI 技术发展设立恰当的“护栏”,确保我们既能拥抱机遇,又能有效减轻潜在风险。鉴于 AI 技术正以指数级的速度发展和改进,这种跨界对话与合作只会变得越来越重要。
对于如何推进 AI 发展,我的看法不同于硅谷盛行的“快速行动,打破常规”的信条。虽然这种模式催生了许多创新和我们日常使用的技术,但我认为它并不适用于 AI 这样具有深远变革力量的技术。恰恰相反,我们应该采用科学方法,以谦逊和尊重的态度对待它——这是这项技术应得的审慎。我们必须承认,关于 AI 的未来发展,仍有许多未知数,它毕竟是一项非常新的技术。我相信,只要以极其审慎的态度和富有远见的规划来推进,就能够充分发掘 AI 的益处,并将其潜在的负面影响降至最低。然而,这一切的前提是,我们必须从现在就开始相关的研究和深入讨论。
我们目前正在构建自己的大型多模态模型系列,称为 Gemini。其目标是整合此前各种模型的精华与优势,构建成一个统一强大的系统。最新发布的 Gemini 2.0 版本,在众多领先的基准测试中均达到了当前最佳水平。我们正利用 Gemini 推动下一代助手的发展,我对这个方向充满期待,并称之为通用助手,内部项目代号为 Project Astra。设想一下,你可以将这样的助手安装在手机、智能眼镜或其他设备上,它就像一个能伴随你进入现实世界的个人助手,帮助你丰富日常生活体验,或提升工作效率。
AI 发展的下一步是将 AlphaGo 所展现的那类基于智能体的模型(它们能在游戏等有限领域内高效搜索并找到优良解决方案)与 Gemini 这类更通用的模型相结合。
我们期望将这类搜索与规划系统,构建于(如 Gemini 所具备的)能够理解现实世界运作方式的世界模型基础之上,从而使其能够在现实世界中进行规划并达成目标。
这对于机器人技术的实现和应用至关重要。
我相信在未来两到三年内,机器人技术将迎来飞跃性的进展,成为一个极其重要的领域。
最后,我想就这一切进展的深层意义提出一个推测,特别是回溯到 Alan Turing 为奠定计算机科学基础所做的奠基性工作。从某种意义上说,我视自己为图灵理念的传承者和实践者,致力于探索图灵机和经典计算的思想边界究竟在哪里。我常常思考 P=MP 问题——这或许是受到了曾在此地聆听的某场讲座的启发。作为计算机科学领域的著名难题,它探讨的是:对于经典计算系统而言,哪些类型的问题是容易解决的?
目前,量子计算领域的研究如火如荼,无论是在剑桥还是在 Google,都有许多杰出的工作正在进行。人们普遍认为,许多复杂问题,包括模拟众多真实世界的系统,都需要依赖量子计算才能解决。
然而,我的猜想是:经典的图灵机,即我们构建AI系统所依赖的经典计算机,其能力可能远超我们过去的认知。以 AlphaFold 和蛋白质折叠为例:蛋白质本质上是量子系统,在原子尺度上运作。理论上似乎需要进行量子模拟才能精确解析其三维结构。但我们却成功地利用神经网络近似地解决了这个问题。
这启发了我一个想法,任何在自然界中能够生成或被发现的、具有真实物理结构的模式,或许都能被像AlphaFold这样的经典学习算法高效地发现和建模。如果这个猜想最终被证实,它将对量子力学乃至基础物理学产生极其深远的影响。这也是我个人及众多同事热切希望探索的方向——借助这些日益强大的经典 AI 系统,我们或许能更深入地揭示现实世界的真正本质。
这让我回想起多年前我投身人工智能领域的初衷。我始终相信,以这种方式构建的通用人工智能,能够成为理解我们周围宇宙以及我们在其中位置的终极通用工具。
观众1提问:在神经科学领域,您是否遇到过您认为值得解决并且至今仍值得解决,以助于我们更好地理解生物智能和人工智能 的根节点问题?
确实有很多这样的问题。我的博士研究课题就是记忆和想象力,也就是关于未来思考和规划。我当时非常想弄清楚大脑是如何完成这些功能的。研究发现海马体同时参与了这两个过程,所以我们或许可以利用我们的一些算法来模拟它。因此,我认为这里面有很多关键点。当然,还有很多宏大的问题,比如创造力、梦境、意识等等。我认为,构建AI,然后将其与人类心智进行比较,是我们在这些“根节点问题”上取得进展的最佳途径之一。例如,意识的本质是什么?大脑基质的物理实现与在硅基上通过算法模拟它相比,是否存在某些特殊之处。
观众2提问:第一,DeepMind 是在深度学习革命之前成立的,如果深度学习没有像后来那样发展起来,当时的心态如何?又打算如何继续前进?第二,鉴于您在处理极具挑战性的高维问题方面经验丰富,且梯度下降及其变体只能达到局部最优解,是否曾对这些系统竟然能起作用感到惊讶?另外,是否认为自然界在很大程度上是次优的,因此有可能构建一个更优化的“自然”?
第一个问题很棒。将公司命名为 DeepMind,部分原因就是“Deep”指代深度学习。当时,深度学习的早期形式已开始普及,例如 Jeffrey Hinton 在几年前发明的玻尔兹曼机和分层神经网络等技术。对于当时在学术界接触它的人而言,这似乎是个极具前景的方向。我们押注的另一项技术是强化学习以及两者的结合。强化学习对于解决 AlphaGo 这样的问题至关重要。你需要深度学习来对环境和世界进行建模,然后需要强化学习来制定计划、找到解决方案并在世界中采取行动。
强化学习现在再度流行,它对于解决 AlphaGo 这类问题也至关重要。这需要两部分配合:深度学习用于对环境和世界建模,强化学习则用来制定计划、寻找解决方案并在环境中行动。
我们当时之所以在它刚起步时就押注于此,主要基于两点:首先,我们认识到经典方法,即专家系统,无法规模化。这也是我在求学和研究期间的体会之一——当时存在推崇专家系统的不同‘阵营’或‘学派’。从学习中不仅能了解该做什么,也能了解不该做什么,以及某些方法为何行不通。我当时思考过这些经典方法,感觉它们永远无法扩展到我想用人工智能解决的那类问题的规模。
相比之下,学习系统似乎拥有无限的潜力,尽管在初期让它们取得任何显著进展要困难得多,主要因为它们的规模还不够大。我们在 2010 年创立 DeepMind 的另一个原因是,我们看到计算范式在硬件层面正在发生转变,GPU 等技术开始兴起——GPU 最初也是为游戏发明的,结果发现智能、游戏和计算机图形学,本质上都是矩阵乘法。所有这些不同的影响因素汇集到了一起。
同时,在那之前的十年里,对神经科学和 fMRI 技术的理解也取得了长足的进步。因此,我感觉 2010 年是将所有这些要素整合在一起的绝佳时机。我们当时下注,并非确信会成功,而是相当确信其他方法行不通。基本上,所谓的 AI 寒冬就是因为人们试图强行推广那些专家系统而导致的。
关于第二个问题,我想说的是,首先,这些系统最终能够收敛,确实令人惊讶,我们起初并不确定。在最初的几年里毫无进展。如果你还记得 Pong 这款早期电脑游戏,一种非常简单的模拟网球游戏,我们甚至无法让 AI 得到一分。所以我们当时就在想:我们是不是太超前了,早了 10 年或 20 年?就像 Babbage 和他的差分机一样,想法很了不起,理论也行得通,但他最终还是早了 50 年甚至 100 年。我总是说,你希望自己领先时代五年,而不是五十年。否则,你会经历很多痛苦,就像 Babbage 那样。我们当时确实担心这一点,但后来算法确实收敛了,这给了我们信心去攻克更难的问题。至于问题中关于自然界的部分,我的看法是,它们并非次优,实际上可能已经相当优化。因为它们经历了漫长的进化过程——不仅仅是生物学意义上的生命进化,还包括地质和物理层面上的演变。例如小行星和各种物理现象相互作用,它们能存续至今,是因为在漫长时间里保持了稳定。如果一个系统能长期稳定,其内部很可能就蕴含着值得学习的结构。这是我的推测。
观众3提问:您对构建高带宽脑机接口及可植入式记忆与推理模块有何看法?这样可以进一步增强人类自主进行探索发现的能力,而不仅仅是与云端的 AI 进行对话。
是的,我对此领域很感兴趣并持续关注,也曾协助构建脑电图帽等设备。当然,目前的问题在于这些设备的分辨率,即从大脑读取信号的精度,并且理想情况下我们希望它能同时具备读写功能。但我对 Neurolink 这类项目,即植入大脑的芯片,非常着迷。显然,目前这些技术主要是为了帮助例如退伍军人等群体恢复身体功能。我认为这方面将会有惊人的进展,比如让脊柱受伤的人能够重新行走等等。我相信医学领域将取得一些令人瞩目的实质性进展。在此之外,如果将来这类技术变得常规化,手术足够安全,并且有可靠的操作方法,那么我可以想象,这或许是人类跟上技术发展步伐的一种途径。从某种意义上说,这与我们今天身边无处不在的技术并无本质不同。我们每个人几乎全天候带着手机,还有电脑等设备。我们几乎已经与技术处于一种共生状态。当然,将设备植入体内会是更进一步,但我不太确定。这两种状态——技术植入体内与随身携带技术,其间的区别究竟在哪,是否存在明确的界限。
观众4提问:您提到 Genie 2 模型目前能维持几秒钟的连贯性,并希望最终达到分钟级别。但我们玩的游戏,需要近乎无限的连贯性。那么,您认为这类模型未来将如何整合到实际工作流程中?或者更具体地说,您如何看待 AI、您的模型以及您当前的研究在未来几十年内融入游戏开发?
是的,我认为 AI 将从多个方面融入游戏领域。
首先是作为工具,用于构建游戏所需资产,如 3D 模型、动画等。我认为这些在未来几年内就会出现。其次,AI 可用于游戏平衡性的调整。想象一下,你设计了一款游戏,AI 可在一夜间模拟百万次游戏过程,第二天设计师就能收到报告,指出不平衡之处,比如某个单位能力过强等等。
再次,是 Bug 测试,特别是对于开放世界游戏。我以前制作过模拟游戏和开放世界游戏,它们的 Bug 测试极其困难,因为其特点是玩家行为高度自由,游戏需随之响应。那么如何测试一千万玩家在游戏中走出各自独特的路径呢?实际上,让 AI 玩家在发布前进行大量测试,有助于发现并解决许多 Bug。
还有一点,我认为非常令人兴奋,那就是更逼真的 AI 角色,它们能够推动故事情节发展。我们曾梦想拥有这样的大型多人在线世界:其中的 AI 角色具备智能,能根据玩家行为更新自身信念和故事线,从而让世界感觉更加生动、真实。我认为我们正处在能够构建这类游戏的关口。
最后,关于我们正在构建的世界模型,它更多关乎通用人工智能。它代表了理解世界的能力——你的模型是否理解世界?如果模型能在一定时间内生成这个世界,显然它必须在某种程度上理解其底层的物理规律。这更多是为了实现通用智能。至于像全息甲板那样只需想象就能呈现一切的技术,或许拥有 AGI 后可以实现,但目前看还需要一段时间。
关于本期演讲
访谈发布时间:2025年3月25日
原文地址:https://youtu.be/hHooQmmzG4k?si=6sgxV9hUiqvv5ETo
访谈人物:DeepMind 的联合创始人兼CEO Demis Hassabis
阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”
https://wx.zsxq.com/group/454854145828
未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。
截止到2月28日 ”未来知识库”精选的100部前沿科技趋势报告
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.