当前由大型语言模型掀起的 AI 狂潮,可能是一条通往通用智能的“捷径”或“弯路”。真正指向 AGI 和深刻科学发现的主干道,十年前 AlphaGo 就已经铺就。如今,在经历了 LLM 的喧嚣之后,我们才刚刚开始重新认识并回归这条正道。
![]()
2016 年 3 月,首尔。当李世乭在第四局下出“神之一手”(第 78 手),迫使 AlphaGo 投子认负时,全世界的围棋爱好者和科技观察者都松了一口气。人类的智慧,似乎在最后关头捍卫了尊严。这场 4:1 的比赛,尤其是第二局中那石破天惊的第 37 手,已经揭示了一个远比胜负更重要的事实:一个超越人类认知范式、具备“直觉”和“远见”的非人智能,诞生了。
![]()
十年过去,我们有了 ChatGPT,有了 Sora,AI 的能力边界似乎每天都在被刷新。但如果我们仔细聆听 Google DeepMind 最近关于 AlphaGo 十周年复盘访谈就会发现,今天所有关于 AI agent、科学发现、乃至超越人类知识边界的讨论,其思想内核与技术地基,都源于那块小小的围棋棋盘。
我们对 AlphaGo 的理解,大多还停留在“下棋很厉害的程序”这一浅层认知上,而它真正的遗产,才刚刚开始显现其颠覆性的力量。
要理解 AlphaGo 的颠覆性,必须将它与“深蓝”(Deep Blue)区分开来。1997 年,深蓝击败国际象棋世界冠军卡斯帕罗夫,靠的是强大的暴力计算。国际象棋的状态空间虽然巨大,但仍在当时超级计算机可处理的范围内。其核心是“搜索”,即尽可能多地推演未来的棋局变化。
![]()
而围棋,则完全是另一个维度的挑战。其状态空间达到了 10 的 170 次方,比宇宙中已知的原子总数还多。暴力搜索在这里毫无意义。人类顶尖棋手之所以强大,并非因为他们算得比别人多,而是因为他们有一种“棋感”或“直觉”,能够迅速判断棋盘上的优劣势,并从海量可能性中,凭直觉筛选出几个最有希望的落子点。
AlphaGo 的核心突破,正是成功地用机器模拟并超越了这种“直觉”。Thore Graepel 将其总结为“快思考”与“慢思考”的结合,这与人类的决策过程高度相似。
“快思考”来自于两个深度神经网络:
“慢思考”则是基于蒙特卡洛树搜索(MCTS)的“计算”。它在策略网络给出的几个候选点基础上,进行前瞻性推演,探索“如果我下这里,对手可能会如何应对,然后我又该如何……”的各种可能性。
![]()
所以,AlphaGo 不是用更强的计算能力去碾压人类,而是发明了一种机制,让机器学会了如何“聚焦”它的计算能力。策略网络和价值网络共同照亮了围棋那黑暗、广阔的搜索空间中最有希望的路径。Move 37 之所以让所有人类职业棋手震惊,因为它落在了一个人类直觉完全不会考虑的位置,但 AlphaGo 的“直觉”和后续的“计算”却证明了它是全局最优解。这标志着,机器的“直觉”已经探索到了人类知识体系之外的领域。
如果说 AlphaGo 证明了 AI 可以达到并超越人类顶尖水平,那么它的继任者 AlphaZero 则揭示了一个更令人震撼的可能性:AI 可以完全不依赖人类知识,从零开始,通过自我博弈,达到一个远超人类的全新境界。
AlphaGo 的初始版本,其策略网络是通过学习数百万局人类职业棋手的棋谱来训练的。它先是“模仿”人类,然后再通过自我对弈进行“强化”。而 AlphaZero 则完全抛弃了人类棋谱数据。它只被告知了围棋的基本规则,然后就开始了海量的自我对弈。
![]()
AlphaZero 的成长经历了一个过程:
AlphaZero 后期的棋风“看起来很陌生”。它的落子在当时看来可能毫无道理,但几十步之后,人们才恍然大悟,原来它在下一盘很大的棋,一切都已尽在掌握。
AlphaZero 的意义远超围棋本身,它在科学方法论上提供了一个全新的范式。它证明了,对于一个规则明确的复杂系统,一个智能体可以通过“自我生成数据”(self-play)和“强化学习”,独立发现该系统最优的运行策略,而无需任何人类先验知识的引导。
人类积累了数千年的知识,可能只是巨大“解空间”中的一个局部最优解。AI 有能力帮助我们找到那些隐藏在人类认知盲区中的、更优的全局解。
就在首尔比赛结束后,当团队成员还在收拾设备时,麦克风记录下了 DeepMind 创始人 Demis Hassabis 和 David Silver 的对话。Demis 说:“我们能解决蛋白质折叠问题了……我之前就觉得我们能行,但现在,我们肯定能行了。”
这并非一时兴起的豪言壮语。DeepMind 从一开始的终极目标就不是赢得棋类游戏,而是将从游戏中验证的这套“解决复杂搜索问题”的方法论,应用到真实的、更宏大的科学挑战中。Pushmeet Kohli 的加入以及他所领导的科学团队,正是这一愿景的执行者。
AlphaGo 的核心遗产,是将一个复杂问题“游戏化”的能力。
一个“游戏”具备几个要素:一个巨大的状态空间(所有可能的局面),一套明确的规则(如何从一个状态转移到另一个状态),以及一个清晰的目标(获胜)。科学发现中的许多“大挑战”同样可以被抽象为这样的“游戏”。
比如AlphaFold 与蛋白质折叠:
![]()
再比如AlphaTensor 与算法发现:
同样的,还有AlphaDev 与程序优化:
![]()
这解释了为什么 LLM 如此惊艳。它们本质上是对人类已有知识的压缩、重组和模仿。但这条捷径也带来了两个根本性的局限:
而 AlphaGo/AlphaZero 所代表的道路,虽然起步更难,但它直指问题的核心:如何在一个系统中生成真正的新知识?
这套范式包含两个关键环节,正如哲学家卡尔·波普的理论:“猜想与反驳”。
今天 AI 领域的前沿,正是这两条道路的融合。LLM 可以作为非常强大的“猜想”引擎,它能基于海量知识生成各种新颖的算法、分子结构、数学证明的思路。然后,再将这些“猜想”放入一个 AlphaGo 式的、具备严格验证环境的 agent 系统中去“反驳”和“筛选”。
例如,让 LLM 生成一段代码(猜想),然后在一个编译和测试环境中反复运行、修改,直到通过所有测试(反驳)。
这才是回归了那条由 AlphaGo 开辟的道路:构建一个目标导向的、能够在环境中自主探索和验证的智能体。
AlphaGo 带来的冲击,可以说是一个“哥白尼时刻”,动摇了“人类智慧是万物尺度”的信念。Move 37 和 AlphaZero 的出现,让我们第一次窥见,在人类知识的边界之外,存在着广阔的、非人类中心的智能形式。
十年后的今天,我们不必再为机器是否会下棋而焦虑。新的议题是:我们如何利用这种全新的发现工具,去解答那些最根本的科学问题?
在这个新时代,科学家和数学家的角色非但没有被削弱,反而变得更加重要。因为 AI agent 擅长的是在定义好的“游戏”中找到最优解,而“定义什么游戏值得玩”、“如何精确地设定游戏规则和目标”,则成为了人类智慧最核心的价值所在。
从 AlphaGo 到 AlphaFold,再到 AlphaTensor,DeepMind 的十年经历表明,AI 的最高价值不是模仿人类,而是与人类合作,扩展人类的认知边界。
AlphaGo 的十年,不是一个终点,而是一个真正的起点。它为我们提供了一把钥匙,用以开启那些因其巨大的复杂性而对人类关闭了数个世纪的知识大门。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.