网易首页 > 网易号 > 正文 申请入驻

直觉与远见!AlphaGo的秘密,远不止赢下一盘棋?

0
分享至

当前由大型语言模型掀起的 AI 狂潮,可能是一条通往通用智能的“捷径”或“弯路”。真正指向 AGI 和深刻科学发现的主干道,十年前 AlphaGo 就已经铺就。如今,在经历了 LLM 的喧嚣之后,我们才刚刚开始重新认识并回归这条正道。



2016 年 3 月,首尔。当李世乭在第四局下出“神之一手”(第 78 手),迫使 AlphaGo 投子认负时,全世界的围棋爱好者和科技观察者都松了一口气。人类的智慧,似乎在最后关头捍卫了尊严。这场 4:1 的比赛,尤其是第二局中那石破天惊的第 37 手,已经揭示了一个远比胜负更重要的事实:一个超越人类认知范式、具备“直觉”和“远见”的非人智能,诞生了。



十年过去,我们有了 ChatGPT,有了 Sora,AI 的能力边界似乎每天都在被刷新。但如果我们仔细聆听 Google DeepMind 最近关于 AlphaGo 十周年复盘访谈就会发现,今天所有关于 AI agent、科学发现、乃至超越人类知识边界的讨论,其思想内核与技术地基,都源于那块小小的围棋棋盘。

我们对 AlphaGo 的理解,大多还停留在“下棋很厉害的程序”这一浅层认知上,而它真正的遗产,才刚刚开始显现其颠覆性的力量。

要理解 AlphaGo 的颠覆性,必须将它与“深蓝”(Deep Blue)区分开来。1997 年,深蓝击败国际象棋世界冠军卡斯帕罗夫,靠的是强大的暴力计算。国际象棋的状态空间虽然巨大,但仍在当时超级计算机可处理的范围内。其核心是“搜索”,即尽可能多地推演未来的棋局变化。



而围棋,则完全是另一个维度的挑战。其状态空间达到了 10 的 170 次方,比宇宙中已知的原子总数还多。暴力搜索在这里毫无意义。人类顶尖棋手之所以强大,并非因为他们算得比别人多,而是因为他们有一种“棋感”或“直觉”,能够迅速判断棋盘上的优劣势,并从海量可能性中,凭直觉筛选出几个最有希望的落子点。

AlphaGo 的核心突破,正是成功地用机器模拟并超越了这种“直觉”。Thore Graepel 将其总结为“快思考”与“慢思考”的结合,这与人类的决策过程高度相似。

“快思考”来自于两个深度神经网络:

“慢思考”则是基于蒙特卡洛树搜索(MCTS)的“计算”。它在策略网络给出的几个候选点基础上,进行前瞻性推演,探索“如果我下这里,对手可能会如何应对,然后我又该如何……”的各种可能性。



所以,AlphaGo 不是用更强的计算能力去碾压人类,而是发明了一种机制,让机器学会了如何“聚焦”它的计算能力。策略网络和价值网络共同照亮了围棋那黑暗、广阔的搜索空间中最有希望的路径。Move 37 之所以让所有人类职业棋手震惊,因为它落在了一个人类直觉完全不会考虑的位置,但 AlphaGo 的“直觉”和后续的“计算”却证明了它是全局最优解。这标志着,机器的“直觉”已经探索到了人类知识体系之外的领域。

如果说 AlphaGo 证明了 AI 可以达到并超越人类顶尖水平,那么它的继任者 AlphaZero 则揭示了一个更令人震撼的可能性:AI 可以完全不依赖人类知识,从零开始,通过自我博弈,达到一个远超人类的全新境界。

AlphaGo 的初始版本,其策略网络是通过学习数百万局人类职业棋手的棋谱来训练的。它先是“模仿”人类,然后再通过自我对弈进行“强化”。而 AlphaZero 则完全抛弃了人类棋谱数据。它只被告知了围棋的基本规则,然后就开始了海量的自我对弈。



AlphaZero 的成长经历了一个过程:

AlphaZero 后期的棋风“看起来很陌生”。它的落子在当时看来可能毫无道理,但几十步之后,人们才恍然大悟,原来它在下一盘很大的棋,一切都已尽在掌握。

AlphaZero 的意义远超围棋本身,它在科学方法论上提供了一个全新的范式。它证明了,对于一个规则明确的复杂系统,一个智能体可以通过“自我生成数据”(self-play)和“强化学习”,独立发现该系统最优的运行策略,而无需任何人类先验知识的引导。

人类积累了数千年的知识,可能只是巨大“解空间”中的一个局部最优解。AI 有能力帮助我们找到那些隐藏在人类认知盲区中的、更优的全局解。

就在首尔比赛结束后,当团队成员还在收拾设备时,麦克风记录下了 DeepMind 创始人 Demis Hassabis 和 David Silver 的对话。Demis 说:“我们能解决蛋白质折叠问题了……我之前就觉得我们能行,但现在,我们肯定能行了。”

这并非一时兴起的豪言壮语。DeepMind 从一开始的终极目标就不是赢得棋类游戏,而是将从游戏中验证的这套“解决复杂搜索问题”的方法论,应用到真实的、更宏大的科学挑战中。Pushmeet Kohli 的加入以及他所领导的科学团队,正是这一愿景的执行者。

AlphaGo 的核心遗产,是将一个复杂问题“游戏化”的能力。

一个“游戏”具备几个要素:一个巨大的状态空间(所有可能的局面),一套明确的规则(如何从一个状态转移到另一个状态),以及一个清晰的目标(获胜)。科学发现中的许多“大挑战”同样可以被抽象为这样的“游戏”。

比如AlphaFold 与蛋白质折叠:



再比如AlphaTensor 与算法发现:

同样的,还有AlphaDev 与程序优化:



这解释了为什么 LLM 如此惊艳。它们本质上是对人类已有知识的压缩、重组和模仿。但这条捷径也带来了两个根本性的局限:

而 AlphaGo/AlphaZero 所代表的道路,虽然起步更难,但它直指问题的核心:如何在一个系统中生成真正的新知识?

这套范式包含两个关键环节,正如哲学家卡尔·波普的理论:“猜想与反驳”。

今天 AI 领域的前沿,正是这两条道路的融合。LLM 可以作为非常强大的“猜想”引擎,它能基于海量知识生成各种新颖的算法、分子结构、数学证明的思路。然后,再将这些“猜想”放入一个 AlphaGo 式的、具备严格验证环境的 agent 系统中去“反驳”和“筛选”。

例如,让 LLM 生成一段代码(猜想),然后在一个编译和测试环境中反复运行、修改,直到通过所有测试(反驳)。

这才是回归了那条由 AlphaGo 开辟的道路:构建一个目标导向的、能够在环境中自主探索和验证的智能体。

AlphaGo 带来的冲击,可以说是一个“哥白尼时刻”,动摇了“人类智慧是万物尺度”的信念。Move 37 和 AlphaZero 的出现,让我们第一次窥见,在人类知识的边界之外,存在着广阔的、非人类中心的智能形式。

十年后的今天,我们不必再为机器是否会下棋而焦虑。新的议题是:我们如何利用这种全新的发现工具,去解答那些最根本的科学问题?

在这个新时代,科学家和数学家的角色非但没有被削弱,反而变得更加重要。因为 AI agent 擅长的是在定义好的“游戏”中找到最优解,而“定义什么游戏值得玩”、“如何精确地设定游戏规则和目标”,则成为了人类智慧最核心的价值所在。

从 AlphaGo 到 AlphaFold,再到 AlphaTensor,DeepMind 的十年经历表明,AI 的最高价值不是模仿人类,而是与人类合作,扩展人类的认知边界。

AlphaGo 的十年,不是一个终点,而是一个真正的起点。它为我们提供了一把钥匙,用以开启那些因其巨大的复杂性而对人类关闭了数个世纪的知识大门。

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
海底捞男童烫伤后续,多位律师解读后观点一致,商家称拒绝和解

海底捞男童烫伤后续,多位律师解读后观点一致,商家称拒绝和解

呼呼历史论
2026-05-16 05:41:30
东契奇3年3次季后赛伤停,帕金斯:正滑向"恩比德陷阱"

东契奇3年3次季后赛伤停,帕金斯:正滑向"恩比德陷阱"

温柔且自由
2026-05-16 02:05:22
43岁未婚官宣二胎,网友傻眼了:姐你糊涂啊……

43岁未婚官宣二胎,网友傻眼了:姐你糊涂啊……

英国那些事儿
2026-05-14 23:32:24
英超冠军陨落!单赛季狂输12场+丢52球 创7大耻辱纪录 主帅仍嘴硬

英超冠军陨落!单赛季狂输12场+丢52球 创7大耻辱纪录 主帅仍嘴硬

我爱英超
2026-05-16 05:49:42
马苏:我与孔令辉同居多年后分手,如今都没结婚,却只能做朋友

马苏:我与孔令辉同居多年后分手,如今都没结婚,却只能做朋友

暖心萌阿菇凉
2026-05-15 05:50:31
“莫奈紫”变“摸奶子”,OPPO呼吸都是错的

“莫奈紫”变“摸奶子”,OPPO呼吸都是错的

梳子姐
2026-05-13 19:46:10
你的蓝牙耳机可能在“窃听”!国安部提醒涉密人员禁止使用,苹果、华为、小米、索尼等品牌客服回应

你的蓝牙耳机可能在“窃听”!国安部提醒涉密人员禁止使用,苹果、华为、小米、索尼等品牌客服回应

都市快报橙柿互动
2026-05-14 00:46:18
人活多久,看喝酒就知道?寿命短的人,喝酒一般有这6个特征

人活多久,看喝酒就知道?寿命短的人,喝酒一般有这6个特征

芹姐说生活
2026-05-14 23:38:55
方媛被骂上热搜,凌晨2点硬刚官方再引群嘲,上街生图像普通妇女

方媛被骂上热搜,凌晨2点硬刚官方再引群嘲,上街生图像普通妇女

情感大头说说
2026-05-15 18:25:17
遮天蔽日!森林狼整个系列赛在文班亚马防守下 全队82投28中

遮天蔽日!森林狼整个系列赛在文班亚马防守下 全队82投28中

北青网-北京青年报
2026-05-15 19:52:04
温岚败血性休克急送ICU! 吴宗宪闻讯哽咽祈祷:赶快好起来

温岚败血性休克急送ICU! 吴宗宪闻讯哽咽祈祷:赶快好起来

ETtoday星光云
2026-05-15 15:14:22
Bianca Censori透视装出街,搭配厚底靴与Kanye West约会

Bianca Censori透视装出街,搭配厚底靴与Kanye West约会

时光慢旅人
2026-05-16 01:55:30
顺义空港蓝星花园抢劫强奸杀人案

顺义空港蓝星花园抢劫强奸杀人案

何艾青
2026-05-15 11:16:06
稳就业、强培训、优服务——推进高质量充分就业见闻

稳就业、强培训、优服务——推进高质量充分就业见闻

新华社
2026-05-15 13:37:31
不能二次加热的6种食物!医生提醒:吃不完或倒掉,别乱节俭

不能二次加热的6种食物!医生提醒:吃不完或倒掉,别乱节俭

冷眼看世界728
2026-05-12 20:46:26
詹姆斯可能离开湖人!正与妻子展开紧张谈判,消息源称难以置信

詹姆斯可能离开湖人!正与妻子展开紧张谈判,消息源称难以置信

夜白侃球
2026-05-15 11:18:26
一婚娶演员,二婚娶主持,如今在江苏租房住,和四个娃过田园生活

一婚娶演员,二婚娶主持,如今在江苏租房住,和四个娃过田园生活

素衣读史
2026-05-11 20:56:03
王钰栋收到一份惊喜大礼,中超官方已第一时间确定,值得期待

王钰栋收到一份惊喜大礼,中超官方已第一时间确定,值得期待

懂个球
2026-05-15 23:59:33
男子谎称女儿患白血病骗取工友80多万元,甚至诱骗工友通过网络小贷、消费贷等方式筹钱出借,被判处有期徒刑10年6个月,并处罚金15万元

男子谎称女儿患白血病骗取工友80多万元,甚至诱骗工友通过网络小贷、消费贷等方式筹钱出借,被判处有期徒刑10年6个月,并处罚金15万元

大风新闻
2026-05-15 14:45:03
王少杰办理离职手续!

王少杰办理离职手续!

体育哲人
2026-05-15 18:14:42
2026-05-16 07:07:00
瑛派儿老黄 incentive-icons
瑛派儿老黄
分享日常的工作和生活,记录美好的瞬间。
2664文章数 111关注度
往期回顾 全部

科技要闻

直降千元起步!苹果华为率先开启618让利

头条要闻

黄仁勋在北京喝豆汁痛苦皱眉 问“这是什么东西”

头条要闻

黄仁勋在北京喝豆汁痛苦皱眉 问“这是什么东西”

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

腾讯掉队,马化腾戳破真相

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

教育
艺术
亲子
旅游
公开课

教育要闻

冯唐:请接受自己孩子是普通人

艺术要闻

让人拍案叫绝的图片

亲子要闻

孕妇补钙怕刺激怎么选?液体钙无添加配方实测,蓝帽认证更靠谱

旅游要闻

2026年“5·19中国旅游日”山东分会场活动即将启动,山东聊城送上文旅惠民大礼包,邀您乐享品质旅游,共赴美好山河!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版