原址:Documenting the AI Era: Volume 3 of AlphaGo to Zero Arrives - American Go Association
原题:Documenting the AI Era: Volume 3 of AlphaGo to Zero Arrives
摘自:The news of American Go Association
作者:Chris Garlock
随着备受期待的《AlphaGo to Zero》系列第三卷的发布,迈克尔·雷德蒙德和克里斯·加洛克继续着他们对这场彻底重塑围棋格局的人工智能革命的权威性记录。
![]()
图1 《AlphaGo to Zero》第3卷封面
初始版本的AlphaGo系统的核心架构包含四个协同工作的关键模块:
策略网络:该模块以当前棋盘状态作为输入,通过深度神经网络计算并输出下一步棋在各个合法位置的概率分布,从而提供候选落子方案。
快速推演:此部分功能与策略网络相似,旨在生成行棋序列,但采用简化的计算模型,以显著降低决策精度为代价,实现相比策略网络数千倍的速度提升,用于快速胜负模拟。
价值网络:此模块同样基于当前局面,利用神经网络直接评估双方胜率,输出一个介于-1到1之间的评价值,用于判断当前局面的优劣态势。
蒙特卡洛树搜索:作为系统的决策中枢,MCTS 框架将上述三个模块有机整合。它通过反复模拟对弈过程,综合策略网络的选点建议、价值网络的局面评估以及快速推演的终局胜率,以此进行自我博弈和策略优化,最终形成完整的决策系统。
此时的AlphaGo还不是纯粹的机器深度强化学习,要依靠大量学习人类棋谱。系统通过分析人类历史对弈数据来构建快速走子模型,并以此为基础对策略网络进行初步参数设置。随后,策略网络与估值网络通过持续不断的自我对弈进行协同训练和优化。
需要指出的是,估值网络并未直接采用人类棋谱作为训练样本。这是因为人类对局中时常存在较强的偶然性因素,局部阶段的优势未必能决定最终胜负,单一失误就可能导致全局结果逆转,使得棋谱数据中包含较多波折。
![]()
图2 Alphago学习棋谱的过程简图
在模型迭代过程中,每当产生一个新版本,系统会将其与当前保存的最佳版本进行多轮对抗。只有在新版本的胜率稳定超过55%时,才会替换原有版本。这一机制能够有效避免模型在自我博弈过程中陷入局部最优或产生策略退化,从而确保学习路径的稳定与进步。
但是仅仅一年之内,AlphaGO Zero就横空出世,AlphaGO Zero仅用36小时就超过了AlphaGo,并且占用的资源很少,只需要4个TPU。然后以100:0战胜了之前的AlphaGo。
![]()
图3 AlphaGo Zero和AlphaGo对比
《AlphaGo to Zero》第三卷,标题定为“杰作”,集中解读了DeepMind正式发布的50盘AlphaGo自我对弈棋谱。这些对局首次向世人展示,在脱离人类棋谱约束后,AlphaGo如何理解围棋。凭借更丰富的经验与更先进的人工智能分析工具,作者对这些棋局进行了重新审视与全新评注,清晰阐释了以往令人费解的内容:包括AlphaGo独特的开局意图、卓越的大局方向感与时机掌握、果断的侵入战术,以及精准的收官计算。
本书无意评判人类与人工智能的高下,而是致力于揭示这些棋步背后的取胜逻辑、其中蕴含的围棋理念,以及它们如何预示了AlphaGo Zero更为颠覆性的策略。借助棋谱图示、关键局部分析与深入浅出的解说,第三卷将这一系列传奇般的自我对局编织成一条连贯的叙事线,既展现了人机围棋对话的真正开端,也展望了这项运动未来的可能方向。
如今的围棋AI仍然在不断迭代,那怕是当今的最强AI距离真正的围棋之神还有相当长的距离。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.