网易首页 > 网易号 > 正文 申请入驻

AlphaZero 完爆前辈 AlphaGo,这个人工智能新突破价值有多大?

0
分享至


强化学习有优势也有局限。

谷歌旗下人工智能公司 DeepMind 发布了一篇新论文,它讲述了团队如何利用 AlphaGo 的机器学习系统,构建了新的项目 AlphaZero。AlphaZero 使用了名为「强化学习」(reinforcement learning)的 AI 技术,它只使用了基本规则,没有人的经验,从零开始训练,横扫了棋类游戏 AI。

AlphaZero 首先征服了围棋,又完爆其他棋类游戏:相同条件下,该系统经过 8 个小时的训练,打败了第一个击败人类的 AI——李世石版 AlphaGo;经过 4 个小时的训练,打败了此前最强国际象棋 AI Stockfish,2 个小时打败了最强将棋(又称日本象棋)AI Elmo。连最强围棋 AlphaGo 也未能幸免,训练 34 个小时的 AlphaZero 胜过了训练 72 小时的 AlphaGo Zero。


图 | AlphaZero 视角下,在比赛中赢,平局或输的局数(来自 DeepMind 团队论文)

强化学习这么强大,它是什么?

知名 AI 博主 Adit Deshpande 来自加利福尼亚大学洛杉矶分校(UCLA),他曾在博客中发表过「深度学习研究评论」系列文章,解读了 AlphaGo 胜利背后的力量。他在文章中介绍到,机器学习领域可以分为三大类:监督学习、无监督学习和强化学习。强化学习可以在不同的情景或者环境下学习采取不同的行动,以此来获得最佳的效果。


图 | Adit Deshpande 的博客《Deep Learning Research Review Week 2: Reinforcement Learning》

我们想象一个小房间里的一个小机器人。我们没有编程这个机器人移动或走路或采取任何行动。它只是站在那里。我们希望它移动到房间的一个角落,走到那里会得到奖励分数,每走一步将会损失分数。我们希望机器人尽可能到达指定地点,机器人可以向东、南、西、北四个方向运动。机器人其实很简单,什么样的行为最有价值呢,当然是指定地点。为了获得最大的奖励,我们只能让机器人采用最大化价值的行动。


图 | Adit Deshpande 的博客《Deep Learning Research Review Week 2: Reinforcement Learning》

AlphaZero 完爆棋类游戏 AI,它的价值有多大?

AlphaGo Zero 是个突破性的进展,AlphaZero 也是吗?国外专家分析,后者在技术上有四点突破:

一、AlphaGo Zero 根据胜率进行优化,只考虑胜、负两种结果;而 AlphaZero 则是根据结果进行优化,考虑到了平局等可能。

二、AlphaGo Zero 会改变棋盘方向进行强化学习,而 AlphaZero 则不会。围棋的棋盘是堆成的,而国际象棋和将棋则不是,因此 AlphaZero 更通用。

三、AlphaGo Zero 会不断选择胜率最好的版本替换,而 AlphaZero 则只更新一个神经网络,减少了训练出不好结果的风险

四、AlphaGo Zero 中搜索部分的超参数是通过贝叶斯优化得到的,选取会对估计结果产生很大影响。而 AlphaZero 所有对弈都重复使用相同的超参数,因此无需针对游戏进行特定调整。

第四范式资深机器学习架构师涂威威告诉极客公园,AlphaZero 有突破也有局限:

一、DeepMind 这篇论文核心是证明了 AlphaGo Zero 策略在棋类问题上的通用性;在方法上并没有特别亮眼的地方。AlphaZero 其实是 AlphaGo Zero 策略从围棋往其他类似棋类游戏的拓展版,并战胜了基于其他技术的棋类游戏 AI,它们在此之前是最好的。

二、AlphaZero 也只是解决规则明确、完美信息博弈的类似棋类游戏的「通用」引擎,对于更复杂的其他问题,AlphaZero 依然会遇到困难。

此前,旷世科技孙剑解读 AlphaGo Zero 时曾表示,「强化学习就算可以扩展很多别的领域,用到真实世界中也没有那么容易。比如说强化学习可以用来研究新药品,新药品很多内部的结构需要通过搜索,搜索完以后制成药,再到真正怎么去检验这个药有效,这个闭环代价非常昂贵,非常慢,你很难像下围棋这么简单做出来。」

三、AlphaZero 也需要非常多的计算资源才能解决相对更为「简单」的棋类问题,成本非常高。据极客公园了解,DeepMind 在论文中称,他们使用了 5000 个第一代 TPU 生成自对弈棋谱,并用了 64 个第二代 TPU 来训练神经网络。此前有专家向某媒体表示,TPU 虽然性能很惊艳,但是成本也会很高,有某国际风投机构的投资人对此还发过朋友圈,其中的一句话就是:「这么贵的芯片,我也就是看看......」

四、目前的 AlphaZero 在围棋上离「围棋上帝」可能还有距离,赢了人不代表就是上帝,目前的网络结构、训练策略是不是最优的,其实还是值得进一步研究的。

虽然有一定的局限,但其应用场景值得深挖。在让机器学习更为通用的研究方向上,有很多其他研究领域值得关注,比如 AutoML、迁移学习等等。同时,如何进一步以更少的代价(计算代价、领域专家代价)获得更为通用的 AI 引擎,让 AI 在实际应用中产生更大的价值也是非常值得关注的。

滴滴出行就是一个特别的领域,据极客公园了解,滴滴在匹配司机和乘客的过程中,就使用了人工智能技术,从不合理的直线距离匹配(可能隔着河),到指派到乘客处用时最少的车,经历了很多技术优化。他们也遇到了问题,并为之努力:在训练人工智能系统时,可以使用 GPU 集群等技术,但当让司机和乘客匹配时,要求实时性,配置也会降低,因此如何保证准确,也是研究人员一直在探讨的问题。

但涂威威对 DeepMind 在「通用人工智能」方向上的努力表示肯定。


图 | 北大AI公开课《胡郁:人工智能+,共创新时代》

第四范式首席科学家、国际人工智能协会(IJCAI)主席、香港科技大学计算机系系主任的杨强教授曾提到,计算机真正可以思维的「强」人工智能(通用人工智能)其实是想实现「从 0 到 1」的突破,而目前包括工业界和计算机应用学科等领域,其实只是想让计算机的行为表现像智能一样,这可以称为「从1 到 N」。

但是,科学家们一直在不断探索通用人工智能。DeepMind 就是这方面的先行者之一,好像登山一样,只要一步步攀登,有一天人类必然登顶。

责任编辑:双筒猎枪

头图来源:视觉中国 ■

本文由极客公园原创

转载联系 zhuanzai@geekpark.net






责任编辑:王凤枝_NT2541

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国际足联赚得盆满钵满!

国际足联赚得盆满钵满!

体育哲人
2026-06-30 10:39:11
中亚最惨国家:93%国土是山,1千万人挤在7%土地,穷到靠打工活命

中亚最惨国家:93%国土是山,1千万人挤在7%土地,穷到靠打工活命

老达子
2026-06-30 06:25:03
Shams:小卡交易即将达成!最快明天!拒绝重建,快船追杰伦-布朗

Shams:小卡交易即将达成!最快明天!拒绝重建,快船追杰伦-布朗

Tracy的篮球博物馆
2026-06-30 10:57:50
加布:那脚传中是我在枪手常练的内容;球队今天表现值得肯定

加布:那脚传中是我在枪手常练的内容;球队今天表现值得肯定

懂球帝
2026-06-30 07:48:29
委内瑞拉震后仍有5万人失联,居民称实际死亡人数远超公布数字

委内瑞拉震后仍有5万人失联,居民称实际死亡人数远超公布数字

凤凰卫视
2026-06-29 15:51:21
精神小妹的生活原来是这样的!网友:终于知道她们为啥都这么瘦了

精神小妹的生活原来是这样的!网友:终于知道她们为啥都这么瘦了

深度报
2026-02-11 23:35:03
74个国家免签,唯独让中国交五倍签证费,选亚运会开幕前何意味?

74个国家免签,唯独让中国交五倍签证费,选亚运会开幕前何意味?

深析古今
2026-06-30 13:54:46
94岁原中央保健局局长王敏清:50年没感冒,无三高,靠的就是这几招

94岁原中央保健局局长王敏清:50年没感冒,无三高,靠的就是这几招

新浪财经
2026-06-24 02:28:33
浙江两地发布最新一批人事任免

浙江两地发布最新一批人事任免

浙江之声
2026-06-30 10:56:43
世界杯狼狈出局,队内将帅矛盾公开化,曾经的亚洲红魔已陷入危机

世界杯狼狈出局,队内将帅矛盾公开化,曾经的亚洲红魔已陷入危机

篮球圈里的那些事
2026-06-30 13:31:01
可控核聚变概念爆发 8股涨停

可控核聚变概念爆发 8股涨停

新浪财经
2026-06-30 07:05:31
画上句号!1换9交易!快船噩梦终于结束!

画上句号!1换9交易!快船噩梦终于结束!

篮球实录
2026-06-29 15:50:34
南极传来两个消息,科学家集体沉默:人类的努力,正在失去意义

南极传来两个消息,科学家集体沉默:人类的努力,正在失去意义

小豫讲故事
2026-06-29 06:00:19
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
温网大冷!首位大满贯冠军出局 郑钦文连续4年一轮游 王欣瑜晋级

温网大冷!首位大满贯冠军出局 郑钦文连续4年一轮游 王欣瑜晋级

侃球熊弟
2026-06-30 03:23:53
大坂直美无视温网规矩,穿纯白和服登场,被批“出丑”后打破沉默

大坂直美无视温网规矩,穿纯白和服登场,被批“出丑”后打破沉默

译言
2026-06-30 09:48:13
胡梅尔斯:德国成绩不佳必须有人负责,一些球员也应主动退出球队

胡梅尔斯:德国成绩不佳必须有人负责,一些球员也应主动退出球队

砚底沉香
2026-06-30 11:14:16
韩国,你这就太过火了

韩国,你这就太过火了

牛弹琴
2026-06-30 07:23:50
葡媒:淘汰赛可能是莫德里奇和C罗最后巅峰对决,魔笛从未赢过C罗

葡媒:淘汰赛可能是莫德里奇和C罗最后巅峰对决,魔笛从未赢过C罗

画夕
2026-06-30 14:53:04
拿下一个女人最快的方式:1个“多巴胺”公式,让她对你越陷越深

拿下一个女人最快的方式:1个“多巴胺”公式,让她对你越陷越深

荷兰豆爱健康
2026-06-28 18:05:24
2026-06-30 15:55:00
极客公园
极客公园
让最棒的创新成为头条
12210文章数 78911关注度
往期回顾 全部

头条要闻

网红养生烟含有害物 涉事企业负责人系襄阳市政协常委

头条要闻

网红养生烟含有害物 涉事企业负责人系襄阳市政协常委

体育要闻

大热倒灶压力给到法国 王楚揭法国队隐患

娱乐要闻

韩红称要退出公益,多位名人挽留

财经要闻

韩国万亿"芯"基建:存储能否成AI时代油田

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

汽车要闻

谁懂啊家人们!爹味和班味一点都没,这台底盘最硬国产大猎装太上头!

态度原创

数码
教育
旅游
手机
公开课

数码要闻

Omdia:2026年近眼显示市场回暖,AR眼镜出货量预计暴增154%

教育要闻

华坪女高2026高考成绩单:152名女孩全员上线,本科过线率达94.3%

旅游要闻

中国文旅看山西丨长治通天峡:虹梯古道相伴,书写山水人文新篇章

手机要闻

小米晚上有新机、vivo明天有新机、OPPO适配iPhone、荣耀有喜事

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版