ChatGPT核心基因源自40年前冷门研究？2024图灵奖得主揭秘AI为何学习“上瘾”|心理学|人工智能|神经网络

ChatGPT核心基因源自40年前冷门研究？2024图灵奖得主揭秘AI为何学习“上瘾”

分享至

当AI像动物一样学会“趋利避害”，人类离通用智能还有多远？2024年图灵奖得主Richard Sutton与Andrew Barto用40年冷门研究给出答案——他们从心理学中获得灵感，将“奖励机制”注入机器学习，开创强化学习（RL）新纪元。这项技术不仅让AlphaGo横扫围棋冠军、支撑ChatGPT进化，更意外破解了大脑多巴胺的运作密码：原来神经元和AI都在用“预测奖励”驱动学习！

从实验室无人问津到引领AI革命，他们的故事印证：真正的科学突破，始于对“无用之事”的执着。未来，当神经网络像社会般协作与博弈时，或许我们会发现，机器的“上瘾式学习”早已写进人类的生物基因。下一个AI奇迹，或许就藏在某个“不切实际”的坚持中。

请阅读这份与 Richard Sutton 和 Andrew Barto 相关的文章，洞悉强化学习（RL）这一人工智能关键领域的起源、发展及影响。

一份回报丰厚的工作

图灵奖得主 Richard Sutton 和 Andrew Barto 认为，强化学习将在通用人工智能领域发挥关键作用。

20世纪70年代中期，Richard Sutton 在斯坦福大学攻读本科时，一头扎进学校图书馆，试图阅读所有与学习和机器智能相关的书籍。然而，这些内容却让他大失所望，因为他觉得这些研究并未触及问题的核心。“大部分研究聚焦于模式识别，主要从实例中学习。但从心理学角度，我深知动物的学习方式截然不同，” Sutton说道，“动物是为了获取奖励而行动。”

在Sutton所阅读的文献中，唯有 A.Harry Klopf 的著作将奖励作为学习的重要组成部分。Klopf 是美国空军研究实验室从事机器智能研究的科学家，他坚信神经元如同“享乐主义者”，会主动追求奖励。Sutton给Klopf 写了一封信，之后两人相约共进午餐。1978年，Sutton从斯坦福大学心理学专业毕业，获得学士学位，随后便加入了马萨诸塞大学阿默斯特分校的一个研究项目，该项目旨在验证Klopf 的理论。

Sutton加入了Andrew Barto的研究团队。Barto是一名博士后研究员，早在一年前就已加入该团队。在美国空军和后来的美国国家科学基金会为期五年的资助下，研究团队无需承担具体的交付任务，只需提交一份报告。Barto和Sutton得以自由地开展研究，最终开创了现代强化学习（reinforcement learning，简称RL）领域。强化学习是人工智能（artificial intelligence，简称AI）领域的一项关键方法，它通过向神经网络提供奖励来训练它们，这与神经元在完成积极行为后获得的化学刺激颇为相似。得益于这项开创性工作，Barto和Sutton荣获了2024年ACM 图灵奖。

强化学习是助力谷歌深度神经网络AlphaGo在2016年击败人类围棋高手的关键技术，也是优化大型语言模型的重要手段，而大型语言模型正引领着生成式人工智能的变革。强化学习的原理在于，当神经网络达成目标（例如在国际象棋比赛中获胜）时，会获得一个数值奖励；若失败，则会获得一个负值。机器通过反复试验来学习，尝试不同的策略，并根据结果获得奖励或惩罚。

强化学习的概念与监督学习不同，监督学习依赖于带有标签的数据作为示例；强化学习也不同于无监督学习，无监督学习中，计算机试图从数据中提取有用特征以发现潜在结构。尽管这两种方法在计算领域都已展现出巨大价值，但它们并非生物大脑的学习方式。

Barto指出，在他和Sutton开始研究强化学习之前，强化学习便已存在。强化学习是人工智能先驱Marvin Minsky 1954年博士论文的主题，也是IBM计算机科学家Arthur Samuel训练计算机下跳棋时所采用的方法。然而，到了20世纪70年代，这一理念逐渐淡出人们的视野，大多数人工智能研究人员转而投身于专家系统的研究。Barto说：“我们很幸运，能够专注于当时并不热门的研究领域，如今它却变得炙手可热，这着实令人惊叹。”

这对搭档的一项关键创新是时间差分学习(Temporal-Difference Learning)。例如，当计算机学习下国际象棋时，如果仅以赢得比赛作为奖励，那么这对于判断单个棋步的好坏并无太大帮助。相反，计算机会尝试在每一步预测最终的奖励信号，并将这些预测结果作为奖励依据。如果走了一步棋后，获胜的概率有所增加，那么这就算是一个即时奖励。预测结果随时间的变化——即时间差分——为机器提供了强化信号。下一次计算机下棋时，就可以尝试与那些能够增加获胜预测概率的棋步相似的走法。

事实证明，时间差分学习不仅在人工智能领域具有广泛应用，还产生了深远影响。研究活体大脑多巴胺系统的神经科学家发现，多巴胺系统的运行机制与Barto和Sutton所描述的强化学习算法高度相似。他们发现，多巴胺是对预期结果的一种中间奖励信号，而非对实际结果的奖励。产生多巴胺的细胞会向大脑的其他区域发送信号，以强化有益行为。Sutton表示：“我认为，这种强化学习算法与生物多巴胺系统之间的直接类比，堪称工程学与生物学领域有史以来最为重要的互动之一。”

这两位学者开发了一系列强化学习算法，包括旨在找到达成目标最佳规则的策略梯度方法，以及用于估计可能结果的蒙特卡罗方法。

Barto于1970年获得密歇根大学数学学士学位，1975年获得该校计算机科学博士学位。他最终成为马萨诸塞大学阿默斯特分校自适应网络实验室（现为自主学习实验室）的联合主任，自2012年退休以来，该实验室一直由他的前学生负责运营。

Sutton是Barto的首位博士生，于1984年获得博士学位。从马萨诸塞大学毕业后，Sutton加入GTE基础研究实验室，在那里工作了九年，专注于机器学习领域的研究。此后，他有一段时间自称是马萨诸塞大学的“无薪、兼职‘高级研究科学家’”，在此期间，他与Barto合著了第一版教材。之后，他加入AT&T香农实验室的人工智能部门。2003年，他成为阿尔伯塔大学教授，并创立了该校的强化学习和人工智能实验室。他同时还是阿尔伯塔机器智能研究所的首席科学顾问，该研究所是加拿大三大国家级人工智能研究所之一，Sutton表示，该研究所对他的获奖研究起到了至关重要的作用。此外，他还在人工智能初创公司Keen Technologies担任研究科学家。

Barto和Sutton于1998年合著了《强化学习导论》，这是该领域的主要教材，2018年又出版了扩展的第二版。两位学者表示，其他研究人员也对该领域的发展做出了重要贡献。“这并非我们两人的独创，”Barto说，“多年来，许多人在该领域的各个方面都做出了杰出贡献。我有许多非常优秀、聪明的学生，他们为整个研究框架的构建奠定了重要基础。”

学习者的社群

Barto预计，该领域最终将朝着多智能体强化学习的方向发展，即多个神经网络及其各自的奖励系统相互交互。这可能会导致合作局面的出现，即网络之间相互奖励，以鼓励朝着共同目标前进；但也可能引发不同网络因目标不同而产生的利益冲突。Barto表示，这种相互作用可能会对经济学和博弈论等复杂领域产生深远影响。

Sutton表示，人工智能的发展还有很长的路要走，包括实现通用人工智能，即机器能够像人类一样理解各种复杂信息。他说，强化学习将在这些发展中发挥至关重要的作用。

Barto给年轻计算机科学家的建议是，要像他和Sutton一样，追随自己的兴趣，不要在意领域内其他人的看法。“这确实充满挑战，但我认为你必须拥有自己的内在动力，去追求真正热爱的事物，并尽可能坚持下去，”他说。

Sutton则建议：“多写作，通过写作来梳理和挑战自己的想法。”

至于如何使用他们将共同获得的100万美元图灵奖奖金，两人都尚未做出明确决定。Sutton表示，他可能会将自己的奖金份额捐赠给他联合创办的开放心智研究所（Openmind Research Institute），该研究所旨在让年轻科学家能够像他和Barto当年一样，拥有探索基本问题的自由，无需承担额外的责任。Barto表示，他希望用自己分得的奖金资助马萨诸塞大学阿默斯特分校的研究生奖学金。

Sutton对计算机科学的未来充满信心。“人工智能将在未来几十年内取得重大突破，”他说，“这或许是人类历史上最伟大的智力进步之一。因此，能为此贡献一份力量，我深感荣幸。”

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.