网易首页 > 网易号 > 正文 申请入驻

ChatGPT核心基因源自40年前冷门研究?2024图灵奖得主揭秘AI为何学习“上瘾”

0
分享至

当AI像动物一样学会“趋利避害”,人类离通用智能还有多远?2024年图灵奖得主Richard SuttonAndrew Barto用40年冷门研究给出答案——他们从心理学中获得灵感,将“奖励机制”注入机器学习,开创强化学习(RL)新纪元。这项技术不仅让AlphaGo横扫围棋冠军、支撑ChatGPT进化,更意外破解了大脑多巴胺的运作密码:原来神经元和AI都在用“预测奖励”驱动学习!

从实验室无人问津到引领AI革命,他们的故事印证:真正的科学突破,始于对“无用之事”的执着。未来,当神经网络像社会般协作与博弈时,或许我们会发现,机器的“上瘾式学习”早已写进人类的生物基因。下一个AI奇迹,或许就藏在某个“不切实际”的坚持中。

请阅读这份与 Richard Sutton 和 Andrew Barto 相关的文章,洞悉强化学习(RL)这一人工智能关键领域的起源、发展及影响。

一份回报丰厚的工作

图灵奖得主 Richard Sutton 和 Andrew Barto 认为,强化学习将在通用人工智能领域发挥关键作用。

20世纪70年代中期,Richard Sutton 在斯坦福大学攻读本科时,一头扎进学校图书馆,试图阅读所有与学习和机器智能相关的书籍。然而,这些内容却让他大失所望,因为他觉得这些研究并未触及问题的核心。“大部分研究聚焦于模式识别,主要从实例中学习。但从心理学角度,我深知动物的学习方式截然不同,” Sutton说道,“动物是为了获取奖励而行动。”

在Sutton所阅读的文献中,唯有 A.Harry Klopf 的著作将奖励作为学习的重要组成部分。Klopf 是美国空军研究实验室从事机器智能研究的科学家,他坚信神经元如同“享乐主义者”,会主动追求奖励。Sutton给Klopf 写了一封信,之后两人相约共进午餐。1978年,Sutton从斯坦福大学心理学专业毕业,获得学士学位,随后便加入了马萨诸塞大学阿默斯特分校的一个研究项目,该项目旨在验证Klopf 的理论。

Sutton加入了Andrew Barto的研究团队。Barto是一名博士后研究员,早在一年前就已加入该团队。在美国空军和后来的美国国家科学基金会为期五年的资助下,研究团队无需承担具体的交付任务,只需提交一份报告。Barto和Sutton得以自由地开展研究,最终开创了现代强化学习(reinforcement learning,简称RL)领域。强化学习是人工智能(artificial intelligence,简称AI)领域的一项关键方法,它通过向神经网络提供奖励来训练它们,这与神经元在完成积极行为后获得的化学刺激颇为相似。得益于这项开创性工作,Barto和Sutton荣获了2024年ACM 图灵奖。

强化学习是助力谷歌深度神经网络AlphaGo在2016年击败人类围棋高手的关键技术,也是优化大型语言模型的重要手段,而大型语言模型正引领着生成式人工智能的变革。强化学习的原理在于,当神经网络达成目标(例如在国际象棋比赛中获胜)时,会获得一个数值奖励;若失败,则会获得一个负值。机器通过反复试验来学习,尝试不同的策略,并根据结果获得奖励或惩罚。

强化学习的概念与监督学习不同,监督学习依赖于带有标签的数据作为示例;强化学习也不同于无监督学习,无监督学习中,计算机试图从数据中提取有用特征以发现潜在结构。尽管这两种方法在计算领域都已展现出巨大价值,但它们并非生物大脑的学习方式。

Barto指出,在他和Sutton开始研究强化学习之前,强化学习便已存在。强化学习是人工智能先驱Marvin Minsky 1954年博士论文的主题,也是IBM计算机科学家Arthur Samuel训练计算机下跳棋时所采用的方法。然而,到了20世纪70年代,这一理念逐渐淡出人们的视野,大多数人工智能研究人员转而投身于专家系统的研究。Barto说:“我们很幸运,能够专注于当时并不热门的研究领域,如今它却变得炙手可热,这着实令人惊叹。”

这对搭档的一项关键创新是时间差分学习(Temporal-Difference Learning)。例如,当计算机学习下国际象棋时,如果仅以赢得比赛作为奖励,那么这对于判断单个棋步的好坏并无太大帮助。相反,计算机会尝试在每一步预测最终的奖励信号,并将这些预测结果作为奖励依据。如果走了一步棋后,获胜的概率有所增加,那么这就算是一个即时奖励。预测结果随时间的变化——即时间差分——为机器提供了强化信号。下一次计算机下棋时,就可以尝试与那些能够增加获胜预测概率的棋步相似的走法。

事实证明,时间差分学习不仅在人工智能领域具有广泛应用,还产生了深远影响。研究活体大脑多巴胺系统的神经科学家发现,多巴胺系统的运行机制与Barto和Sutton所描述的强化学习算法高度相似。他们发现,多巴胺是对预期结果的一种中间奖励信号,而非对实际结果的奖励。产生多巴胺的细胞会向大脑的其他区域发送信号,以强化有益行为。Sutton表示:“我认为,这种强化学习算法与生物多巴胺系统之间的直接类比,堪称工程学与生物学领域有史以来最为重要的互动之一。”

这两位学者开发了一系列强化学习算法,包括旨在找到达成目标最佳规则的策略梯度方法,以及用于估计可能结果的蒙特卡罗方法

Barto于1970年获得密歇根大学数学学士学位,1975年获得该校计算机科学博士学位。他最终成为马萨诸塞大学阿默斯特分校自适应网络实验室(现为自主学习实验室)的联合主任,自2012年退休以来,该实验室一直由他的前学生负责运营。

Sutton是Barto的首位博士生,于1984年获得博士学位。从马萨诸塞大学毕业后,Sutton加入GTE基础研究实验室,在那里工作了九年,专注于机器学习领域的研究。此后,他有一段时间自称是马萨诸塞大学的“无薪、兼职‘高级研究科学家’”,在此期间,他与Barto合著了第一版教材。之后,他加入AT&T香农实验室的人工智能部门。2003年,他成为阿尔伯塔大学教授,并创立了该校的强化学习和人工智能实验室。他同时还是阿尔伯塔机器智能研究所的首席科学顾问,该研究所是加拿大三大国家级人工智能研究所之一,Sutton表示,该研究所对他的获奖研究起到了至关重要的作用。此外,他还在人工智能初创公司Keen Technologies担任研究科学家。

Barto和Sutton于1998年合著了《强化学习导论》,这是该领域的主要教材,2018年又出版了扩展的第二版。两位学者表示,其他研究人员也对该领域的发展做出了重要贡献。“这并非我们两人的独创,”Barto说,“多年来,许多人在该领域的各个方面都做出了杰出贡献。我有许多非常优秀、聪明的学生,他们为整个研究框架的构建奠定了重要基础。”

学习者的社群

Barto预计,该领域最终将朝着多智能体强化学习的方向发展,即多个神经网络及其各自的奖励系统相互交互。这可能会导致合作局面的出现,即网络之间相互奖励,以鼓励朝着共同目标前进;但也可能引发不同网络因目标不同而产生的利益冲突。Barto表示,这种相互作用可能会对经济学和博弈论等复杂领域产生深远影响。

Sutton表示,人工智能的发展还有很长的路要走,包括实现通用人工智能,即机器能够像人类一样理解各种复杂信息。他说,强化学习将在这些发展中发挥至关重要的作用。

Barto给年轻计算机科学家的建议是,要像他和Sutton一样,追随自己的兴趣,不要在意领域内其他人的看法。“这确实充满挑战,但我认为你必须拥有自己的内在动力,去追求真正热爱的事物,并尽可能坚持下去,”他说。

Sutton则建议:“多写作,通过写作来梳理和挑战自己的想法。”

至于如何使用他们将共同获得的100万美元图灵奖奖金,两人都尚未做出明确决定。Sutton表示,他可能会将自己的奖金份额捐赠给他联合创办的开放心智研究所(Openmind Research Institute),该研究所旨在让年轻科学家能够像他和Barto当年一样,拥有探索基本问题的自由,无需承担额外的责任。Barto表示,他希望用自己分得的奖金资助马萨诸塞大学阿默斯特分校的研究生奖学金。

Sutton对计算机科学的未来充满信心。“人工智能将在未来几十年内取得重大突破,”他说,“这或许是人类历史上最伟大的智力进步之一。因此,能为此贡献一份力量,我深感荣幸。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
章泽天带女儿度假!请30万育儿师随行,刘强东7岁女儿侧颜曝光

章泽天带女儿度假!请30万育儿师随行,刘强东7岁女儿侧颜曝光

小椰的奶奶
2026-03-11 09:39:25
内蒙火锅店事件后续:黑料被扒是惯犯,威胁删视频,小伙拒绝和解

内蒙火锅店事件后续:黑料被扒是惯犯,威胁删视频,小伙拒绝和解

奇思妙想草叶君
2026-03-11 02:46:55
钱再多有什么用!郭富城称无法接受年过六旬,每天喝几十杯咖啡

钱再多有什么用!郭富城称无法接受年过六旬,每天喝几十杯咖啡

神秘莫测的世界
2026-03-11 07:50:46
千古仁君宋仁宗

千古仁君宋仁宗

尚曦读史
2024-10-06 07:39:06
历史上唯一被诛十族的人,七天七夜才诛完,“杠精”真是害人害己

历史上唯一被诛十族的人,七天七夜才诛完,“杠精”真是害人害己

铭记历史呀
2026-03-10 15:12:11
缩量上涨 明天会是黑周四吗

缩量上涨 明天会是黑周四吗

趋势巡航
2026-03-11 14:47:50
哎,十四亿人口大国居然输给中国台北省队,中国女足此前未输过

哎,十四亿人口大国居然输给中国台北省队,中国女足此前未输过

姜大叔侃球
2026-03-10 20:02:27
42岁刘翔近况曝光,长期在国外旅游,靠终身合同吸金,远离喷子!

42岁刘翔近况曝光,长期在国外旅游,靠终身合同吸金,远离喷子!

姩姩有娱
2025-11-10 17:49:18
苹果因“缺乏创新价值”否决翻盖式iPhone Fold方案,最终锁定书本式折叠设计

苹果因“缺乏创新价值”否决翻盖式iPhone Fold方案,最终锁定书本式折叠设计

环球网资讯
2026-03-11 12:22:06
杀光所有伊朗领导人!特朗普突然放狠话:不会留下任何人

杀光所有伊朗领导人!特朗普突然放狠话:不会留下任何人

大国之翼
2026-03-11 16:40:04
河北男子十年前购入限量黄金鸟巢,如今急售却无人问津

河北男子十年前购入限量黄金鸟巢,如今急售却无人问津

别人都叫我阿腈
2026-03-11 01:14:53
“见过抢米抢面,没见过抢塑料”,中东开战,东莞一个小镇大堵车!贸易商:泼天的富贵来了,干嘛不抓住?业内提醒:只是虚假繁荣

“见过抢米抢面,没见过抢塑料”,中东开战,东莞一个小镇大堵车!贸易商:泼天的富贵来了,干嘛不抓住?业内提醒:只是虚假繁荣

每日经济新闻
2026-03-10 21:06:07
最新研究:黄连素可预防肠息肉复发;即使停药6年后,复发风险仍降低42%,癌变风险降低25%!

最新研究:黄连素可预防肠息肉复发;即使停药6年后,复发风险仍降低42%,癌变风险降低25%!

消化石医生
2026-03-08 14:22:18
年轻人基本都不会花重金抢救脑梗的父母,住进了ICU也会很快拔管

年轻人基本都不会花重金抢救脑梗的父母,住进了ICU也会很快拔管

深度报
2026-03-10 22:51:03
天神下凡!24岁天才炸裂表演:独造3球,身价高达1.3亿欧元

天神下凡!24岁天才炸裂表演:独造3球,身价高达1.3亿欧元

足球狗说
2026-03-11 06:40:18
“内塔尼亚胡丧生”的消息,揭开了“正能量谣言”的内幕

“内塔尼亚胡丧生”的消息,揭开了“正能量谣言”的内幕

清书先生
2026-03-11 16:31:14
美媒评论东风5C导弹:恐怖!如果丢一枚到美国,会造成怎样的景象

美媒评论东风5C导弹:恐怖!如果丢一枚到美国,会造成怎样的景象

朝子亥
2026-03-10 19:15:03
伊朗德黑兰突降“黑雨”!有民众呼吸困难 喉咙刺痛

伊朗德黑兰突降“黑雨”!有民众呼吸困难 喉咙刺痛

闪电新闻
2026-03-10 19:30:10
砍70+有多难?NBA仅11人做到!现役6人,1人拿6次,三旬老汉仅1人

砍70+有多难?NBA仅11人做到!现役6人,1人拿6次,三旬老汉仅1人

毒舌NBA
2026-03-11 14:43:10
勇士加时惜败公牛:吉迪28次三双追平乔丹 布泽利斯41分生涯新高

勇士加时惜败公牛:吉迪28次三双追平乔丹 布泽利斯41分生涯新高

醉卧浮生
2026-03-11 12:43:53
2026-03-11 17:12:49
世界顶尖科学家论坛 incentive-icons
世界顶尖科学家论坛
科技,为了人类共同命运
1622文章数 2303关注度
往期回顾 全部

科技要闻

腾讯急了急了,微信绝密AI智能体首度曝光

头条要闻

博纳影业于冬被澳门永利追讨473万港元 起诉书披露

头条要闻

博纳影业于冬被澳门永利追讨473万港元 起诉书披露

体育要闻

郭艾伦重伤,CBA下半赛季还能期待些什么

娱乐要闻

杨幂连续五年为刘诗诗庆生,刘诗诗回应

财经要闻

油价大转头?一天,从末日到曙光!

汽车要闻

莲花纠偏, 冯擎峰的“收”与“守”

态度原创

时尚
教育
本地
旅游
军事航空

看来看去还是这些穿搭最高级,不老套、不死板,舒适又显气质

教育要闻

收藏!2026山东高考高考体检明白纸!提异议,重新体检!

本地新闻

这档韩国玄学综艺,让多少人看得头皮发麻

旅游要闻

“税动力”激活云南入境游发展新引擎

军事要闻

朝鲜"崔贤"号驱逐舰进行战略巡航导弹试射

无障碍浏览 进入关怀版