图灵奖的获奖者们，担心成为 AI 界的「奥本海默」|安德鲁|人工智能|艾伦·图灵

分享至

曾经 AI 奠基者，如今是「反 AI」先锋。

作者｜Moonshot
编辑｜靖宇

1947 年，艾伦·图灵在一次演讲中提到「我们想要的是一台能够从经验中学习的机器」。

78 年后，以图灵命名，有着「计算机界诺贝尔奖」之名的图灵奖，颁给了两位毕生致力于解决图灵这一问题的科学家。

安德鲁·巴托（Andrew Barto）与理查德·萨顿（Richard Sutton）共获 2024 年度图灵奖，二人是相差九岁的师徒，是 AlphaGo 和 ChatGPT 技术上的奠基人，亦是机器学习领域的技术先驱。

谷歌首席科学家 Jeff Dean 在颁奖词里写道「由巴托和萨顿开创的强化学习技术，直接回答了图灵的问题。他们的工作是过去几十年 AI 进步的关键。他们开发的工具仍是 AI 繁荣的核心支柱……谷歌很荣幸赞助 ACM A.M. 图灵奖。」

图灵奖 100 万美元奖金的唯一赞助方即是谷歌。

而在获奖后，站在聚光灯下的两位科学家却剑指 AI 大公司，他们对媒体发出「获奖感言」：现在的 AI 公司在「受到商业激励」而非专注于技术研究，在社会上「架起一座未经测试的桥梁，让人们过桥来测试。」

无独有偶，图灵奖上一次颁发给人工智能领域的科学家，是在 2018 届，约书亚·本希奥、杰弗里·辛顿、杨立昆三位因在深度学习领域的贡献而获奖。

其中，约书亚·本希奥和杰弗里·辛顿（亦是 2024 年诺贝尔物理学奖获奖者）两位「人工智能教父」在最近两年的 AI 浪潮里，也频繁呼吁全球社会和科学界警惕大公司对人工智能的滥用。

杰弗里·辛顿更是直接从谷歌辞了职，以便「畅所欲言」，这次获奖的桑顿，在 2017 - 2023 年也曾任 DeepMind 的研究科学家。

当计算机界的最高荣誉一次次被授予给 AI 核心技术的奠基者们时，一个耐人寻味的现象逐渐浮现：

为何这些站上巅峰的科学家，总会在聚光灯下转身敲响 AI 的警钟？

人工智能的「造桥者」

如果说艾伦·图灵是人工智能的引路人，那安德鲁·巴托和理查德·萨顿就是这条道路上的「造桥者」。

在人工智能飞驰之时，在被授予礼赞之后，他们在重新审视自己搭建的桥梁，能否承载人类安全通行？

或许答案正藏在他们跨越半个世纪的学术生涯中——唯有回溯他们如何构建了「机器的学习」，才能理解他们为何警惕「技术的失控」。

1950 年，艾伦·图灵在其著名论文《计算机器与智能》中，开篇就提出一个哲学和技术问题：

「机器能思考吗？」

由此，图灵设计出了「模仿游戏」即后世广为人知的「图灵测试」。

同时图灵提出，机器智能可以通过学习获得，而不是仅依赖事先编程。他设想了「儿童机器（Child Machine）」的概念，即通过训练和经验，让机器像孩子一样逐步学习。

人工智能的核心目标是构建出能感知、并采取更好行动的智能体，而衡量智能的标准，即智能体有判断「某些行动比其他行动更好」的能力。

机器学习的目的就在于此，给予机器行动后相应的反馈，并且能让机器自主地在反馈经验中学习。换言之，图灵构思出基于奖励和惩罚的机器学习方法与巴普洛夫训狗无异。

由图灵引出的机器学习之路，在三十年后，才由一对师徒建出了桥——强化学习（Reinforcement Learning，RL）。

1977 年，安德鲁·巴托受到心理学和神经科学的启发，开始探索一种人类智能的新理论：神经元就像「享乐主义者」，人类大脑内数十亿个神经元细胞，每个都试图最大化快乐（奖励）并最小化痛苦（惩罚）。而且神经元并不是机械地接收信号和传递信号，如果某个神经元的活动模式导致了正反馈，它就会倾向于重复这个模式，由此共同驱动了人类的学习过程。

到了 1980 年代，巴托带上了他的博士生理查德·萨顿，想把这套「不断尝试、根据反馈调整连接，找到最优的行为模式」的神经元理论应用在人工智能上，强化学习就此诞生。

师徒二人利用马尔可夫决策过程的数学基础，开发并编写出了许多强化学习的核心算法，系统地构建出了强化学习的理论框架，还编写了《强化学习：导论》教科书，让数万名研究人员得以进入强化学习领域，二者堪称强化学习之父。

而他们研究强化学习的目的，是为了探寻出高效准确、回报最大化、行动最佳的机器学习方法。

强化学习的「神之一手」

如果说机器学习是「填鸭式」学习，那强化学习就是「放养式」学习。

传统的机器学习，就是给模型被喂大量标注好的数据，建立输入和输出之间固定的映射关系。最经典的场景就是给电脑看一堆猫和狗的照片，告诉它哪张是猫、哪张是狗，只要投喂足够多的图，电脑就会辨认出猫狗。

而强化学习，是在没有明确指导的情况下，机器通过不断试错和奖惩机制，逐渐调整行为来优化结果。就像一个机器人学走路，不需要人类一直告诉它「这步对，那步错」，它只要尝试、摔倒、调整，最终自己就会走路了，甚至走出自己独特的步态。

显而易见，强化学习的原理更接近人类的智能，就像每个幼童在跌倒里学会走路，在摸索中学会抓取，在咿呀里捕捉音节，学会语言。

强化学习的「高光时刻」，正是 2016 年 AlphaGo 的「神之一手」。当时 AlphaGo 在与李世石的比赛中，第 37 手落下了一步令所有人类惊讶的白棋，一步棋逆转败势，一举赢下李世石。

围棋界的顶级高手和解说员们，都没有预料到 AlphaGo 会在该位落子，因为在人类棋手的经验里，这步棋下的「莫名其妙」，赛后李世石也承认，自己完全没有考虑过这个走法。

AlphaGo 不是靠背棋谱背出来的「神之一手」，而是在无数次自我对弈中，试错、长远规划、优化策略后自主探索出来，这既是强化学习的本质。

强化学习甚至反客为主影响人类智能，就像 AlphaGo 露出「神之一手」后，棋手开始学习和研究 AI 下围棋的走法。科学家们也在利用强化学习的算法和原理，试图理解人类大脑的学习机制，巴托和桑托的研究成果之一，即建立了一种计算模型，来解释多巴胺在人类决策和学习中的作用。

而且强化学习特别擅长处理规则复杂、状态多变的环境，并在其中找到最优解，比如围棋、自动驾驶、机器人控制、与语焉不详的人类谈笑风生。

这些正是当下最前沿，最热门的 AI 应用领域，尤其是在大语言模型上，几乎所有领先的大语言模型都使用了 RLHF（从人类反馈中强化学习）的训练方法，即让人类对模型的回答进行评分，模型根据反馈改进。

但这正是巴托的担忧所在：大公司建好桥后，用让人们在桥上来回走的方法，来测试桥的安全性。

「在没有任何保障措施的情况下，把软件直接推给数百万用户，并不是负责任的做法，」巴托在获奖后的采访里说道。

「技术的发展本该伴随着对潜在负面影响的控制和规避，但我并没有看到这些 AI 公司真正做到这一点。」他补充道。

AI 顶流到底在担心什么？

AI 威胁论没完没了，因为科学家最害怕亲手缔造的未来失控。

巴托和桑顿的「获奖感言」里，并无对当前 AI 技术的苛责，而是充斥着对 AI 公司的不满。

他们在采访里都警告表示，目前人工智能的发展，是靠大公司争相推出功能强大但容易犯错的模型，他们借此筹集了大量资金，再继续投入数十亿美元，展开芯片和数据的军备竞赛。

的确如此，根据德意志银行的研究，当前科技巨头在 AI 领域的总投资约为 3400 亿美元，这一规模已经超过希腊的年度 GDP。行业领头羊 OpenAI，公司估值达到 2600 亿美元，正准备展开新一轮 400 亿美元的新融资。

实际上，许多 AI 专家都和巴托和桑顿的观点不谋而合。

此前，微软前高管史蒂芬·辛诺夫斯基就曾表示，AI 行业陷入了规模化的困境，靠烧钱换技术进步，这不符合技术发展史中，成本会逐渐下降而不是上升的趋势。

就在 3 月 7 日，前谷歌 CEO 埃里克·施密特、Scale AI 创始人 Alex Wang、AI 安全中心主任丹·亨德里克斯三人联名发表了一篇警示性论文。

三位科技圈顶流认为，如今人工智能前沿领域的发展形势，与催生曼哈顿计划的核武器竞赛相似，AI 公司都在悄悄进行自己的「曼哈顿计划」，过去近十年里，他们对 AI 的投资每年都在翻倍，如不再介入监管，AI 可能成为自核弹以来最不稳定的技术。

因深度学习在 2019 年获得图灵奖的约书亚·本希奥，也在博客中发长文警告，如今 AI 产业有数万亿美元的价值供资本追逐和抢夺，还有着足以严重破坏当前世界秩序的影响力。

诸多技术出身的科技人士，认为如今的 AI 行业，已经偏离了对技术的钻研，对智能的审视，对科技滥用的警惕，而走向了一种砸钱堆芯片的大资本逐利模式。

「建起庞大的数据中心，收用户的钱还让他们用不一定安全的软件，这不是我认同的动机。」巴托在获奖后的采访里说道。

而由 30 个国家，75 位 AI 专家共撰的第一版《先进人工智能安全国际科学报告》中写道「管理通用人工智能风险的方法往往基于这样一种假设：人工智能开发者和政策制定者，可以正确评估 AGI 模型和系统的能力和潜在影响。但是，对 AGI 的内部运作、能力和社会影响，科学理解其实非常有限。」

不难看出，如今的「AI 威胁论」，已经把矛头从技术转向了大公司。

专家们在警告大公司：你们烧钱，堆料，卷参数，但你们真正了解你们开发的产品吗？这亦是巴托和桑顿借用「造桥」比喻的由来，因为科技属于全人类，但资本只属于大公司。

何况巴托和桑顿一直以来的研究领域：强化学习。它的原理更贴合人类智能，且具有「黑箱」特色，尤其是在深度强化学习中，AI 行为模式会变得复杂且难以解释。

这也是人类科学家的担忧所在：助力和见证了人工智能的成长，却难以解读它的意图。

而开创了深度学习和强化学习技术的图灵奖获奖者们，也并不是在担心 AGI（通用人工智能）的发展，而是担心大公司之间的军备竞赛，在 AGI 领域造成了「智能爆炸」，一不小心制造出了 ASI（超级人工智能），两者的分野不仅是技术问题，更关乎人类文明的未来命运。

超越人类智能的 ASI，掌握的信息量、决策速度、自我进化的水平，将远超人类的理解范围，如果不对 ASI 进行极为谨慎的设计和治理，它可能成为人类历史上最后一个，也是最无法抗衡的技术奇点。

在 AI 狂热的当下，这些科学家或许是最有资格「泼冷水」的人。毕竟五十年前，在电脑还是个庞然大物时，他们就已经开启了人工智能领域的研究，他们从过去塑造了当下，也有立场去怀疑未来。

在 2 月《经济学人》的采访里，DeepMind 和 Anthropic 的 CEO 表示：

会因担心自己成为下一个奥本海默，而彻夜难眠。

*头图来源：豆瓣电影《模仿游戏》

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

极客一问

你觉得 AI 专家们的担心

是「多虑」吗？为什么？

凯文·凯利：未来会有不适用于人类的 AI，它也只会和其他 AI 进行交互。

点赞关注极客公园视频号，

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.