刘永谋：有益AI，能否解决超级AI的控制问题？| 读书|罗素|灭绝|有机体|人工智能

刘永谋：有益AI，能否解决超级AI的控制问题？| 读书

2025-09-15 18:00:57　来源: 科学的历程

湖北举报

分享至

*中国人民大学吴玉章讲席教授刘永谋首发于微信公众号，保留一切知识产权，侵犯必究。

罗素（Stuart Russel）是AI领域的大咖，他的《AI新生》一书提出一种控制AI的设想，即建构有益AI。该设想的核心是所谓有益机器原则：

1.机器的唯一目标是最大限度地实现人类的偏好。

2.机器最初不确定这些偏好是什么。

3.关于人类偏好的最终信息来源是人类行为。

显然，这是指导AI研发人员的原则，而不是输入AI的指令。该原则具有很强的工具主义色彩，即AI应该设计为实现人类偏好的机器，而TA自身是没有目标的。这一点我非常赞同，与有限AI的工具论主张是一致的。

与有限AI不同的是，罗素希望AI主动预测人的目标，又随时可以被关机。这里的危险在于：AI可能比人更知道自己的偏好，这有可能使得它的预测成为人类行动的“应然”，甚至TA可能诱导甚至操控人类行动。这就有走向AI实体论的味道了。

罗素也意识到类似想法存在巨大危险。于是，他用偏好替代目标概念。这就是上述三原则中没有目标而只有偏好的原因。

偏好是经济学和决策理论的基本术语——我博后做的是决策理论研究——衡量的是人在在几种选择或方案范围中的喜好程度，往往与经济利益、享乐消费相连。与偏好相连的术语是效用，它是偏好的数学测量。

大家都在讲AI价值对齐。技术人员说是偏好对齐和效用最大化，哲学家说的是人类目标与AI目标的一致，甚至是人类主流价值观指导AI的运算、输出和行动。这里面的差距有多大，大家可以研究一下。因此，我说过，目前的AI对齐问题日益演变成纯粹技术问题，与人文反思、伦理研究关系不大。

然而，这恰恰说明技术性的AI对齐——实际上是AI偏好对齐——是可行的、起作用的。不能说偏好对齐与价值对齐完全没有关系，起码在物质性的人类福祉目标上方向一致。反过来，罗素的有益AI与宏大的AI价值对齐理想天差地别。

按照罗素的想法，机器不应该没有目标，TA必须以人的目标为目标。这是我极为赞同的。我的质疑在于：

第一，偏好对齐根本谈不上控制了AI，而且随着超级AI的出现——我理解，罗素式工具性的超级AI主要是在预测和满足人类AI偏好的超凡能力上——实体性一面大大增强，免不了让AI预测的应然“覆盖”人类自主选择的结果。

第二，我怀疑人类有没有稳定的、一致的、可测量的偏好存在。即使有益AI目标并不高大上，但这个问题仍然无法解决。偏好比较有范围，不同范围数值会不一样。偏好主要处理有形的尤其是经济问题，对于精神问题无法解决，比如某人在唯物主义与唯心主义之间偏好不是偏好考虑的问题。

人的偏好是变化的，人与人也不一样。我甚至认为，人的目标在完全确定之前是不确定的，在完全确定之后可能不断变化。换言之，目标只有在“现在”才存在。

当然，我没有否认AI偏好预测在经济领域的应用。在我看来，罗素的理论主要关注的是AI在经济世界中运用。我觉得这应该还是会有成效。

因此，罗素支持超级AI的理由就是最常见的想法，即有了超级AI，人类可以拥有更伟大“也许更好”的文明，可以解决重大问题，如人类永生、超光速旅行、气候变化等。对此类观点，我的反驳是：第一，要与超级AI的毁灭性后果相比较。第二，基本上包括罗素在内没人否认这样的生存性风险。第三，罗素对更伟大文明的渴望，我不是很赞同，因为它可能并不美好。这样的文明比如三体文明。第四，没有超级AI，我们变得伟大会慢很多，但人类可以自己思考，而且不用担心被灭绝。

建设美好世界的路有千万条，不必选择迅速但极其危险的道路。

罗素的有益AI理论之下，暗含着他对智能的行为主义理解：

人类是智能的，因为我们的行动有望实现我们的目标。

机器是智能的，因为它们的行动有望实现它们的目标。

机器是有益的，因为它们的行动有望实现我们的目标。

按照这种理解，有智能不一定有意识、有自由意志。所有的生命体或有机体均有智能，只要它们能用行动实现自己的目标。这种目标不一定是在人类大脑中浮现的念头，也可能是一种本能，只要它能驱动有机体的刺激-反应行动。

这是典型的行为主义观点。人类的所谓目标，其实不是自由意志，而是更大的自然文化、社会环境和文化环境所演化塑成的无意识。最近有实验宣称，面对刺激人做出反应，比脑中产生念头要快，也就是行为在目标之前而不是之后。

按照这样的想法，僵尸、宠物乃至一切有生命的东西，都是智能体。于是，AI时代并非有些人说的双智社会，而是泛智社会。这样的图景其实是我所称的AI拟人论的世界，或者是“泛灵论的复兴”。

罗素的观点中，我最为赞同的是：

人工智能的历史一直被一句咒语所推动：“越智能越好。”我确信这是一个错误，不是因为我隐隐地害怕被人工智能取代，而是因为我们理解智能的方式有误。

我不知道“智能”应该如何正确理解，只觉得现在的理解有错。但是，我强烈赞同：为人类福祉计，机器用不着太聪明，我们需要的是能力强大的工具，而不是一个超越我们的智能体。

罗素没有说什么是“过于智能的AI”，只是说TA不好。他想在“过于”上玩一个骑墙。而我的有限AI直接反对超级AI的研发进路：AI发展的路有千万条，不必走这条危险的道路，然后为如何关机、隔绝盒中等问题绞尽脑汁。

从根本上说，我讨论的不是控制超级AI，而是控制人，尤其是控制从事有关研发工作的科技专家，让他们不要去走危险的路。我的想法最大的问题是过于理想主义，人类比超级AI的控制难度不会小。

实际上，我们能做的不是控制，而是社会文化的全面综合性引导。它很可能最终失败，但这并不妨碍我们在超级AI灭绝之前做西西弗斯式的尝试。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.