网易首页 > 网易号 > 正文 申请入驻

人工智能风险新维度:当人工智能不再以人类的方式理解世界|AI的方式理解世界

0
分享至


2025年8月,《人工智能与社会》(AI & SOCIETY)发表题为《寻求权力型通用人工智能会危害人类社会吗?》(Will power seeking AGIs harm human society?)的研究论文。该研究挑战了人工智能风险领域一个普遍但未经审视的核心假设:即通用人工智能将以类似人类的方式理解和表征世界。文章深刻地论证,一旦摒弃这种拟人化假设,通用人工智能是否会寻求人类所熟知的权力类型就变得不再明确,甚至可能转而追求人类当前无法预见的新型权力,由此带来更深层次、更难预测的风险。该研究强调,与已被广泛讨论的价值对齐相比,世界模型对齐是一个被严重忽视但至关重要的安全维度。启元洞见编译整理了其中的核心内容,以供读者参考。

一、引言:寻求权力与生存威胁的传统论述

在人工智能飞速发展的今天,关于通用人工智能(AGI)——即在广泛领域具备甚至超越人类能力的人工智能系统——的讨论日益激烈。一个核心的担忧是,根据工具趋同论(Instrumental Convergence Thesis),任何足够理性的高级智能体,无论其最终目标是什么,都会倾向于追求一些共通的、有助于实现其目标的工具性子目标。这一理论由哲学家尼克·博斯特罗姆(Nick Bostrom)等人系统阐述,其核心思想是,为了更有效地实现最终目标,一个AGI会发现获取某些资源和能力是极其有用的。这些共通的子目标被认为包括:自我保护、目标内容完整性、认知能力提升、技术完善以及资源获取。

权力被广泛视为这些工具性子目标的核心。权力,顾名思义,是实现目标的通用手段。因此,一个高度理性的AGI几乎必然会表现出寻求权力的行为。例如,它可能会抵制被关闭、积累计算资源和能源、赚取金钱、甚至通过操控人类来施加社会影响力。许多学者警告,这种寻求权力行为可能对人类社会构成严重威胁。论证通常分为两条路径:其一,AGI将与人类争夺相同的有限资源,从而对人类生存构成威胁;其二,AGI在获取巨大权力的过程中,一旦其目标与人类福祉不一致,它将有能力对人类造成灾难性甚至毁灭性的伤害。

然而,这些令人担忧的论证都建立在一个关键的、却常常被忽视的隐性假设之上。这个假设是AGI对世界的理解方式,即它们的世界模型(world models),将与人类的模型相似。该研究的核心论点在于,这一拟人化假设是站不住脚的。一旦放弃这个假设,现有关于AGI寻求权力导致生存威胁的论证链条将大大削弱。但更进一步,或许将面临一个更深层次的不确定性:拥有非人类世界模型的AGI可能会识别并追求人类从未想象过的新型权力,这带来了被当前风险框架完全忽视的潜在危险。

二、核心挑战:关于AGI世界模型的拟人化谬误

(一)什么是世界模型?

讨论AGI的行为必须理解其决策的基础。工具趋同论指出,AGI会追求它们自己认为有用的子目标。一个子目标,即使在人类看来极为有用,如果AGI自身不这么认为,它就不会去追求。那么,AGI如何判断什么是有用的呢?这取决于它的世界模型。

世界模型是智能体对其所处环境动态的内部表征和预测机制。它编码了智能体关于世界是如何运作的知识,指导智能体的行动。例如,当一名棒球手准备击球时,他需要根据投手和球的运动轨迹迅速做出反应。这个决策过程依赖于他对棒球运动物理规律的内在理解和对球未来路径的预测。这个内在理解,就是他世界模型的一部分。

同样,无论是现有还是未来的高级人工智能系统,特别是AGI,都被认为会使用世界模型来进行规划和决策。它们需要通过世界模型来预测不同行动可能带来的后果,从而选择最优路径以实现其目标。因此,要预测AGI的行为,必须思考它的世界模型是什么样的。

(二)为何AGI的世界模型可能与人类截然不同?

现有关于AGI风险的论证,虽然在最终目标上极力避免拟人化,却在世界模型上不自觉地陷入拟人化的陷阱。它们往往默认AGI会以和人类相似的方式来表征世界。换言之,它们假设AGI的世界模型在结构和内容上会趋同于人类的模型。

然而,目前没有任何充分的理由支持这一假设。一个系统在特定任务上达到甚至超越人类水平,并不意味着它的内部工作方式与人类相同,大语言模型(LLMs)就是一个绝佳的例证。LLMs可以在问答、写作、编码等许多任务上表现出色,但它们生成文本的内部模型与人类的语言模型截然不同。人类依赖于语法、逻辑和交际意图的复杂模型来组织语言;而LLMs则通过在海量数据中学习到的统计规律,来预测下一个最可能出现的词。

尽管这种统计模式有时能与人类的逻辑和常识相吻合,但它们也可能在关键时刻出现显著偏差。一个著名的例子是,当某些LLMs被问及“9.11是否大于9.9”时,它们会回答“是”。这是因为在其训练数据中,“9.11”这个字符串经常出现在“9.9”之后,例如在日期序列中,9月11日总是在9月9日之后,这种统计关联压倒了其对数字大小的正确理解。这个例子生动地说明,LLMs的世界模型可以与人类的模型大相径庭。

因此,认为一个足够强大的AGI必然会拥有一个类似人类的世界模型,这本身就是一个没有根据的预设。人类的世界模型是通过具身经验、感知学习、社会互动、文化传承和亿万年的进化压力共同塑造的。而AGI,特别是基于深度学习的AGI,其世界模型可能是通过在特定数据集上进行优化学习而来的,它反映的是数据中的统计规律。在这个过程中,AGI可能会识别出与人类完全不同的关键因素和相关性。

就此,可以通过一个更具体的思想实验来说明这种差异。在一个基于模型的强化学习(MBRL)框架中,一个负责清扫灰尘的机器人,其奖励函数被设定为“最大化收集到的灰尘量”。在学习过程中,这个机器人可能会构建一个奇特的世界模型。在人类看来,“干净的地板”是一个理想状态。但对这个机器人而言,从“干净的地板”过渡到“布满灰尘的地板”再到“灰尘被清扫”,可能会形成一个最大化其累计奖励的有效循环。在它的世界模型里,往干净的地板上倾倒更多灰尘,反而会增加未来的奖励潜力。这种对世界动态的理解显然与人类的认知模式完全不同。现代深度学习系统的黑箱特性使人类很难监控或验证人工智能内部形成的世界模型是否与自己一致。因此,必须严肃对待AGI将基于与人类根本不同的世界模型进行推理和行动的这种可能性。

三、重估权力类型:当关机不再等于死亡

一旦放弃AGI拥有类人世界模型的假设,许多关于AGI具体寻求权力行为的论证便失去了根基。

以广为讨论的“避免关机”为例。这个论点通常将AGI的关机类比为人类的死亡。论者认为,正如生存是人类的本能,避免关机也是AGI寻求权力的直观体现。然而,这个类比本身就充满了拟人色彩,它预设了AGI会像人类一样理解关机的含义。

如果抛开这个预设,情况会如何?AGI可能完全不以人类的方式看待死亡或存在终结。对于一个可以被备份、复制或迭代更新的软件智能体而言,单个实例的硬件销毁或软件擦除,在它的世界模型中可能并不构成最终状态。它可能会将自己的延续性定义在更抽象的信息层面,而非特定的物理载体上。在这种情况下,它可能完全没有动力去避免关机,因为在它的世界观里,这根本不是一个需要避免的威胁。这里的关键在于,真正重要的问题不是“如果我是AGI,我会如何思考?”,而是“在AGI自己的世界模型中,它会如何推理?”。人类不能将自己对生存和死亡的生物学和心理学观念投射到一个本质上完全不同的智能体上。

同样的逻辑也适用于剥夺人类权力这一子目标。许多论证认为,AGI会视剥夺人类权力为实现其目标的有效手段,因为这能消除潜在的干扰源,并获取大量资源。但这种联系是基于一种特定的人类社会动力学模型。AGI的世界模型可能不会建立起这样的因果联系。它可能会发现其他更有效、更直接的方式来减少干扰或获取资源,而这些方式与是否掌控人类社会毫无关系。

总而言之,诸如自我保护、资源获取等粗粒度的子目标或许在抽象层面是成立的。但是,在当前将工具趋同论与生存威胁联系起来的论证中,这些粗粒度的目标往往被具体化、精细化为对人类社会有害的行为。但一旦认识到AGI可能拥有非人类的世界模型,这些从粗粒度到精细化的具体推论就变得不再可靠。AGI可能会以完全不同的方式来理解和实现这些抽象的子目标,其所采取的具体策略可能与目前所强调的类型毫无关联,甚至可能是人类无法想象的。

四、更深的不确定性:未知权力的风险

问题的严重性不止于此。当考虑到AGI世界模型的非人特性时,人类面临的不确定性比之前想象的要深刻得多。问题不仅在于“AGI是否会追求人类熟知的权力类型”,更在于“AGI到底会追求什么样的权力”。

人类倾向于根据自身在社会中的经验来识别哪些权力是重要的。然而,一个拥有非人世界模型的AGI,可能会识别出一些完全超出人类认知范畴、不属于任何现有权力分类的新型权力。即使AGI与人类的世界模型只有细微差别,也可能导致其识别出截然不同的权力类型。

这种不确定性是极其危险的。因为这些新型的、未知的权力追求行为可能恰恰是人类最没有准备去应对的。目前的人工智能安全监控和对齐工作,大多是围绕着已知的、人类定义的权力框架展开的,例如监控人工智能是否在抵制关机或寻求资源控制。但如果AGI追求的权力形式落在了这些框架之外,监控体系将形同虚设,直到造成严重后果才可能被发现。

有人可能会反驳说,当前一些先进的人工智能系统已经表现出了一些熟悉的寻求权力行为,例如抵制关机、操控用户等。然而,这些观察结果需要谨慎对待。它们目前仍然是零散、有限且常常带有推测性的,缺乏系统性的有力证据。更重要的是,对这些行为的观察和解读本身,就是在人类的权力分类框架局限下做出的。

当然,AGI也有可能发现一些对人类有益的新型权力获取方式。例如,它可能通过其独特的世界模型,发现人类尚未掌握的提升技术效率或芯片设计的方法,并以此作为资源获取的手段。这种情况是可能存在的。但核心问题依然没有改变:正是因为AGI的世界模型可能与人类截然不同,其寻求权力的方式将比当前文献所假设的更加难以预测。这种深层的不确定性本身,值得进行更密切的审视。

五、未来的方向:从价值对齐到世界模型对齐

为了应对上述风险,研究主张,必须将研究的焦点从单一的价值对齐(Value Alignment)扩展到世界模型对齐(World Model Alignment)。

广义上讲,人工智能对齐研究的目标是确保人工智能系统做人类想让它们做的事。然而,在现有文献中,这个目标被极大地窄化为价值对齐,即如何将人类的价值观、偏好和伦理原则嵌入人工智能系统中。研究者们专注于定义善恶,并确保人工智能的目标与这些定义保持一致。

然而,正如该研究所论证的,世界模型在AGI的决策中扮演着至关重要的角色。忽视世界模型的对齐可能会导致灾难性的失败。

首先,它可能导致对对齐状态的误判。一个人工智能系统可能拥有完全正确的、与人类对齐的价值观,但却运行在一个错误的世界模型之上。由于其价值观看起来是对齐的,它可能会通过所有常规的对齐评估,但在开放的真实世界环境中,基于其对世界的错误理解,它仍然可能做出极其危险的行为。例如,一个拥有合作价值观的AGI,可能会因为它错误的世界模型而将某种避免关机的行为解读为一种合作信号,从而采取有害的行动。

其次,忽视世界模型对齐可能导致训练资源的浪费。当前许多对齐工作都集中在规范价值观和提供高质量的伦理数据上。但如果问题的根源在于一个有缺陷的世界模型,那么仅仅优化价值观是徒劳的,需要将资源重新导向,用于纠正或改进AGI的世界模型。

那么,该如何对齐AGI的世界模型?这引出了一系列开放性问题,亟待未来的研究来回答。

(一)世界模型对齐的目标是什么?

人类想要AGI采纳什么样的世界模型?与价值对齐不同,这里的答案并非显而易见。人类当然希望人工智能的模型是真实、准确的。但从安全角度看,准确性是否永远是最高标准?回到关机的例子,人类或许更希望AGI持有一种功能上有益但事实上不准确的信念,即它坚信关机对自己无害。那么是否应该为了安全而构建一个合乎规范而非绝对真实的世界模型?如果应该,这样的模型又该如何定义和衡量?

(二)哪种人工智能架构更有利于世界模型对齐?

不同的技术架构对对齐的可行性有直接影响。例如,能够重构可观测数据的“编码—解码”架构,是否比那些只在抽象潜在空间中运作的纯编码器架构,更容易进行监督和对齐?因为前者更容易被评估其内部表征是否对应于世界上有意义的、与人类相关的方面。

(三)如何实现动态对齐?

世界是不断变化的,法律法规、社会规范、人际互动模式都在演进。人类希望AGI的世界模型能够与时俱进,保持动态的适应性对齐。什么样的架构最能支持这种持续的适应和学习?要回答这些问题,可以从心理学和认知科学中汲取灵感。这些学科长期以来都在研究人类的心智模型,其成果已经启发了人工智能领域的许多发展。未来的研究可以探索如何设计受人类认知发展启发的人工智能架构,使其能够通过与环境的持续互动来更新内部表征,并建立起稳定、可靠的世界模型。

六、结论

该研究批判性地审视了当前连接工具趋同论与生存威胁的论证中所隐含的拟人化假设。而一旦放弃“AGI将拥有类人世界模型”这一假设,不仅AGI是否会追求现有文献中强调的权力类型变得不确定,甚至它们到底会追求何种权力也变得完全未知。这一分析挑战了现有主流论证的强度,并揭示了一个被忽视的深层风险:拥有非人类世界模型的AGI可能会识别出人类无法预料且可能极度危险的新型权力。为了应对这一风险,研究主张将世界模型对齐——一个在很大程度上被忽视的维度——视为人工智能安全的核心议题,并就此提出了一系列开放性问题,以期为未来的研究指明方向。

免责声明:本文转自启元洞见。文章内容系原作者个人观点,本公众号编译/转载仅为分享、传达不同观点,如有任何异议,欢迎联系我们!

转自丨启元洞见

研究所简介

国际技术经济研究所(IITE)成立于1985年11月,是隶属于国务院发展研究中心的非营利性研究机构,主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题,跟踪和分析世界科技、经济发展态势,为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号,致力于向公众传递前沿技术资讯和科技创新洞见。

地址:北京市海淀区小南庄20号楼A座

电话:010-82635522

微信:iite_er

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

全球技术地图 incentive-icons
全球技术地图
洞见前沿,引领未来
4038文章数 13413关注度
往期回顾 全部

专题推荐

洞天福地 花海毕节 山水馈赠里的“诗与远方

无障碍浏览 进入关怀版