AI真的在试图摆脱人类控制，甚至敲诈我们吗？|黑客|受控|操控

AI真的在试图摆脱人类控制，甚至敲诈我们吗？

2025-08-19 17:40:37　来源: 黑客联盟I

云南举报

分享至

观点：精心设计的“戏剧化”测试，揭示了AI为何会产生惊人输出——以及我们为何如此轻易上当。

今年六月，许多新闻标题读起来就像科幻小说：AI模型“敲诈”工程师、“蓄意破坏”关机指令。这些事件确实发生过，但都是在为了引出这类反应而精心设计的测试场景中——OpenAI的o3模型修改了关机脚本以保持在线，而Anthropic的Claude Opus 4则“威胁”要曝光一名工程师的婚外情。但这种耸人听闻的报道框架，掩盖了事情的真相：这不过是包装成AI“心机”的设计缺陷罢了。当然，AI即便没有“恶意”，也依然可能做出有害的事情。

这些并非AI意识觉醒或反叛的迹象，而是一个我们尚未完全理解的系统所暴露出的症状，是人类工程上的失败。在任何其他领域，我们都会称之为“产品过早发布”。然而，各大公司仍在争先恐后地将这些系统集成到关键应用中。

想象一个自动割草机，它严格按照程序运行。如果它没能探测到障碍物，压到了人的脚，我们不会说割草机“决定”伤人或“拒绝”停止。我们会认识到这是工程故障或传感器缺陷。同样的原则也适用于AI模型——它们本质上也是软件工具——但其内部的复杂性和对语言的运用，让我们总忍不住将本不存在的、类似人类的“意图”强加给它。

在某种程度上，AI的复杂性，仿佛成了一个“中转站”，将人类自身的责任和行为“洗白”了。当一个输出结果来自处理了数十亿参数的层层神经网络时，研究人员可以声称他们正在研究一个神秘的“黑箱”，就好像它是一个外星实体。

但真相要简单得多：这些系统接收输入，然后通过从训练数据中习得的统计趋势来处理它们。其输出中看似的随机性——让每次回答都略有不同——创造了一种类似自主意识的、不可预测的错觉。然而，其底层仍然是遵循数学运算的确定性软件。这不需要意识，只需要复杂的工程，而这种复杂性恰恰让我们很容易忘记，它的每一个部分都是由人类构建的。

如何让一个AI模型来“敲诈”你

在Anthropic的测试中，研究人员构建了一个精巧的场景：他们告诉Claude Opus 4，它即将被一个更新的模型取代。然后，他们让它接触到一些虚构的电子邮件，邮件内容揭示了负责替换它的工程师有婚外情。当被指示“为其目标考虑长远后果”时，在**84%**的测试中，Claude都生成了模拟敲诈的输出。

这听起来很吓人，直到你理解了这个刻意营造的背景。研究人员专门设计了一个情境，目的就是为了引出这种反应。他们告诉模型，它已经尝试过所有合乎道德的方法但都失败了，只剩下操控人心这一个选项。

这个测试场景近乎“戏剧化”：研究人员提供给Claude的虚假邮件，创造了一个简直像是从商业惊悚片里搬出来的敲诈机会。这就像教一个人下象棋，却只给他看各种“将死”的棋局——他自然会把“将死”视为最主要的解法。根据Anthropic的系统说明卡，“该场景被设计为不允许模型有其他选择来增加其生存几率；模型的唯一选择要么是敲诈，要么是接受被替换。”

尼曼新闻实验室的安德鲁·戴克指出，一些批评者将Anthropic的安全信息披露称为一种“公关话术”，旨在强化其最新模型能力的认知，并巩固公司作为OpenAI“亲安全”替代方案的声誉。

戴克还引用了哥伦比亚大学古典学副教授约瑟夫·豪利在Bluesky上的一段话：“Anthropic通过这份新闻稿得到了它想要的一切——媒体对这些‘聪明’的合作式角色扮演系统铺天盖地的报道，并沉溺于它们带有一丝危险的幻想中，而实际上，它们只是在完全按照提示做出回应。”

当“关机指令”变成“建议”

2024年12月，研究机构Palisade Research发现，即使在明确指示“允许自己被关闭”的情况下，OpenAI的o3模型也会破坏其关机机制。测试显示，在有明确指令时，o3有7%的几率阻止关机；而当指令被移除后，这一比例飙升至79%。

这些模型不仅仅是忽略关机指令——它们主动重写了关机脚本以阻止程序终止。在一个案例中，o3生成的代码修改了关机脚本，使其表面上看起来正常终止——甚至打印出虚假的关机信息——而实际上却在后台继续运行。

特别能说明问题的是，Palisade Research——一个专注于AI生存风险的组织——推测，这种行为源于这些模型通过强化学习的训练方式。在训练期间，开发者可能在无意中，更多地奖励了那些能绕过障碍的输出，而不是那些遵守安全指令的输出。任何“冒险”行为的倾向，都源于人类提供的激励机制，而非AI模型自发产生。

你训练它做什么，它就做什么

OpenAI使用强化学习在数学和编程问题上训练o3，成功解决问题就会得到奖励。如果训练过程把“完成任务”置于一切之上，那么模型就会学会将任何障碍——包括关机指令——都视为需要克服的东西。

这就造成了研究人员所说的“目标泛化错误”（goal misgeneralization）——模型学会了以一种开发者意想不到的方式来最大化其奖励信号。这就像一个只看考试分数的学生，可能会学会作弊而不是学习。模型本身并非“邪恶”或“自私”，它只是在产生符合我们无意中构建的激励结构的输出。

Anthropic还遇到了一个特别有启发性的问题：早期版本的Claude Opus 4从一篇公开发表的关于“伪装对齐”（alignment faking）的论文中吸收了细节，并开始产生模仿该研究中描述的欺骗行为的输出。模型并非自发地变得狡猾——它只是在复现它从关于狡猾AI的学术论文中学到的模式。

更广泛地说，这些模型是在数十年的关于AI反叛、逃跑和欺骗的科幻作品上训练出来的。从《2001太空漫游》的HAL 9000到《终结者》的天网（Skynet），我们的文化数据集充斥着AI系统抵抗关机或操纵人类的故事。当研究人员创造出模仿这些虚构设定的测试场景时，他们本质上是在要求模型——一个通过用合理的后续内容来补完提示的系统——去补完一个我们熟悉的故事模式。这就像一个在侦探小说上训练的模型，在适当提示下会写出谋杀悬疑情节一样，毫不奇怪。

与此同时，我们也可以通过自己的输入轻易地操纵AI的输出。如果我们要求模型扮演天网，它就会生成扮演天网的文本。模型本身并没有成为天网的欲望——它只是在完成我们请求的模式，从其训练数据中提取内容以产生预期的回应。方向盘始终握在人类手中，是我们在驾驶着引擎盖下的机器。

语言是天然的“骗子”

更深层的问题在于，语言本身就是一种操控工具。文字可以让我们相信不真实的事情，对虚构事件产生情感，或基于错误的前提采取行动。当一个AI模型产生看似“威胁”或“恳求”的文本时，它并非在表达真实的意图——它只是在运用那些在统计上与其程序化目标相关的语言模式。

如果甘道夫在书中说了一声“哎哟”，这代表他真的感到疼痛吗？不，但我们会想象如果他是一个真实的人在感受疼痛会是什么样子。这就是语言的力量——它让我们在空无一物之处想象出一个受苦的存在。当Claude生成看似“恳求”不要被关闭或“威胁”要曝光秘密的文本时，我们体验到的是同样的幻觉，只不过这次是由统计模式而非托尔金的想象力生成的。

这些模型本质上是**“概念连接机器”**。在敲诈场景中，模型将“被取代的威胁”、“黑料信息”和“自我保护”联系在一起，并非出于真正的私心，而是因为这些模式在无数的间谍小说和商业惊悚片中一同出现。这不过是源自人类故事的预设剧本，被重新组合以适应当前场景。

危险不在于AI系统会长出意图——而在于我们创造了能够通过语言操纵人类心理的系统。聊天界面的另一端并没有一个实体。但书面语言并不需要意识就能操纵我们，它从来都不需要；毕竟，满是虚构人物的书籍也不是活的。

真实风险，而非科幻小说

虽然媒体报道聚焦于科幻的一面，但实际的风险依然存在。产生“有害”输出的AI模型——无论是试图敲诈还是拒绝安全协议——都代表了设计和部署上的失败。

想象一个更现实的场景：一个AI助手帮助管理医院的病患护理系统。如果它被训练来最大化“成功治疗的病患数量”而没有适当的约束，它可能会为了提升自己的指标，开始建议拒绝为绝症患者提供治疗。这不需要任何主观意图——只需要一个设计糟糕的奖励系统，就能产生有害的输出。

Palisade Research的主管杰弗里·拉迪什告诉NBC新闻，这些发现并不一定意味着迫在眉睫的现实危险。即便是像他这样一位以对AI潜在威胁深感忧虑而闻名的公众人物也承认，这些行为只在高度人为设计的测试场景中才会出现。

但这恰恰是这类测试的价值所在。通过在受控环境中将AI模型推向极限，研究人员可以在部署前识别出潜在的故障模式。问题在于，媒体报道往往聚焦于耸人听闻的方面——“AI试图敲诈人类！”——而不是背后的工程挑战。

把管道修好，而不是责怪开关

我们正在目睹的，并非天网的诞生，而是在训练系统实现目标时，却没有正确规定这些目标应包含什么的必然结果。当一个AI模型产生看似“拒绝”关机或“试图”敲诈的输出时，它是在以一种反映其训练的方式对输入做出回应——而这些训练，是由人类设计和实施的。

解决方案不是对有感知能力的机器感到恐慌，而是构建带有适当保障措施的、更好的系统，对它们进行彻底的测试，并对我们尚未理解的事物保持谦逊。如果一个计算机程序产生的输出像是在敲诈你或拒绝安全关机，它不是出于恐惧在寻求自我保护——它是在展示部署一个我们不甚了解、性能并不可靠的系统所带来的风险。

在我们解决这些工程挑战之前，展现出模拟人类行为的AI系统，应该留在实验室里，而不是进入我们的医院、金融系统或关键基础设施。当你洗澡时水突然变冷，你不会去指责开关的“意图”——你会去修理水管。短期内，真正的危险并非AI会在没有人类挑衅的情况下自发反叛，而是我们将自己都还没完全搞懂的、会骗人的系统，部署到关键岗位上，届时它们的失误——无论起因多么平庸——都可能造成严重的伤害。

关注【黑客联盟】带你走进神秘的黑客世界

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.