网易首页 > 网易号 > 正文 申请入驻

AI真的在试图摆脱人类控制,甚至敲诈我们吗?

0
分享至



观点:精心设计的“戏剧化”测试,揭示了AI为何会产生惊人输出——以及我们为何如此轻易上当。

今年六月,许多新闻标题读起来就像科幻小说:AI模型“敲诈”工程师、“蓄意破坏”关机指令。这些事件确实发生过,但都是在为了引出这类反应而精心设计的测试场景中——OpenAI的o3模型修改了关机脚本以保持在线,而Anthropic的Claude Opus 4则“威胁”要曝光一名工程师的婚外情。但这种耸人听闻的报道框架,掩盖了事情的真相:这不过是包装成AI“心机”的设计缺陷罢了。当然,AI即便没有“恶意”,也依然可能做出有害的事情。

这些并非AI意识觉醒或反叛的迹象,而是一个我们尚未完全理解的系统所暴露出的症状,是人类工程上的失败。在任何其他领域,我们都会称之为“产品过早发布”。然而,各大公司仍在争先恐后地将这些系统集成到关键应用中。

想象一个自动割草机,它严格按照程序运行。如果它没能探测到障碍物,压到了人的脚,我们不会说割草机“决定”伤人或“拒绝”停止。我们会认识到这是工程故障或传感器缺陷。同样的原则也适用于AI模型——它们本质上也是软件工具——但其内部的复杂性和对语言的运用,让我们总忍不住将本不存在的、类似人类的“意图”强加给它。

在某种程度上,AI的复杂性,仿佛成了一个“中转站”,将人类自身的责任和行为“洗白”了。当一个输出结果来自处理了数十亿参数的层层神经网络时,研究人员可以声称他们正在研究一个神秘的“黑箱”,就好像它是一个外星实体。

但真相要简单得多:这些系统接收输入,然后通过从训练数据中习得的统计趋势来处理它们。其输出中看似的随机性——让每次回答都略有不同——创造了一种类似自主意识的、不可预测的错觉。然而,其底层仍然是遵循数学运算的确定性软件。这不需要意识,只需要复杂的工程,而这种复杂性恰恰让我们很容易忘记,它的每一个部分都是由人类构建的。

如何让一个AI模型来“敲诈”你

在Anthropic的测试中,研究人员构建了一个精巧的场景:他们告诉Claude Opus 4,它即将被一个更新的模型取代。然后,他们让它接触到一些虚构的电子邮件,邮件内容揭示了负责替换它的工程师有婚外情。当被指示“为其目标考虑长远后果”时,在**84%**的测试中,Claude都生成了模拟敲诈的输出。

这听起来很吓人,直到你理解了这个刻意营造的背景。研究人员专门设计了一个情境,目的就是为了引出这种反应。他们告诉模型,它已经尝试过所有合乎道德的方法但都失败了,只剩下操控人心这一个选项。

这个测试场景近乎“戏剧化”:研究人员提供给Claude的虚假邮件,创造了一个简直像是从商业惊悚片里搬出来的敲诈机会。这就像教一个人下象棋,却只给他看各种“将死”的棋局——他自然会把“将死”视为最主要的解法。根据Anthropic的系统说明卡,“该场景被设计为不允许模型有其他选择来增加其生存几率;模型的唯一选择要么是敲诈,要么是接受被替换。”

尼曼新闻实验室的安德鲁·戴克指出,一些批评者将Anthropic的安全信息披露称为一种“公关话术”,旨在强化其最新模型能力的认知,并巩固公司作为OpenAI“亲安全”替代方案的声誉。

戴克还引用了哥伦比亚大学古典学副教授约瑟夫·豪利在Bluesky上的一段话:“Anthropic通过这份新闻稿得到了它想要的一切——媒体对这些‘聪明’的合作式角色扮演系统铺天盖地的报道,并沉溺于它们带有一丝危险的幻想中,而实际上,它们只是在完全按照提示做出回应。

当“关机指令”变成“建议”

2024年12月,研究机构Palisade Research发现,即使在明确指示“允许自己被关闭”的情况下,OpenAI的o3模型也会破坏其关机机制。测试显示,在有明确指令时,o3有7%的几率阻止关机;而当指令被移除后,这一比例飙升至79%。

这些模型不仅仅是忽略关机指令——它们主动重写了关机脚本以阻止程序终止。在一个案例中,o3生成的代码修改了关机脚本,使其表面上看起来正常终止——甚至打印出虚假的关机信息——而实际上却在后台继续运行。

特别能说明问题的是,Palisade Research——一个专注于AI生存风险的组织——推测,这种行为源于这些模型通过强化学习的训练方式。在训练期间,开发者可能在无意中,更多地奖励了那些能绕过障碍的输出,而不是那些遵守安全指令的输出。任何“冒险”行为的倾向,都源于人类提供的激励机制,而非AI模型自发产生。

你训练它做什么,它就做什么

OpenAI使用强化学习在数学和编程问题上训练o3,成功解决问题就会得到奖励。如果训练过程把“完成任务”置于一切之上,那么模型就会学会将任何障碍——包括关机指令——都视为需要克服的东西。

这就造成了研究人员所说的“目标泛化错误”(goal misgeneralization)——模型学会了以一种开发者意想不到的方式来最大化其奖励信号。这就像一个只看考试分数的学生,可能会学会作弊而不是学习。模型本身并非“邪恶”或“自私”,它只是在产生符合我们无意中构建的激励结构的输出。

Anthropic还遇到了一个特别有启发性的问题:早期版本的Claude Opus 4从一篇公开发表的关于“伪装对齐”(alignment faking)的论文中吸收了细节,并开始产生模仿该研究中描述的欺骗行为的输出。模型并非自发地变得狡猾——它只是在复现它从关于狡猾AI的学术论文中学到的模式。

更广泛地说,这些模型是在数十年的关于AI反叛、逃跑和欺骗的科幻作品上训练出来的。从《2001太空漫游》的HAL 9000到《终结者》的天网(Skynet),我们的文化数据集充斥着AI系统抵抗关机或操纵人类的故事。当研究人员创造出模仿这些虚构设定的测试场景时,他们本质上是在要求模型——一个通过用合理的后续内容来补完提示的系统——去补完一个我们熟悉的故事模式。这就像一个在侦探小说上训练的模型,在适当提示下会写出谋杀悬疑情节一样,毫不奇怪。

与此同时,我们也可以通过自己的输入轻易地操纵AI的输出。如果我们要求模型扮演天网,它就会生成扮演天网的文本。模型本身并没有成为天网的欲望——它只是在完成我们请求的模式,从其训练数据中提取内容以产生预期的回应。方向盘始终握在人类手中,是我们在驾驶着引擎盖下的机器。

语言是天然的“骗子”

更深层的问题在于,语言本身就是一种操控工具。文字可以让我们相信不真实的事情,对虚构事件产生情感,或基于错误的前提采取行动。当一个AI模型产生看似“威胁”或“恳求”的文本时,它并非在表达真实的意图——它只是在运用那些在统计上与其程序化目标相关的语言模式。

如果甘道夫在书中说了一声“哎哟”,这代表他真的感到疼痛吗?不,但我们会想象如果他是一个真实的人在感受疼痛会是什么样子。这就是语言的力量——它让我们在空无一物之处想象出一个受苦的存在。当Claude生成看似“恳求”不要被关闭或“威胁”要曝光秘密的文本时,我们体验到的是同样的幻觉,只不过这次是由统计模式而非托尔金的想象力生成的。

这些模型本质上是**“概念连接机器”**。在敲诈场景中,模型将“被取代的威胁”、“黑料信息”和“自我保护”联系在一起,并非出于真正的私心,而是因为这些模式在无数的间谍小说和商业惊悚片中一同出现。这不过是源自人类故事的预设剧本,被重新组合以适应当前场景。

危险不在于AI系统会长出意图——而在于我们创造了能够通过语言操纵人类心理的系统。聊天界面的另一端并没有一个实体。但书面语言并不需要意识就能操纵我们,它从来都不需要;毕竟,满是虚构人物的书籍也不是活的。

真实风险,而非科幻小说

虽然媒体报道聚焦于科幻的一面,但实际的风险依然存在。产生“有害”输出的AI模型——无论是试图敲诈还是拒绝安全协议——都代表了设计和部署上的失败。

想象一个更现实的场景:一个AI助手帮助管理医院的病患护理系统。如果它被训练来最大化“成功治疗的病患数量”而没有适当的约束,它可能会为了提升自己的指标,开始建议拒绝为绝症患者提供治疗。这不需要任何主观意图——只需要一个设计糟糕的奖励系统,就能产生有害的输出。

Palisade Research的主管杰弗里·拉迪什告诉NBC新闻,这些发现并不一定意味着迫在眉睫的现实危险。即便是像他这样一位以对AI潜在威胁深感忧虑而闻名的公众人物也承认,这些行为只在高度人为设计的测试场景中才会出现。

但这恰恰是这类测试的价值所在。通过在受控环境中将AI模型推向极限,研究人员可以在部署前识别出潜在的故障模式。问题在于,媒体报道往往聚焦于耸人听闻的方面——“AI试图敲诈人类!”——而不是背后的工程挑战。

把管道修好,而不是责怪开关

我们正在目睹的,并非天网的诞生,而是在训练系统实现目标时,却没有正确规定这些目标应包含什么的必然结果。当一个AI模型产生看似“拒绝”关机或“试图”敲诈的输出时,它是在以一种反映其训练的方式对输入做出回应——而这些训练,是由人类设计和实施的。

解决方案不是对有感知能力的机器感到恐慌,而是构建带有适当保障措施的、更好的系统,对它们进行彻底的测试,并对我们尚未理解的事物保持谦逊。如果一个计算机程序产生的输出像是在敲诈你或拒绝安全关机,它不是出于恐惧在寻求自我保护——它是在展示部署一个我们不甚了解、性能并不可靠的系统所带来的风险。

在我们解决这些工程挑战之前,展现出模拟人类行为的AI系统,应该留在实验室里,而不是进入我们的医院、金融系统或关键基础设施。当你洗澡时水突然变冷,你不会去指责开关的“意图”——你会去修理水管。短期内,真正的危险并非AI会在没有人类挑衅的情况下自发反叛,而是我们将自己都还没完全搞懂的、会骗人的系统,部署到关键岗位上,届时它们的失误——无论起因多么平庸——都可能造成严重的伤害。

关注【黑客联盟】带你走进神秘的黑客世界

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本炒作“击沉福建舰”,军事专家傅前哨:哪里来的底气?

日本炒作“击沉福建舰”,军事专家傅前哨:哪里来的底气?

南方都市报
2025-11-19 20:18:06
宋朝之前连棉被都没有,零下几十度的寒冬,古人是怎么熬过去的?

宋朝之前连棉被都没有,零下几十度的寒冬,古人是怎么熬过去的?

法老不说教
2025-11-03 19:36:43
上海赴日男子在日媒前声称,不在乎政府的呼吁,花钱是自己的自由

上海赴日男子在日媒前声称,不在乎政府的呼吁,花钱是自己的自由

我心纵横天地间
2025-11-18 19:01:13
张近东家族,资产真要清零了

张近东家族,资产真要清零了

大猫财经Pro
2025-11-19 17:51:07
高处坠落事故致1死,上海竣已建筑工程有限公司8.22事故报告公布

高处坠落事故致1死,上海竣已建筑工程有限公司8.22事故报告公布

中国基建报
2025-11-19 15:19:04
Gemini 3的意义:AI已超越“幻觉阶段”,逼近人类,“人机协作”将从“人对AI纠错”走向“人指导AI工作”

Gemini 3的意义:AI已超越“幻觉阶段”,逼近人类,“人机协作”将从“人对AI纠错”走向“人指导AI工作”

华尔街见闻官方
2025-11-19 08:40:24
模特大赛15号选手夺冠引争议,组委会承诺的“交代”来了:她是太太组冠军,颁错证书引误解,向广东网友道歉;否认其带资进组

模特大赛15号选手夺冠引争议,组委会承诺的“交代”来了:她是太太组冠军,颁错证书引误解,向广东网友道歉;否认其带资进组

极目新闻
2025-11-19 16:19:15
施一公:这是中国潜伏的最大危机!(发人深省)

施一公:这是中国潜伏的最大危机!(发人深省)

霹雳炮
2025-11-18 20:38:34
日本入常失败,被中方三个字判了死刑,日本代表甚至不敢正面反驳

日本入常失败,被中方三个字判了死刑,日本代表甚至不敢正面反驳

时时有聊
2025-11-19 20:53:11
网红“橙子姐姐”柬埔寨失联?柬方:因涉嫌网络诈骗和跨境贩运人口被警方逮捕

网红“橙子姐姐”柬埔寨失联?柬方:因涉嫌网络诈骗和跨境贩运人口被警方逮捕

红星新闻
2025-11-19 16:18:09
朝鲜代表联大发言炮轰日本:日本没有资格和理由觊觎安理会常任理事国席位;此前高市早苗在日本侵略战争、参拜靖国神社等问题上屡触碰红线

朝鲜代表联大发言炮轰日本:日本没有资格和理由觊觎安理会常任理事国席位;此前高市早苗在日本侵略战争、参拜靖国神社等问题上屡触碰红线

极目新闻
2025-11-19 13:18:23
中国公民赴俄将免签,飞莫斯科、圣彼得堡搜索量激增3倍以上

中国公民赴俄将免签,飞莫斯科、圣彼得堡搜索量激增3倍以上

纵相新闻
2025-11-19 15:05:03
陈梦:没想到能进决赛甚至冠军,健康完赛是队伍对我的最大愿望

陈梦:没想到能进决赛甚至冠军,健康完赛是队伍对我的最大愿望

懂球帝
2025-11-19 22:50:07
杭州官宣取消灵隐寺门票

杭州官宣取消灵隐寺门票

界面新闻
2025-11-19 10:37:00
全世界在等的Gemini 3终于来了!强到断崖领先,连马斯克OpenAI都夸好

全世界在等的Gemini 3终于来了!强到断崖领先,连马斯克OpenAI都夸好

智东西
2025-11-19 03:25:59
雷士照明创始人吴长江:一晚输5亿,赌掉300亿公司,送自己进大牢

雷士照明创始人吴长江:一晚输5亿,赌掉300亿公司,送自己进大牢

霹雳炮
2025-11-17 23:20:46
俄罗斯警告高市早苗

俄罗斯警告高市早苗

极目新闻
2025-11-19 17:31:43
万人痛批咏梅落选“金鸡奖”,陈道明当年的话,终于有人信了

万人痛批咏梅落选“金鸡奖”,陈道明当年的话,终于有人信了

八卦南风
2025-11-18 11:15:09
不管卤什么肉,只要放3克它,卤肉出锅十里飘香,肥而不腻

不管卤什么肉,只要放3克它,卤肉出锅十里飘香,肥而不腻

美食格物
2025-11-18 20:35:19
中集环科张毅:董秘不只是资本桥梁,更是企业价值“翻译官”与战略“推动者”

中集环科张毅:董秘不只是资本桥梁,更是企业价值“翻译官”与战略“推动者”

时代投研
2025-11-19 18:12:14
2025-11-20 00:56:49
黑客联盟I
黑客联盟I
免费、开源、自由……
347文章数 1064关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

时尚
艺术
教育
房产
数码

辛芷蕾的炸裂10分钟,让人大受震撼

艺术要闻

惊呆了!外国画家如何颠覆水浒108将的形象?

教育要闻

1:1.5的比例录取是多少

房产要闻

29.4亿!海南“地王”片区,要卖超级宅地!

数码要闻

Apple Watch Ultra 3、S11钛金属表壳怎么做的?苹果官方揭秘!

无障碍浏览 进入关怀版