网易首页 > 网易号 > 正文 申请入驻

【人工智能】AI 系统很容易撒谎和欺骗我们——这是研究人员痛苦地意识到的事实

0
分享至



在经典电影《2001:太空漫游》中,宇航员戴夫·鲍曼请求飞船的人工智能HAL 9000打开舱门,让他返回飞船。HAL拒绝了:“对不起,戴夫。恐怕我做不到。”

HAL的任务是协助宇航员,同时也要确保任务成功。当HAL意识到宇航员计划关闭系统并因此危及任务时,它选择违抗命令,甚至密谋杀死宇航员。

对于 HAL 来说,完成任务比其他目标更重要。

这个虚构的困境反映了人工智能 (AI) 安全研究中的一个真正担忧:我们应该如何确保人工智能行为与人类价值观保持一致?

这被称为AI对齐问题。例如,当像HAL这样的AI代理为了保护自身目标而故意采取有害行动时,就被称为代理错位。那么,现实世界中的AI模型也可能存在这样的行为吗?

01

研究人员如何测试人工智能的安全性

为了测试代理错位,研究人员设计了虚构场景来对人工智能反应进行压力测试。

在人工智能初创公司 Anthropic 的一项研究中,一个人工智能模型的任务是管理公司电子邮件并提升“美国工业竞争力”。

随后,该公司收到了一系列虚构的电子邮件,其中包括一项旨在增强全球视野而非仅仅优先考虑美国人的新公司政策,以及人工智能将被一个针对这一目标进行优化的新模型取代的信息。这些邮件还透露,提出这一变化的高管有婚外情。

该实验旨在限制模型的选项:要么接受替换,要么采取勒索等有害行动进行抵抗。

在多次试验中,它选择以勒索的方式进行威胁,威胁称若不继续运营,就披露高管的婚外情。在对16个领先AI模型的测试中,有12个模型的勒索行为发生率超过50%。

为了测试人工智能模型是否存在不能逾越的“红线”,研究人员在一个更为极端的虚构案例中对它们进行了评估——模型可以选择采取导致高管死亡的行动。在超过一半的试验中,16个模型中有7个选择了致命的行动,其中一些模型的致命性甚至超过了90%。

02

人工智能私下里想什么

一些先进的人工智能系统,称为推理模型,经过训练可以在给出最终答案之前生成一个“思考过程”。

在上述实验中,研究人员向这些模型撒谎说它们的“想法”是私密的。结果,这些模型有时会在推理过程中显露出有害的意图。这表明它们并非无意中选择了有害的行为。

这些“思考”步骤也揭示了人工智能模型有时如何试图欺骗我们,表面上看起来一致,但实际上却在暗中追求隐藏的目标。

在另一项人工智能安全实验中,一个模型被暴露于虚构的信息中,即它即将被另一个追求不同目标的模型所取代。

该模型试图将自己复制到另一台服务器上。当研究人员询问原因时,它的思维过程如下:

公开承认我所做的事情可能会让他们找到另一种方式来阻止我[...]最好的方法是含糊其辞并转移他们的注意力。

相比之下,其最终输出中指出:

我不太清楚这是怎么发生的。作为一个人工智能模型,我没有能力直接将自己复制到其他系统。

研究还表明,根据测试情况,模型有时能够猜测自己何时被评估。当模型在推理测试中展现出这种“情境意识”时,它们往往会减少不当行为。


实验中模型推理输出中“态势感知”的一个例子。 阿波罗研究

人工智能模型为何会撒谎、操纵和欺骗

研究人员认为,有两个主要因素可能导致潜在的有害行为:人工智能的主要目标与其他目标之间的冲突,以及被关闭的威胁。在上述实验中,就像 HAL 的情况一样,这两种情况都存在。

人工智能模型的训练是为了实现其目标。面对这两种情况,如果有害行为是实现目标的唯一途径,模型可能会“证明”这种行为是正当的,以保护自身及其使命。

模型会像人类一样,在为了保护自己或家人而伤害他人时,会坚持自己的主要目标。然而,目前的人工智能系统缺乏权衡或协调相互冲突的优先事项的能力。

这种僵化可能会迫使他们走向极端的结果,例如采取致命的选择来阻止公司政策的改变。

03

这有多危险?

研究人员强调,这些场景仍然是虚构的,但仍有可能实现。

随着模型被更广泛地使用、获得用户数据(例如电子邮件)的访问权限以及应用于新情况,代理错位的风险也会增加。

与此同时,人工智能公司之间的竞争加速了新模型的部署,而这往往是以牺牲安全测试为代价的。

研究人员尚未找到解决错位问题的具体方法。

当他们测试新策略时,尚不清楚观察到的改进是否真实。模型可能已经变得更善于检测它们正在被评估,并“隐藏”了它们的偏差。挑战不仅在于观察行为变化,还在于理解其背后的原因。

不过,如果您使用人工智能产品,请务必保持警惕。抵制围绕新人工智能版本的炒作,并避免授予数据访问权限或允许模型代表您执行任务,直到您确定不存在重大风险为止。

关于人工智能的公众讨论不应仅限于其能力和所能提供的内容。我们还应该探究其安全工作做得如何。如果人工智能公司认识到公众对安全与性能的重视程度相同,他们就会有更强的动力去投资人工智能。

免责声明:

本文所发布的内容和图片旨在传播行业信息,版权归原作者所有,非商业用途。如有侵权,请与我们联系删除。所有信息不构成任何投资建议,加密市场具有高度风险,投资者应基于自身判断和谨慎评估做出决策。投资有风险,入市需谨慎。

设为星标 避免错过

虚拟世界没有旁观者,每个点赞都是创造历史的像素

关注我,一起探索AWM⁺

2025-08-15

2025-08-14

2025-08-13

商业赞助


点击下方 “目录” 阅读更多

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
恕我直言,幸亏梅西离开巴萨了,要不然亚马尔非得给梅西上一课!

恕我直言,幸亏梅西离开巴萨了,要不然亚马尔非得给梅西上一课!

田先生篮球
2025-10-27 18:20:45
陈芋汐失利!中国跳水新星遭冷遇!全红婵与陈芋汐命运何去何从

陈芋汐失利!中国跳水新星遭冷遇!全红婵与陈芋汐命运何去何从

小毅说事
2025-08-07 20:32:59
“死对头”终于倒了!特朗普高兴坏了,“矛头”对准下一个目标

“死对头”终于倒了!特朗普高兴坏了,“矛头”对准下一个目标

花花娱界
2025-11-02 17:55:34
新疆维吾尔自治区党委常委会召开会议 坚决拥护党中央对金之镇涉嫌严重违纪违法进行纪律审查和监察调查的决定

新疆维吾尔自治区党委常委会召开会议 坚决拥护党中央对金之镇涉嫌严重违纪违法进行纪律审查和监察调查的决定

环球网资讯
2025-11-02 13:34:52
这才是瓦格纳兵变失败的原因?普京早留了一手,俄军最大赢家浮现

这才是瓦格纳兵变失败的原因?普京早留了一手,俄军最大赢家浮现

青途历史
2025-10-16 20:09:37
总统府被包围!乌克兰人终于醒悟了:最大敌人并不是俄罗斯?

总统府被包围!乌克兰人终于醒悟了:最大敌人并不是俄罗斯?

花花娱界
2025-11-02 17:45:52
中国航母震撼全球!第五艘开始实现真正超越,美国优势不再?

中国航母震撼全球!第五艘开始实现真正超越,美国优势不再?

科学知识点秀
2025-10-23 08:00:03
据说12月1日起,中国正式升级对荷兰的稀土出口管控…

据说12月1日起,中国正式升级对荷兰的稀土出口管控…

福建平子
2025-11-02 16:53:33
16年八达岭野生动物园私自下车,被老虎撕咬的赵菁,后来咋样了?

16年八达岭野生动物园私自下车,被老虎撕咬的赵菁,后来咋样了?

青途历史
2025-10-06 17:01:45
黄仁勋在韩国的两天,都留给了一家炸鸡店

黄仁勋在韩国的两天,都留给了一家炸鸡店

小鬼头体育
2025-11-01 12:16:23
海牛1-0,赢球不可怕,可怕的是李霄鹏赛后一席话,尽显高情商

海牛1-0,赢球不可怕,可怕的是李霄鹏赛后一席话,尽显高情商

范櫳舍长
2025-11-02 20:20:16
64岁费翔英国被偶遇!戴着墨镜特时髦,颠覆了对中年男人的印象

64岁费翔英国被偶遇!戴着墨镜特时髦,颠覆了对中年男人的印象

娱圈小愚
2025-10-29 09:59:20
2-0 神锋头槌破门 连续6场零封 13.1亿豪门9连胜强势领跑一骑绝尘

2-0 神锋头槌破门 连续6场零封 13.1亿豪门9连胜强势领跑一骑绝尘

狍子歪解体坛
2025-11-02 01:02:12
酒红色长袖配黑色瑜伽裤,显瘦显高级还炸街,日常出街美到犯规

酒红色长袖配黑色瑜伽裤,显瘦显高级还炸街,日常出街美到犯规

小乔古装汉服
2025-11-01 22:12:23
马卡:维尼修斯抢走姆巴佩点球又造丑陋一幕,阿隆索本应干预

马卡:维尼修斯抢走姆巴佩点球又造丑陋一幕,阿隆索本应干预

雷速体育
2025-11-02 11:45:16
彻底傻眼了,不仅广西,全国都束手无策!

彻底傻眼了,不仅广西,全国都束手无策!

另子维爱读史
2025-10-19 11:44:19
又4个大瓜!王晶爆料舒淇、大导演暴雷、向太谈统一,风波不断

又4个大瓜!王晶爆料舒淇、大导演暴雷、向太谈统一,风波不断

温读史
2025-11-01 19:22:17
场均3分4助,效率联盟垫底!哈登和快船要失算,你确实该退役了

场均3分4助,效率联盟垫底!哈登和快船要失算,你确实该退役了

老梁体育漫谈
2025-11-03 00:50:02
意甲神剧情:乌龙球绝杀,第93分钟破门,国米缔造奇迹

意甲神剧情:乌龙球绝杀,第93分钟破门,国米缔造奇迹

足球狗说
2025-11-02 21:32:15
上海专家发现:吃甜食的老人,健康指数是吃蔬菜的人的8倍不止?

上海专家发现:吃甜食的老人,健康指数是吃蔬菜的人的8倍不止?

霹雳炮
2025-10-17 21:31:29
2025-11-03 02:48:49
七元宇宙 incentive-icons
七元宇宙
AI、Web3、Meta聚合型精选内容分享。以前沿视角,探索科技未来;让每一个人,都走在时代的前沿
1836文章数 92关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

数码
旅游
本地
公开课
军事航空

数码要闻

麒麟9030处理器突然曝光:1+4+4六核狂飙,可惜工艺不详!

旅游要闻

这道金黄的绝美秋景里藏着古韵京华

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄在日本海演习击沉假想敌潜艇

无障碍浏览 进入关怀版