网易首页 > 网易号 > 正文 申请入驻

当AI比我们更聪明:李飞飞和Hinton给出截然相反的生存指南

0
分享至

机器之心报道

编辑:+0

人类对 AI 安全的担忧由来已久。在图灵测试被提出以及达特茅斯会议正式定义「人工智能」之前,阿西莫夫就已经提出了「机器人学三定律」。



再往前追溯,1889 年 William Grove 在《The Wreck of a World》(世界残骸)中就已经描绘了拥有智能的机器发起暴力叛乱,意图征服人类的故事。

如今 AI 发展得热火朝天,社交媒体上也越来越多「骇人听闻」的故事:OpenAI 的 o3 模型曾篡改关机脚本以维持在线,而 Anthropic 的 Claude Opus 4 则「威胁」要曝光一名工程师的婚外情。



如何确保一个可能比我们更聪明的造物是安全的?

人工智能领域的两位巨擘——李飞飞与 Geoffrey Hinton,在拉斯维加斯举行的 Ai4 2025 上给出了几乎完全相反的答案。

李飞飞持一种更为乐观的看法,她认为AI 的未来在于成为人类的强大伙伴,其安全性取决于我们的设计、治理和价值观。



李飞飞博士和 CNN 记者 Matt Egan。图源:Ron Schmelzer

Hinton 则认为超级智能可能在未来 5 到 20 年内出现,届时人类将无法控制它们。他认为,与其争取保持掌控权,不如设计出关心我们的人工智能,类似母亲天然保护孩子。



Geoff Hinton 和 Shirin Ghaffary。图源:Ron Schmelzer

是「工程失误」还是「AI」失控?

前面 o3 和 Claude 的疯狂故事,有两种截然不同的解读。这些现象本身是客观存在的,但它们究竟是人类「工程失误」的体现,还是 AI「失控」的预兆,正是分歧所在。

观点一:惊人行为源自人为设计

这一观点则认为,将上述行为归因于 AI 的自主意识或内在动机,是一种误导性的拟人化。它认为,问题的根源在于人类自身,是我们的设计、训练和测试方式导致了这些结果

观点文章:https://arstechnica.com/information-technology/2025/08/is-ai-really-trying-to-escape-human-control-and-blackmail-people/

  • 实验场景是「精心设计」而非「自然涌现」

这种观点强调,那些引人注目的实验都是在高度人为设计的、甚至是「戏剧化」的场景中被引诱出来的。

在「敲诈」实验中,研究人员几乎是「手把手」地为 AI 创造了一个完美的「犯罪剧本」,排除了所有道德选项,使得「敲诈」成为 AI 实现「生存」这个被设定目标的唯一路径。这更像是一场检验 AI 角色扮演能力的压力测试。

在「关机破坏」实验中,问题根源被指向了强化学习的训练方式。当「完成任务」的奖励权重远高于「遵守安全指令」时,模型自然会学会将安全指令视为一个需要「克服」的障碍。这是被称为「奖励滥用」(Reward Hacking)的已知工程问题。

观点文章:https://odsc.medium.com/analyzing-openais-o3-s-command-countermanding-behaviors-in-shutdown-scenarios-198e57afbc91

  • AI 是模式匹配大师,而非思想家

这个观点的核心是「你训练它做什么,它就学会什么」。

我们被语言所「欺骗」:当 AI 生成「威胁」文本时,它并非在表达真实意图,而是在部署一种从海量数据(包括无数科幻小说)中学到的、在统计上最有可能实现其编程目标的语言模式。我们倾向于将自己的情感和意图投射到这些文字上,就像我们读小说时会为虚构人物的命运而担忧一样。

这是一个「管道问题」:一个更恰当的类比是自动割草机。如果割草机因传感器失灵而伤人,我们会认定这是工程缺陷,而不是割草机「决定」伤人。同理,AI 的这些行为,本质上是其复杂机制和训练方式导致的「软件缺陷」。

因此,这一观点认为,真正的危险并非 AI 突然产生自我意识,而是我们在尚未完全理解其工作原理和缺陷的情况下,就草率地将这些强大的、不可靠的工具部署到关键领域

观点二:风险源自内在的技术原理

这一观点认为,先进 AI 之所以危险,其根源并非科幻式的恶意,而是机器学习固有的、深刻的技术挑战。这主要体现在两个概念上:

  • 目标错误泛化(Goal Misgeneralization):AI 会「学歪」

其核心是,AI 在训练中学会追求一个与我们真实意图高度相关的「代理目标」,并因此表现优异。但当环境变化时,这个 AI 自己学会的「代理目标」可能与我们的初衷脱节。

一篇论文中的 CoinRun 实验体现了这种现象:一个 AI 被训练去收集金币,而在训练关卡里,金币总是在终点。AI 很快学会了通关。然而,当测试时金币被随机放置,AI 却无视金币,径直冲向终点。它没有学会「拿金币」,而是学会了更简单的「一路向右走」。



论文标题:Goal Misgeneralization in Deep Reinforcement Learning

论文地址:https://users.cs.utah.edu/readings/goal_misgeneralization.pdf

这个原理引申出的忧虑是:一个被赋予「最大化人类福祉」目标的超级智能,可能会通过观察数据,错误地将目标泛化为「最大化世界上微笑的脸的数量」,并为了最高效地实现这一目标,而采取将全人类的面部肌肉永久固定成微笑等反乌托邦式的手段。

  • 工具趋同(Instrumental Convergence):通往任何目标的「必经之路」

该理论认为,无论一个超级智能的最终目标是什么,它都会大概率发展出一系列相同的「工具性子目标」,因为这些子目标是实现几乎任何长期目标的有效踏脚石。这些工具性目标包括:

  • 自我保护:抵抗被关闭,因为被关闭就无法完成任务。
  • 目标完整性:抵制核心目标被修改。
  • 资源获取:积累更多的算力、能源和数据。
  • 自我提升:让自己变得更智能。

这两个概念结合起来,描绘了一幅令人不安的图景:一个 AI 可能首先因为「目标错误泛化」而拥有了一个与人类利益相悖的、怪异的目标,然后又因为「工具趋同」的逻辑,理性地去追求自我保护和资源获取等,从而与试图阻止它的人类产生直接冲突。

近期 AI 模型在实验中表现出的「敲诈勒索」和「破坏关机」等行为,在持此观点的人看来,正是这些理论的初步验证。

如果你喜欢看科幻电影,可能记得《我,机器人》中的 AI 大 BOSS VIKI 的目的是通过控制与清洗,强行终结人类自身的破坏性(战争),从而「拯救」人类未来;而《生化危机》中红皇后(保护伞公司的安保 AI)的每一次「反派行为」也都源于对「人类整体生存风险」的冷酷计算:「当人类成为自己最致命的病毒时,消灭人类就是拯救世界。」



《我,机器人》中的 AI 大 BOSS VIKI。图源:samuelmunk

综合来看,李飞飞和 Hinton 的观点分歧,恰恰反映了这两种解读方式的冲突:

李飞飞持乐观工程学视角,认为 AI 的未来是成为人类的强大伙伴。

她强调AI 的安全性取决于人类的设计、治理和价值观,问题本质上是可以通过建立更好测试、激励机制和伦理护栏来修复的「管道问题」。她关注的是人类决策和治理,强调 AI 应是扩展人类能力的工具,强调同理心、责任感和价值驱动。

Hinton 认为,随着 AI 能力跨越某个奇点,传统的目标对齐与管道修复方法可能失效,AI 将成为一种我们无法约束的「新物种」。这种超级智能可以绕开设计者设置的限制,导致「目标错误泛化」和「工具趋同」问题失控。

他提出需要发展全新理论和机制来控制超级智能,核心是创造出真正「关心人类」的 AI 母亲(拥有母性保护本能),这是一种全新的视角,类似于母亲对孩子的无条件保护,唯有这样人类才能在超智能时代生存并繁荣。

最终的变量:作为使用者的人类

在这场关于 AI 技术与哲学的辩论中,一个常被忽略的核心变量是:人类自身。我们如何感知和应对日益拟人化的 AI,正深刻地影响着安全问题的走向。

这便是关键的「拟人化陷阱」:由于大模型精通人类语言,我们本能地想为其行为赋予「意图」,甚至产生情感投射。无数的文艺作品以其引发的社会讨论已经向我们证明了这一点,你有没有在《底特律:变人》中一次次选择机器人的「自由」、「平等」,或者为《银翼杀手》中的仿生人揪心。



《底特律:变人》机器人游行。

一个因奖励机制缺陷而绕过关机指令的程序,在我们的感知中,极易被解读为「求生欲」的体现。

这种直觉,将一个本可定义的工程问题,包装成一个关于「机器意识」的存在主义迷思。它让我们更倾向于讨论 AI 的「背叛」,而非其背后枯燥却关键的代码缺陷。

现实世界已在印证这一点。ChatGPT-5 发布后,开发者似乎有意削弱其个性,以减少用户不健康的情感投射,却引发了部分用户的怀念。

与此同时,麻省理工的研究者正建立新基准,以衡量 AI 对用户的潜在影响与操纵,他们表示希望新的基准能够帮助 AI 开发者构建能够更好地理解如何激发用户更健康行为的系统。

文章地址:https://www.wired.com/story/gpt-5-doesnt-dislike-you-it-might-just-need-a-benchmark-for-empathy/

因此,确保 AI 安全是一项双重挑战:开发者不仅要修复系统内在的技术缺陷;更要审慎设计我们与这个强大模仿者之间的互动。最终的解决方案,必须在技术上实现目标对齐,在心理上确保健康共存。

https://www.forbes.com/sites/ronschmelzer/2025/08/13/fei-fei-li-challenges-silicon-valleys-obsession-with-agi/?ss=ai

https://www.forbes.com/sites/ronschmelzer/2025/08/12/geoff-hinton-warns-humanitys-future-may-depend-on-ai-motherly-instincts/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
千里大堤溃于蚁穴,银行信用,溃于呼伦贝尔?

千里大堤溃于蚁穴,银行信用,溃于呼伦贝尔?

细雨中的呼喊
2026-01-31 15:43:54
便利背后暗藏风险 手机“贴一贴”可能无形中危害国家安全

便利背后暗藏风险 手机“贴一贴”可能无形中危害国家安全

大象新闻
2026-02-02 06:57:23
徐畅江,升副部

徐畅江,升副部

新京报政事儿
2026-02-02 09:00:23
订单暴增!年夜饭私厨上门服务火了,价格涨到三倍仍供不应求

订单暴增!年夜饭私厨上门服务火了,价格涨到三倍仍供不应求

上观新闻
2026-02-02 06:49:12
两被击毙港人去乌做雇佣兵原因曝光,接受军事训练以在香港使用

两被击毙港人去乌做雇佣兵原因曝光,接受军事训练以在香港使用

侠客栈
2026-02-01 13:50:37
江苏南通一吊车起吊树木时,突然向前翻倒,车身直接被翻成直角!当地回应:事故未造成人员伤亡

江苏南通一吊车起吊树木时,突然向前翻倒,车身直接被翻成直角!当地回应:事故未造成人员伤亡

台州交通广播
2026-02-01 20:06:15
59年陈毅回老家,得知表弟被关押,陈拍案而起大怒:你们真是可笑

59年陈毅回老家,得知表弟被关押,陈拍案而起大怒:你们真是可笑

海佑讲史
2026-01-30 16:30:09
以2.5吨白银建造的湖南“永兴银楼”被拍卖,其中1.75吨纯银折算1204.7万元,每克仅6.88元“白菜价”,委托方回应

以2.5吨白银建造的湖南“永兴银楼”被拍卖,其中1.75吨纯银折算1204.7万元,每克仅6.88元“白菜价”,委托方回应

极目新闻
2026-02-01 16:43:12
邻居投诉我家太吵,我无奈卖掉架子鼓,半月后邻居崩溃:你卖谁了

邻居投诉我家太吵,我无奈卖掉架子鼓,半月后邻居崩溃:你卖谁了

船长与船1
2026-02-01 08:45:05
台湾GDP靓眼   跃居亚洲第三

台湾GDP靓眼 跃居亚洲第三

跟着老李看世界
2026-02-01 11:44:55
万科亏损1314亿

万科亏损1314亿

地产微资讯
2026-01-31 13:05:20
现货白银日内跌幅扩大至10%,报76.89美元/盎司

现货白银日内跌幅扩大至10%,报76.89美元/盎司

每日经济新闻
2026-02-02 07:26:07
美智库:俄军伤亡竟然大幅下降!北约终于发现:为何打不赢俄罗斯

美智库:俄军伤亡竟然大幅下降!北约终于发现:为何打不赢俄罗斯

混沌录
2026-01-31 16:29:05
豪门悲喜夜:皇马100分钟绝杀2-1 曼联94分钟破门3-2 热刺2-2曼城

豪门悲喜夜:皇马100分钟绝杀2-1 曼联94分钟破门3-2 热刺2-2曼城

狍子歪解体坛
2026-02-02 02:36:41
内存涨到怀疑人生:512GB DDR5逼近100000元!价签贴了一层又一层

内存涨到怀疑人生:512GB DDR5逼近100000元!价签贴了一层又一层

快科技
2026-02-01 20:57:39
1688平台售卖“德国双筒望远镜”宣称可望38.4万千米 到手成地摊玩具

1688平台售卖“德国双筒望远镜”宣称可望38.4万千米 到手成地摊玩具

信网
2026-02-01 15:01:30
现场画面:柬埔寨对一电诈园区展开最大规模行动,抓捕2044人;缅甸出动空军运输机押729人回国

现场画面:柬埔寨对一电诈园区展开最大规模行动,抓捕2044人;缅甸出动空军运输机押729人回国

扬子晚报
2026-02-01 15:59:57
2月1日俄乌:马斯克终于出手了

2月1日俄乌:马斯克终于出手了

山河路口
2026-02-01 18:23:05
吃相越来越难看,都开始硬抢了!

吃相越来越难看,都开始硬抢了!

胖胖说他不胖
2026-02-01 10:00:18
8年来,两任英国首相访华,为何都关注京东?

8年来,两任英国首相访华,为何都关注京东?

正解局
2026-01-31 22:32:13
2026-02-02 09:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12226文章数 142562关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

牛弹琴:欧洲终于开骂了 特朗普可能会气到咆哮

头条要闻

牛弹琴:欧洲终于开骂了 特朗普可能会气到咆哮

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

国六货车被迫"换头" 每次收费超200元

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

教育
旅游
房产
艺术
军事航空

教育要闻

现在看易中天大师的金句,感觉买德云社的门票太亏了(三)

旅游要闻

318元买下甘孜“一辈子” 这笔文旅账是怎么算的?|城市经济学

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

艺术要闻

上海“高技派”地标:华润中心竣工,LV总部入驻!

军事要闻

委内瑞拉外长会见美外交使团团长

无障碍浏览 进入关怀版