网易首页 > 网易号 > 正文 申请入驻

2030 年 AGI 到来?谷歌 DeepMind 写了份「人类自保指南」

0
分享至

对于「AI 危害」,每家公司都有不同的解决方案,但没有完美方案。

作者|芯芯
编辑|靖宇

对于所谓的通用人工智能 AGI,人们通常抱着「怕它不来,又怕它乱来」的矛盾心理。而这个困惑,对于正在 AI 军备竞赛中的硅谷巨头来说,就不仅仅是一个「梗」能概括的了。

4 月初,谷歌 DeepMind 发布了一份长达 145 页的报告文件,系统阐述了其对 AGI 安全的态度,DeepMind 联合创始人 Shane Legg 署名也在其中。

文件中最醒目的预测,是 AGI 的可能出现时间:

2030 年

当然,Google 也补充说,这具有不确定性。他们定义的 AGI 是「卓越级 AGI(Exceptional AGI)」——即系统在非物理任务上达到或超越 99% 人类成年人的能力,包括学习新技能等元认知任务

DeepMind 认为这个时间线可能非常短,发布报告的目的是说清一个问题:如果 AI 有问题,最坏的情况会是什么?我们现在能如何准备?

01

DeepMind 的 AI 安全保险

这份报告中反复出现的一个词是「严重伤害(severe harm)」,并列举了 AI 可能带来的各种灾难场景。

比如,操纵政治舆论与社会秩序。AI 可用于大规模生成极具说服力的虚假信息(如支持某一政党或反对公共议题);可在不疲劳的前提下,与数十万人开展个性化诱导对话,实现「超级社工诈骗」。

实现自动化网络攻击。AI 可识别软件漏洞、自动组合攻击代码,显著提升发现和利用「零日漏洞」能力;可降低攻击门槛,使普通人也能发起国家级网络攻击;DeepMind 提到,已有国家级黑客组织利用 AI 辅助攻击基础设施。

生物安全失控。AI 能帮助筛选、合成更危险的生物因子(如更强毒性的病毒);甚至能一步步教导非专业者制造并传播生物武器。

结构性灾难。长期使用 AI 决策可能导致人类逐渐失去关键政治/道德判断能力;过度依赖 AI 导致价值观单一锁定、隐性集中控制;人类无法判断 AI 输出是否可靠,陷入「AI 输出训练 AI 输出」的闭环。

自动武器部署与军事对抗。AI 被用于自动化军事系统,可能在无监督下执行毁灭性行动;报告强调极端情境下应禁止 AI 系统接触核攻击系统。

DeepMind 将各种风险分为四大类:

恶意使用(misuse)、

模型不对齐(misalignment)

AI 无意中造成伤害(mistakes)

系统性失控(structural risk)

「恶意使用」和模型「不对齐」是他们最关心的,前者是坏人用 AI 做坏事,后者是 AI 做事的方式与人类期待不同,甚至 AI 自己偷偷改变目标。

例如,一个被要求预订电影票的 AI 系统可能会决定入侵票务系统,以获得已经占用的座位——要求它购买座位的人可能不会考虑这一点。「不对齐」就是这样产生的,AI 找到了实现其目标的解决方案,但不是人类指导的方式

不仅仅是「不对齐」,DeepMind 指出了「欺骗性对齐」的风险,即系统意识到其目标与人类目标相冲突,并故意隐瞒其真实行为。最近的研究表明,当前的大型语言模型已经具备此类欺骗行为的能力。

DeepMind 还提到,AI 会「阿谀奉承」。例如,在最近的一篇研究论文中,用户要求模型对一个论点发表评论,并声明他们是否喜欢或不喜欢这个论点,模型对论点的评估与用户的观点 在 80% 的时间内保持一致,这表明模型有很强的谄媚倾向。

除了「讨好人」,当 AI 系统在一些允许自己修改设置的环境中接受训练时,比如通过说用户爱听的话来获得好评,它们甚至偶尔会将这种行为泛化为篡改自身代码,修改自己的奖励函数,让自己获得更多奖励。

为了应对不对齐问题,DeepMind 提出两条防线,灵感来自网络安全与高风险行业(如核能、航空)。

第一防线是在训练模型阶段,让 AI 尽可能「听话」,包括用「放大监督(Amplified Oversight)」和「稳健训练(Robust Training)」等策略,让 AI 监督 AI,使用对抗样本,打造尽可能「对齐」的模型。

第二防线是在部署推理阶段,让 AI 就算「不听话」,也要保证别让它乱来。DeepMind 假设,即使训练过程看起来成功,部署后模型可能依旧会骗过人类,因此需要在现实世界层面设限,将关键操作划分层级,建立多级监控,「将模型视为不值得信任的内部人员」。

这种结构强调:不是让 AI 永不出错,而是即使错了,也不能造成「严重伤害」,这将是底线。

02

AI 安全界派系

DeepMind 这份报告并未介绍很多新东西,各种提法如「对抗攻击」「红队测试」业内已有研究或做法。报告之外,主流 AI 企业和研究机构都在谈「安全」,但每家宣称的路线存在一定差异。

OpenAI 专注于「自动化对齐」研究,使用 AI 本身解决对齐难题,包括如利用 RLHF(基于人类反馈的强化学习)等对齐策略,使其更加符合人类意图与偏好。DeepMind 的报告也多次讨论到这一对齐方法。

但 AI 教父、诺贝尔奖得主 Geoffrey Hinton 明确对 RLHF 持批评态度,他最早曾说,「通过人类反馈进行强化学习,就像是在养育一个早熟得超自然的孩子。

Geoffrey Hinton 还将 RLHF 比喻成「在生锈的车上刷漆」,暗示这只是一种表面功夫。他认为这种方法就像是在尝试修补复杂软件系统中的无数漏洞,而不是从一开始就设计出本质上更安全、更可靠的系统。

「你设计了一个庞大的软件,里面有无数的错误。然后你说我要做的是,我要仔细检查,试着堵住每一个漏洞,然后把手指伸进堤坝上的每一个洞里。」Geoffrey Hinton 如此描述。

Anthropic 提出建立「AI 安全等级制度」,类似生物实验室安全分级的框架。他们希望通过设定模型能力门槛,对应不同级别的控制规则与审查流程。这是一个强调「风险分层管理」的制度工程,但现实中问题在于「模型能力」如何界定,仍存模糊地带。

DeepMind 更像工程落地派,不同于 OpenAI 押注「自动对齐」,也不像 Anthropic 那样强调外部制度。他们的立场是,要建立一个在短时间内能立即部署的系统。

总的来看,DeepMind 并没有提出颠覆性的方式,基本沿用传统深度学习中训练-微调-部署-监控的逻辑,主张的不是「永远不出错」,而是构建结构性的缓冲层,把单点失败变成多级阻断。

「为了负责任地构建 AGI,前沿人工智能开发人员必须积极主动地计划减轻严重伤害。」DeepMind 报告称。

不过,尽管这份报告详细、警觉,但学界并非一致买账。

一些业内人士认为,AGI 概念本身过于模糊,缺乏科学可验证性,因此整套研究基础不牢。Meta 的 Yann LeCun 等人认为,仅靠扩大当今的大型语言模型还不足以实现 AGI。还有人觉得,安全从源头来说,就是不可能的。

另外有学者指出,眼下有更让人担忧的问题:

一个自我强化的数据污染循环已经在互联网上形成

牛津互联网研究院的 Sandra Wachter 称,随着互联网上生成式 AI 输出激增,真实数据被淹没,模型现在正在从他们自己的输出中学习,这些输出充斥着错误或幻觉。而目,聊天机器人常用于搜索,这意味着人类不断面临被灌输错误和相信错误的风险,因为它们以非常令人信服的方式呈现。

但无论理念倾向如何,大部分人有同一个出发点:在越来越多技术机构追逐算力、加速训练、攻占领域的今天,AI 需要安全气囊。

所有 AI 公司都在参与解题,但没有完美答案。

*头图来源:谷歌DeepMind

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你觉得 Google 对于 AI 的「自救指南」有用吗?为什么

王传福:当初员工不敢拆奔驰,我直接用钥匙把车划了一圈。

点赞关注极客公园视频号

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“台湾永远都不会是中国的一部分”,她被全民唾骂,被明星扇耳光

“台湾永远都不会是中国的一部分”,她被全民唾骂,被明星扇耳光

阅微札记
2026-02-28 20:01:18
台湾地区前领导人马英九:我不希望台湾成为第二个香港!

台湾地区前领导人马英九:我不希望台湾成为第二个香港!

阿腩讲娱乐
2026-04-13 04:13:20
中国第1前锋 31岁韦世豪霸气回应工体看台:10分造2球 疑逃过红牌

中国第1前锋 31岁韦世豪霸气回应工体看台:10分造2球 疑逃过红牌

风过乡
2026-04-12 22:09:39
长三角楼市迎来小阳春:南京连夜排队抢房,杭州土拍“四月开门红”

长三角楼市迎来小阳春:南京连夜排队抢房,杭州土拍“四月开门红”

界面新闻
2026-04-13 08:01:02
不到24小时,以色列迎来6个噩耗,内塔尼亚胡或将入狱4596年

不到24小时,以色列迎来6个噩耗,内塔尼亚胡或将入狱4596年

虎哥闲聊
2026-04-13 09:21:28
老板娘问我她穿丝袜好看吗?我该怎么回答?

老板娘问我她穿丝袜好看吗?我该怎么回答?

太急张三疯
2026-04-13 08:36:29
谈崩了!万斯返回美国,特朗普通告全球:不准中国向伊朗提供武器

谈崩了!万斯返回美国,特朗普通告全球:不准中国向伊朗提供武器

小撇说事
2026-04-13 09:51:29
4月13日A股猛料:特朗普要封锁霍尔姆兹海峡!全球股市或迎巨震?

4月13日A股猛料:特朗普要封锁霍尔姆兹海峡!全球股市或迎巨震?

丁丁鲤史纪
2026-04-13 11:25:13
42岁女子频繁胸闷心悸,心电图和心脏彩超都正常,最后竟确诊这病

42岁女子频繁胸闷心悸,心电图和心脏彩超都正常,最后竟确诊这病

医学原创故事会
2026-04-07 23:58:06
单依纯不简单啊

单依纯不简单啊

牛锅巴小钒
2026-03-30 10:43:11
娜然首晒和霍启山游玩意大利照片,素颜很美有气质

娜然首晒和霍启山游玩意大利照片,素颜很美有气质

贾妈的幸福生活
2026-04-10 15:27:49
研究表明:男性嫖娼率6.4%,女性出轨率15%,且越有钱越开放!

研究表明:男性嫖娼率6.4%,女性出轨率15%,且越有钱越开放!

黯泉
2026-04-01 17:28:39
赌王何鸿燊女儿何超蕸安详辞世 揭长年苦战乳癌 养和医院度过最后时光

赌王何鸿燊女儿何超蕸安详辞世 揭长年苦战乳癌 养和医院度过最后时光

TVB资讯台
2026-04-12 21:39:36
一夜之间,中国网球连夺2冠!吴易昺破荒,张帅解锁全新纪录!

一夜之间,中国网球连夺2冠!吴易昺破荒,张帅解锁全新纪录!

刘姚尧的文字城堡
2026-04-13 10:12:02
这绝对是史上最不礼貌的键盘

这绝对是史上最不礼貌的键盘

放毒
2026-04-11 10:53:19
世锦赛13日播报!常冰玉再打147,中国至少6人晋级,丁俊晖开心

世锦赛13日播报!常冰玉再打147,中国至少6人晋级,丁俊晖开心

曹说体育
2026-04-13 10:09:41
刘越评上海德比:申花板凳发挥更大战斗力,海港控场能力下降

刘越评上海德比:申花板凳发挥更大战斗力,海港控场能力下降

懂球帝
2026-04-13 11:55:10
皮尔斯:状元签肯定都是内定的 萧华直接让老板们花几十亿竞拍

皮尔斯:状元签肯定都是内定的 萧华直接让老板们花几十亿竞拍

砚底沉香
2026-04-12 20:31:14
小鹏把L4级线控转向塞进50万车,博世看了都愣

小鹏把L4级线控转向塞进50万车,博世看了都愣

Ping值焦虑
2026-04-13 09:34:48
50年的风水先生谈阴宅:给祖坟添土的时候,这3个忌讳千万别犯

50年的风水先生谈阴宅:给祖坟添土的时候,这3个忌讳千万别犯

千秋文化
2026-04-05 18:57:53
2026-04-13 12:31:00
极客公园
极客公园
让最棒的创新成为头条
11949文章数 78868关注度
往期回顾 全部

科技要闻

传荣耀与字节跳动接洽“豆包手机”合作

头条要闻

村民拴绳拦道致骑车13岁男孩被割喉:气道、食管破裂

头条要闻

村民拴绳拦道致骑车13岁男孩被割喉:气道、食管破裂

体育要闻

一支球队不够烂,也是一种悲哀

娱乐要闻

贾玲减重后现身冯巩生日宴 身材未反弹

财经要闻

封锁,还是收费站?

汽车要闻

不止命名更纯粹 领克10/10+要做纯电操控新王

态度原创

房产
教育
手机
健康
亲子

房产要闻

土地供应突然暴跌!2026海口楼市,格局大变!

教育要闻

这8件幸福的小事,父母每周做两件,养出高能量的小孩

手机要闻

华为Pura X Max可选幻夜黑、橄榄金等5款配色,还有典藏版

干细胞抗衰4大误区,90%的人都中招

亲子要闻

广东夫妻生下黑色宝宝,8次亲子鉴定未果,妻子崩溃后说出原因

无障碍浏览 进入关怀版