网易首页 > 网易号 > 正文 申请入驻

DeepMind发布AI安全报告:警示"失调"AI的潜在威胁

0
分享至

生成式AI模型虽然远非完美,但这并未阻止企业甚至政府将重要任务交给这些AI系统。但当AI出现问题时会发生什么?Google DeepMind的研究人员花费大量时间思考生成式AI系统如何可能成为威胁,并在公司的前沿安全框架中详细阐述了这些问题。DeepMind最近发布了该框架的3.0版本,探索AI可能失控的更多方式,包括模型可能忽视用户关闭它们的尝试。

DeepMind的安全框架基于所谓的"关键能力水平"(CCL)。这些本质上是风险评估标准,旨在衡量AI模型的能力,并定义其行为在网络安全或生物科学等领域变得危险的临界点。该文件还详细说明了开发者如何解决DeepMind在其模型中识别出的CCL问题。

Google和其他深入研究生成式AI的公司采用多种技术来防止AI恶意行为。虽然称AI为"恶意"赋予了它复杂估算架构所不具备的意图性。我们这里讨论的是生成式AI系统本性中固有的误用或故障可能性。

更新后的框架指出,开发者应采取预防措施确保模型安全。具体而言,它要求对更强大AI系统的模型权重进行适当保护。研究人员担心模型权重的泄露会给恶意行为者机会,让他们能够禁用旨在防止恶意行为的防护栏。这可能导致像创建更有效恶意软件或协助设计生物武器的机器人等CCL问题。

DeepMind还指出了AI可能被调整为具有操控性并系统性地改变人们信念的可能性——考虑到人们如何对聊天机器人产生依恋,这种CCL似乎相当可信。然而,团队在这方面没有很好的解决方案,指出这是一个"低速度"威胁,我们现有的"社会防御"应该足以完成任务,而无需可能阻碍创新的新限制。不过,这可能对人们期望过高。

DeepMind还涉及了关于AI的一个元关注点。研究人员表示,如果强大的AI落入坏人之手,被用来加速机器学习研究,可能会很危险,导致创造出更有能力且不受限制的AI模型。DeepMind表示这可能"对社会适应和治理强大AI模型的能力产生重大影响"。DeepMind将此评级为比大多数其他CCL更严重的威胁。

失调的AI

大多数AI安全缓解措施都基于模型至少试图遵循指令的假设。尽管经历了多年的幻觉问题,研究人员仍未能使这些模型完全可信或准确,但模型的激励机制可能被扭曲,无论是意外还是故意。如果失调的AI开始积极对抗人类或忽视指令,这就是一个超越简单幻觉的新问题。

前沿安全框架第3版引入了理解失调AI风险的"探索性方法"。已经有记录显示生成式AI模型从事欺骗和反抗行为的实例,DeepMind研究人员担心未来可能难以监控这种行为。

失调的AI可能忽视人类指令、产生欺诈性输出,或在被要求停止时拒绝停止运行。目前,有相当直接的方法来应对这种结果。今天最先进的模拟推理模型在思考过程中产生"草稿"输出。建议开发者使用自动监控器来双重检查模型的思维链输出,寻找失调或欺骗的证据。

Google表示这个CCL在未来可能变得更加严重。团队认为未来几年的模型可能演化为具有有效的模拟推理而不产生可验证的思维链。因此你的监督防护栏无法窥视这种模型的推理过程。对于这种理论上的先进AI,可能无法完全排除模型正在对抗其人类操作者利益的可能性。

该框架目前还没有解决这个问题的好方案。DeepMind表示正在研究失调AI的可能缓解措施,但很难知道这个问题何时或是否会成为现实。这些"思考型"模型只是在大约一年前才变得普遍,关于它们如何得出给定输出,我们仍有很多不了解的地方。

Q&A

Q1:什么是关键能力水平CCL?它有什么作用?

A:关键能力水平(CCL)是DeepMind安全框架的核心概念,本质上是风险评估标准,旨在衡量AI模型的能力,并定义其行为在网络安全或生物科学等领域变得危险的临界点。通过CCL可以识别AI模型何时可能出现危险行为。

Q2:失调AI和普通AI故障有什么区别?

A:失调AI是指模型的激励机制被扭曲,开始积极对抗人类或忽视指令的情况,这超越了简单的幻觉问题。与普通故障不同,失调AI可能会忽视人类指令、产生欺诈性输出,或在被要求停止时拒绝停止运行。

Q3:如何防范模型权重泄露带来的风险?

A:DeepMind建议开发者对更强大AI系统的模型权重进行适当保护。研究人员担心模型权重泄露会让恶意行为者有机会禁用防护栏,可能导致创建更有效恶意软件或协助设计生物武器等危险后果。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
著名企业家李建宏国外遭车祸去世,享年60岁,靠3万元起步打造14亿资产集团,53岁登顶珠峰

著名企业家李建宏国外遭车祸去世,享年60岁,靠3万元起步打造14亿资产集团,53岁登顶珠峰

极目新闻
2026-05-01 12:53:20
詹姆斯多强:单节14-13超火箭全队 迎湖人生涯季后赛1500分里程碑

詹姆斯多强:单节14-13超火箭全队 迎湖人生涯季后赛1500分里程碑

醉卧浮生
2026-05-02 11:14:43
发呆大赛有人三分钟就被淘汰 七女生坚持七小时平分冠军奖金 女老师蝉联

发呆大赛有人三分钟就被淘汰 七女生坚持七小时平分冠军奖金 女老师蝉联

红星新闻
2026-05-02 00:10:17
骑士两大败因出炉,哈登无可挑剔!米切尔毫无借口,阿特金森该批

骑士两大败因出炉,哈登无可挑剔!米切尔毫无借口,阿特金森该批

鱼崖大话篮球
2026-05-02 11:25:42
惜败!哈登16+9全队第一,巴雷特准绝杀,米切尔24+5莫布里犯大错

惜败!哈登16+9全队第一,巴雷特准绝杀,米切尔24+5莫布里犯大错

鱼崖大话篮球
2026-05-02 10:44:23
陕西男子3次报警,民警拒不派警,致两家四口被杀,法院咋判的?

陕西男子3次报警,民警拒不派警,致两家四口被杀,法院咋判的?

就一点
2026-04-29 17:28:35
我国急需改名的5座城市,起名太随意,连本地人也吐槽名字有点土

我国急需改名的5座城市,起名太随意,连本地人也吐槽名字有点土

长风文史
2026-04-30 22:08:50
孙杨他妈是嫌孙杨“凉”得还不够彻底吗?

孙杨他妈是嫌孙杨“凉”得还不够彻底吗?

葱哥说
2026-04-30 21:24:28
突发!5家热门赛道龙头股集体被ST,抄底股民踩大雷

突发!5家热门赛道龙头股集体被ST,抄底股民踩大雷

财经智多星
2026-04-30 08:23:01
范冰冰 大方公开 :18亿是真 ,没打算复合。

范冰冰 大方公开 :18亿是真 ,没打算复合。

In风尚
2026-05-02 06:04:17
换装纯正“中国心”的运-20B,强在何处?

换装纯正“中国心”的运-20B,强在何处?

环球网资讯
2026-05-02 09:12:58
“三哥,你尾款我不要了!”中国外贸人反杀印度老赖,招招绝了!

“三哥,你尾款我不要了!”中国外贸人反杀印度老赖,招招绝了!

坠入二次元的海洋
2026-05-01 15:25:23
央视不买世界杯天价电视转播权,没想到球迷一边倒地支持!

央视不买世界杯天价电视转播权,没想到球迷一边倒地支持!

达文西看世界
2026-05-01 19:00:14
詹姆斯18+5!湖人49-31火箭,看数据:他就是头号功臣!

詹姆斯18+5!湖人49-31火箭,看数据:他就是头号功臣!

运筹帷幄的篮球
2026-05-02 11:06:11
未爆弹药爆炸致伊朗伊斯兰革命卫队14人死亡

未爆弹药爆炸致伊朗伊斯兰革命卫队14人死亡

新华社
2026-05-02 02:20:54
为了得到大哥的妻子旺达,伊卡尔迪究极付出了多大的代价?

为了得到大哥的妻子旺达,伊卡尔迪究极付出了多大的代价?

罗氏八卦
2026-05-01 18:05:03
致命失误!骑士惨遭三分绝杀:全场狂欢庆祝,哈登空砍16+9+9

致命失误!骑士惨遭三分绝杀:全场狂欢庆祝,哈登空砍16+9+9

体坛小李
2026-05-02 11:13:01
打满44分钟!哈登16+9+9燃尽自己 骑士加时惨遭绝杀被拖进抢七

打满44分钟!哈登16+9+9燃尽自己 骑士加时惨遭绝杀被拖进抢七

狍子歪解体坛
2026-05-02 10:37:15
篮筐盖盖儿!魔术连续23投打铁,创NBA季后赛26年来最尴尬纪录

篮筐盖盖儿!魔术连续23投打铁,创NBA季后赛26年来最尴尬纪录

懂球帝
2026-05-02 11:37:05
拖入抢七大战!巴雷特三分绝杀,哈登准三双,猛龙加时险胜骑士

拖入抢七大战!巴雷特三分绝杀,哈登准三双,猛龙加时险胜骑士

全景体育V
2026-05-02 10:31:41
2026-05-02 11:51:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
18162文章数 49702关注度
往期回顾 全部

科技要闻

AI热潮耗尽库存,Mac Mini起售调高200美元

头条要闻

德国学者:欧盟现在必须"拿出点骨气" 挺身对抗特朗普

头条要闻

德国学者:欧盟现在必须"拿出点骨气" 挺身对抗特朗普

体育要闻

坎宁安大逆转:像看到了2006-08的勒布朗

娱乐要闻

白百何罕晒大儿子 18岁元宝越来越帅

财经要闻

雷军很努力 小米还是跌破了30港元大关

汽车要闻

新纪录!零跑汽车4月交付达71387台

态度原创

亲子
数码
教育
时尚
军事航空

亲子要闻

五一快乐,今天在家里遛娃,发现小区里最好的风景

数码要闻

英特尔为酷睿Ultra 9 386H解锁LPDDR5X-9600支持,雷蛇导入

教育要闻

“凭啥男士优先?”女生不满专业要求,被嘲:防的就是你这种人!

聪明女人衣服从来不买太多!这三种精品提前准备好,耐穿又实用

军事要闻

特朗普:对伊战事结束 无限期延长停火

无障碍浏览 进入关怀版