网易首页 > 网易号 > 正文 申请入驻

谷歌推出前沿安全框架:评估AI模型严重风险,4个领域影响最大

0
分享至


智东西
编译 ZeR0
编辑 漠影

智东西5月18日消息,谷歌DeepMind昨晚推出AI前沿安全框架,并公布技术报告。


前沿安全框架是一套协议,强调了在AI模型发展过程中识别和缓解潜在风险的重要性,旨在主动识别未来可能造成严重伤害的AI能力,并建立检测和减轻它们的机制。

其计划是到2025年初全面实施这一初步框架。该框架侧重于模型级别的强大能力(如特殊机构或复杂的网络能力)所导致的严重风险,对谷歌的一致性研究进行补充。

在技术报告中,值得关注的是,保护安全性方面的主要缓解风险措施是保护模型权重,这里的安全似乎更多跟商业秘密相挂钩。

一、三大关键组成:识别危害阈值,定期评估检测,应用缓解措施

今天公布的第一版框架建立在谷歌对前沿模型中关键能力评估的研究基础上,并遵循了负责任的能力扩展这一新兴方法。

该框架有3个关键组成部分:


1、识别模型可能具有的严重危害的能力阈值。谷歌DeepMind研究了模型在高风险领域中可能造成严重伤害的路径,然后确定模型在造成这种伤害中必须发挥作用的最小能力水平,被称作“关键能力阈值”(CCLs),它们指导了谷歌DeepMind的评估和缓解方法。

2、定期评估前沿模型,以检测它们何时达到这些关键能力阈值。谷歌DeepMind将开发模型评估套件,称为“早期预警评估”,当模型接近CCL时,它将提醒并频繁运行,以便研究人员在达到阈值前注意到。

3、当模型达到早期预警评估时,应用缓解计划。这应考虑到利益和风险的总体平衡,以及预期的部署环境。这些缓解措施将主要关注安全性(防止模型泄露)和部署(防止滥用关键能力)。

二、两类缓解措施管理关键能力,4个领域最有可能造成严重风险

前沿安全框架提出了两类缓解措施:一是防止模型权重泄露,二是管理对部署中关键能力的访问并限制其表达

对于每一类缓解措施,谷歌DeepMind都制定了若干级别,使其能够根据所构成的风险调整措施的稳健性。

下表描述了可应用于模型权重以防止其泄漏的安全缓解级别。


根据技术报告,模型权重的泄露可能允许移除任何训练到模型中或与模型一起部署的保障措施,并因此访问(包括不良参与者)任何关键能力。

更高级别的安全缓解可以更好地防止模型权重的泄露,更严格地管理关键能力。但这些措施也可能减慢创新的速度,并降低能力的广泛可及性。

下表描述了部署缓解级别,以管理对部署中关键能力的访问并限制其表达。


关键能力的滥用可能或多或少难以与有益的使用区分开来,并且滥用的总体风险可能因部署上下文而异。因此,这里列出的缓解选项是说明性的,需针对不同的用例和风险进行调整。

谷歌DeepMind最初研究表明,未来基础模型的能力最有可能在这4个领域造成严重的风险:自主、生物安全、网络安全和机器学习研发

自主性、网络安全和生物安全方面,其主要目标是评估威胁行为者使用具有先进能力的模型进行有害活动并造成严重后果的程度。

对于机器学习研发而言,重点在于具有此类能力的模型是否能够使具有其他关键能力的模型得以传播,或者是否能够使AI能力快速且难以管理地升级。

其技术报告详细介绍了通过对自主性、生物安全、网络安全和机器学习研发风险领域的初步分析确定的一组初始CCL。


随着进一步研究,谷歌DeepMind预计这些CCL将不断发展,并增加更高级别或其他风险领域的CCL。

结语:坚持AI原则,定期审查和改进框架

该框架背后的研究刚刚起步,且进展迅速。谷歌DeepMind在前沿安全团队上投入了大量资金,协调了框架背后的跨职能工作,职责是推进前沿风险评估科学,并根据改进的知识完善其框架。

该团队开发了一个评估套件来评估关键能力的风险,特别是强调自主大语言模型agent,并在谷歌最先进的模型上进行了实际测试。

他们最近在描述这些评估的论文中还探讨了可能形成未来“早期预警系统”的机制。该系统描述了评估模型在当前无法完成的任务中离成功还有多远的技术方法,还包括一个专家预测团队对未来能力的预测。

遵循谷歌AI原则,谷歌DeepMind将定期审查和改进前沿安全框架,逐步加深对风险范畴、CCL和部署上下文的理解,并将继续校准针对CCL的具体缓解措施。

谷歌DeepMind希望与产学界和政府多方合作,共同开发和完善该框架,就评估未来几代AI模型安全性的标准和最佳实践达成一致。

来源:谷歌DeepMind

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
香港 → 上海,国产大飞机 C919 完成首次境外商业飞行

香港 → 上海,国产大飞机 C919 完成首次境外商业飞行

IT之家
2024-06-01 16:56:15
正式告别皇马!克罗斯:夺冠对我意义重大 我上周已进行告别

正式告别皇马!克罗斯:夺冠对我意义重大 我上周已进行告别

直播吧
2024-06-02 10:00:42
俄军空中优势终结,80架 F-16战机将闪亮登场

俄军空中优势终结,80架 F-16战机将闪亮登场

亡海中的彼岸花
2024-05-31 11:46:10
网传汪峰给森林北写歌,葛荟婕成预言家,他和李晨殊途同归了

网传汪峰给森林北写歌,葛荟婕成预言家,他和李晨殊途同归了

不八卦会死星人
2024-05-30 18:06:27
中国女排与日本女排第三周世联赛赛程:中国女排迎来超越日本机会

中国女排与日本女排第三周世联赛赛程:中国女排迎来超越日本机会

室内设计师阿喇
2024-06-02 08:23:54
联合国大会默哀一分钟

联合国大会默哀一分钟

鲁中晨报
2024-05-31 21:31:07
泰国足协主席:客战中国队很难,但球队客场踢韩国还拿下积分

泰国足协主席:客战中国队很难,但球队客场踢韩国还拿下积分

直播吧
2024-06-01 23:52:06
队记:火箭已经试训了状元大热门萨尔,法国天才愿意在休斯顿打球

队记:火箭已经试训了状元大热门萨尔,法国天才愿意在休斯顿打球

小诸葛拜仁主席霍内斯
2024-06-02 00:20:42
离婚十年后葛天首次公开谈论刘翔:他确实很酷,这说明我眼光不错

离婚十年后葛天首次公开谈论刘翔:他确实很酷,这说明我眼光不错

妖殿下
2024-06-02 05:05:19
安徽坍塌事故,赔偿金或是天文数字,承建方赔不起,最后谁兜底?

安徽坍塌事故,赔偿金或是天文数字,承建方赔不起,最后谁兜底?

历史有些冷
2024-06-01 17:30:03
3-0!神仙球打服华裔美女,孙颖莎取7连胜,下轮有望中日一姐对决

3-0!神仙球打服华裔美女,孙颖莎取7连胜,下轮有望中日一姐对决

钉钉陌上花开
2024-06-01 21:47:10
泰国的电线杆真的很繁忙!

泰国的电线杆真的很繁忙!

悠闲葡萄
2024-06-01 12:54:04
CBA快讯,广厦男篮引进新教练,辽宁裁掉2外援,付豪大合同续约!

CBA快讯,广厦男篮引进新教练,辽宁裁掉2外援,付豪大合同续约!

最爱生活汇
2024-06-02 10:38:01
刘汉承包绵阳机场,地头蛇王永成从中作梗,第二天就被灭门

刘汉承包绵阳机场,地头蛇王永成从中作梗,第二天就被灭门

纸鸢奇谭
2024-05-15 12:21:33
足坛第一人!64岁老帅神了,29年5夺欧冠冠军,已决定在皇马退休

足坛第一人!64岁老帅神了,29年5夺欧冠冠军,已决定在皇马退休

侧身凌空斩
2024-06-02 05:00:47
4-12完成超级大逆转!日本女排3-1美洲劲旅,仅落后中国队3.23分

4-12完成超级大逆转!日本女排3-1美洲劲旅,仅落后中国队3.23分

开心体育站
2024-06-01 18:40:11
原副总理姬鹏飞逝世后,其妻许寒冰继续为败类儿子奔走,成功了吗

原副总理姬鹏飞逝世后,其妻许寒冰继续为败类儿子奔走,成功了吗

小金鱼的眼泪
2024-05-25 15:40:36
为什么外国妈妈带娃很轻松,我国却很难?网友的回复如出一辙!

为什么外国妈妈带娃很轻松,我国却很难?网友的回复如出一辙!

阿燕姐说育儿
2024-06-02 00:13:48
美军航母真的被胡赛击中了?

美军航母真的被胡赛击中了?

战域笔墨
2024-06-01 15:01:32
美印太司令:解放军冷启动令我震惊,若不是演习,或已攻入台北市

美印太司令:解放军冷启动令我震惊,若不是演习,或已攻入台北市

王子看台海
2024-05-31 17:32:31
2024-06-02 12:04:49
智东西
智东西
聚焦智能变革,服务产业升级。
8587文章数 116483关注度
往期回顾 全部

科技要闻

成功着陆!嫦娥六号将开始月背“挖宝”

头条要闻

中国防长:谁胆敢把台湾从中国分裂出去 必将自取灭亡

头条要闻

中国防长:谁胆敢把台湾从中国分裂出去 必将自取灭亡

体育要闻

我已伤痕累累 却依然感动不了命运之神

娱乐要闻

白玉兰提名:胡歌、范伟争视帝

财经要闻

新造车5月销量: 小鹏乏力 问界暂"缺席"

汽车要闻

吉利银河E5 Flyme Auto智能座舱首发

态度原创

旅游
家居
本地
手机
艺术

旅游要闻

武侯祠开启“时光机”穿越到“那些年”

家居要闻

风雅自来 中式的和谐平衡

本地新闻

食味印象|歙县限定!枇杷味儿的清甜初夏

手机要闻

iQOO发618战报,vivo这个儿子真长大了

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

无障碍浏览 进入关怀版