网易首页 > 网易号 > 正文 申请入驻

Google DeepMind 推出评估AI模型危险性的新框架

0
分享至

Google DeepMind 周五发布了一个框架,用于窥视人工智能模型内部,以确定它们是否正在接近危险能力。周五发布的论文描述了这样一个过程:每当用于训练模型的计算能力提高六倍,或者微调三个月,DeepMind 的模型就会被重新评估。在两次评估之间,DeepMind 将设计预警评估。

根据一份与 Semafor 独家分享的声明,DeepMind 将与其他公司、学术界和立法者合作,共同完善该框架。该公司计划在2025年前开始实施其审计工具。

如今,评估功能强大的前沿人工智能模型更像是一个临时过程,随着研究人员开发新技术而不断演变。"红队"会花费数周或数月的时间对其进行测试,尝试可能绕过保障措施的不同提示。然后,公司会采用各种技术,从强化学习到特殊提示,使模型符合要求。

这种方法对现在的模型很有效,因为它们还不够强大,不足以构成太大的威胁,但研究人员认为,随着模型能力的增强,需要一个更强大的过程。批评者担心,当人们意识到这种技术已经走得太远时,为时已晚。

DeepMind 发布的"前沿安全框架"希望解决这个问题。这是包括 Meta、OpenAI 和微软在内的主要科技公司为减轻人们对人工智能的担忧而宣布的几种方法之一。

该公司表示:"尽管这些风险超出了现有模型的能力范围,但我们希望实施和改进该框架将有助于我们做好应对这些风险的准备。"

DeepMind 开发人工智能模型"预警"系统已有一年多时间。它还发表了关于评估模型的新方法的论文,这些方法远远超出了目前大多数公司所使用的方法。

前沿模型框架将这些进展纳入一套简洁的协议中,包括对模型的持续评估,以及研究人员在发现所谓"临界能力水平"时应采取的缓解方法。这可能是指模型能够通过操纵人类对其施加意志,在人工智能研究领域被称为"超常代理",也可能是指模型具有编写复杂恶意软件的能力。

DeepMind 为四个领域设定了具体的关键能力级别:自主、生物安全、网络安全和机器学习研发。

该公司表示:"在降低风险与促进获取和创新之间取得最佳平衡,对于负责任地发展人工智能至关重要。"DeepMind 将于下周在首尔举行的人工智能安全峰会上讨论该框架,届时其他行业领袖也将出席。

令人鼓舞的是,DeepMind 的人工智能研究人员正在用更科学的方法确定人工智能模型内部发生了什么,尽管他们还有很长的路要走。

研究人员在能力方面取得突破的同时,也在提高他们理解并最终控制这些软件的能力,这对人工智能安全也很有帮助。

不过,今天发布的论文对如何进行这些评估的技术细节着墨不多。就目前而言,可以说我们还不知道目前的技术是否能让这个框架取得成功。

这其中还有一个有趣的监管因素。由加州参议员斯科特-维纳(Scott Wiener)发起的一项新的人工智能综合法案将要求人工智能公司在训练模型之前对其危险性进行评估。这个框架是目前看到的第一个可能使遵守该法律成为可能的框架。但同样还不清楚技术上是否可行。

还有一点:构建这些技术还有另一种用途:它可以帮助公司预测人工智能模型的能力在未来数月或数年内会发生怎样的变化。这些知识可以帮助产品团队更快地设计出新产品,从而为Google和其他有能力进行这些评估的公司带来优势。

https://deepmind.google/discover/blog/introducing-the-frontier-safety-framework/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
警告三次不如动真格一次!中国下达逐客令,巴拿马反应出乎意料

警告三次不如动真格一次!中国下达逐客令,巴拿马反应出乎意料

不似少年游
2026-04-18 07:51:01
天啊!看到1987年春晚观众席的迟重瑞,才懂陈丽华为啥一见钟情

天啊!看到1987年春晚观众席的迟重瑞,才懂陈丽华为啥一见钟情

真的八卦小学弟
2026-04-12 00:30:12
4月17日俄乌最新:川普开始打方向盘了

4月17日俄乌最新:川普开始打方向盘了

西楼饮月
2026-04-17 18:46:46
震惊!月薪3000、26岁株洲女子征婚,要对方月入2.5万、存款200万

震惊!月薪3000、26岁株洲女子征婚,要对方月入2.5万、存款200万

火山詩话
2026-04-18 13:20:01
美国“实话实说”:中国电子战机水平差距惊人,不要吹过头了

美国“实话实说”:中国电子战机水平差距惊人,不要吹过头了

咣当地球
2026-04-17 21:13:52
美籍华人回国捞金遭驱逐,52岁成笑柄

美籍华人回国捞金遭驱逐,52岁成笑柄

晓帝爱八卦
2026-04-18 16:39:02
男星查理·辛嗜性成瘾,曾一天与五人发生关系,连男人他也不放过

男星查理·辛嗜性成瘾,曾一天与五人发生关系,连男人他也不放过

七阿姨爱八卦
2026-04-12 17:14:49
揭秘广东退休金真相:37年工龄与4100元退休金是否亏了?

揭秘广东退休金真相:37年工龄与4100元退休金是否亏了?

阿莱美食汇
2026-04-18 17:03:43
实探鸣鸣很忙“全球最大零食店”:开业即限流、试吃排长队 欲做零食“平台方”

实探鸣鸣很忙“全球最大零食店”:开业即限流、试吃排长队 欲做零食“平台方”

财联社
2026-04-17 21:10:26
一江西苍蝇小馆夫妻档走红网络!卢克文感慨,可能这一生就这样了

一江西苍蝇小馆夫妻档走红网络!卢克文感慨,可能这一生就这样了

火山詩话
2026-04-17 06:32:13
“你喊那么大声干嘛?”00后强势回怼领导,场面一度失控!

“你喊那么大声干嘛?”00后强势回怼领导,场面一度失控!

一丝不苟的法律人
2026-04-14 10:37:26
蔚来ES8被大量用户投诉座椅塌陷问题 涉及多个版本

蔚来ES8被大量用户投诉座椅塌陷问题 涉及多个版本

CNMO科技
2026-04-17 18:44:15
王海再次“打假”胖东来!指其售卖“防切割手套”篡改日期,胖东来发布调查报告:不实!仍奖投诉顾客1万元,所有购买该产品顾客全额退款

王海再次“打假”胖东来!指其售卖“防切割手套”篡改日期,胖东来发布调查报告:不实!仍奖投诉顾客1万元,所有购买该产品顾客全额退款

大象新闻
2026-04-18 14:47:07
油尽灯枯,菲律宾第一个倒下!

油尽灯枯,菲律宾第一个倒下!

李荣茂
2026-04-17 19:05:55
善恶到头终有报,如今73岁的唐国强,已经走上了一条不归路!

善恶到头终有报,如今73岁的唐国强,已经走上了一条不归路!

吴蒂旅行ing
2026-03-20 05:20:46
岸田文雄出山!当着30国的面,对国民发出呼吁:日本不能重演悲剧

岸田文雄出山!当着30国的面,对国民发出呼吁:日本不能重演悲剧

聊历史的阿稼
2026-04-18 15:39:20
才20天!蔡正元头发全白,邱毅探监泪目:里面太苦

才20天!蔡正元头发全白,邱毅探监泪目:里面太苦

小影的娱乐
2026-04-17 04:47:49
研究表明:我国男性的早泄率只有2.3%,勃起功能障碍却高达35%!

研究表明:我国男性的早泄率只有2.3%,勃起功能障碍却高达35%!

黯泉
2026-04-14 18:19:30
撒切尔夫人逝世,全国民狂欢庆祝,她做了什么让英国人恨之入骨?

撒切尔夫人逝世,全国民狂欢庆祝,她做了什么让英国人恨之入骨?

唠叨说历史
2026-01-04 16:31:41
全红婵本可以像张家齐一样,从容选择退役,但她没有。

全红婵本可以像张家齐一样,从容选择退役,但她没有。

大秦共和国
2026-04-17 17:10:15
2026-04-18 19:59:00
cnBeta.COM incentive-icons
cnBeta.COM
提供IT行业即时资讯
67445文章数 70164关注度
往期回顾 全部

科技要闻

传Meta下月拟裁8000 大举清退人力为AI腾位

头条要闻

特朗普又定下停火最后期限:否则不得不再次投掷炸弹

头条要闻

特朗普又定下停火最后期限:否则不得不再次投掷炸弹

体育要闻

时隔25年重返英超!没有人再嘲笑他了

娱乐要闻

《穿普拉达的女王2》疑似辱华?

财经要闻

"影子万科"2.0:管理层如何吸血万物云?

汽车要闻

奇瑞威麟R08 PRO正式上市 售价14.48万元起

态度原创

本地
数码
房产
时尚
公开课

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

数码要闻

行业首发!智界V9将搭载恒冷智能大冰箱:断电不断冷

房产要闻

官宣签约最强城更!海口楼市,突然杀入神秘房企!

今天流行的冰蓝色太适合春夏了,谁穿谁美!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版