网易首页 > 网易号 > 正文 申请入驻

新V观海外:Anthropic警示AI破坏力

0
分享至

陈沛/文 在OpenAI积极转型营利机构加速AI应用落地的同时,被视为OpenAI主要竞争对手的Anthropic新发布了一篇AI破坏力的报告,继续引领AI安全对齐研究的前沿风向。

Anthropic提出未来AI四类安全风险

Anthropic这篇名为《前沿模型破坏能力风险评估》报告提出,目前AI安全研究主要聚焦限制恶意用途,而随着未来AI能力将超过人类,也要提前研究AI主动破坏风险。

Anthropic具体研究了四类风险:通过安全可靠的方式误导人类决策、在系统中插入难以发现的错误代码、接受安全测试时故意隐藏危险能力、破坏人类建立的AI安全风险监测系统。

Anthropic也对这四种风险分别提出了评估场景、测试步骤、风险阈值、分析结果和发展展望,并对自家Claude-3-Opus、Claude-3.5-Sonnet模型做了评估。

评估结果是目前模型的破坏风险可控,但随着未来模型能力提升,提前研究更强力的应对措施完全是有必要的。

Anthropic的安全理念正吸引更多AI人才

Anthropic自2021年由Dario Amodei、Daniela Amodei等前OpenAI研究负责人创立。他们在OpenAI期间积累了丰富的深度学习、自然语言处理、AI安全研究经验,但在AI安全和可解释性方面理念不同,因此离开OpenAI自立门户。

Anthropic公司名字直接体现了以人为中心的理念,更强调构建可解释、安全可靠的AI系统,增强人们对AI的信任。

特别是去年OpenAI宣布由前首席科学家Ilya Sutskever和团队负责人Jan Leike牵头超级对齐研究后,立刻吸引大量关注。不过后来发生宫斗,OpenAI超级对齐负责人Jan Leike宣布加入更重视安全的Anthropic。近期选择加入Anthropic的还有OpenAI联合创始人John Schulman等。

这些高层加入让Anthropic实力大增,也表明Anthropic的安全理念开始获得回应,延续超级对齐研究。

对未来超级智能的安全风险尚未形成共识

虽然Anthropic对AI可解释性的探索可能对AI发展产生深远影响,但目前来看,如何看待AI风险还远没有形成共识。

例如图灵奖得主、Meta首席AI科学家Yann LeCun最近表示,对AI可能威胁人类生存的担忧完全是胡说八道。

此外,长期以来AI从业者中也有一种观点,认为AI公司过分强调技术危险性是为了凸显技术能力,以便在融资时获得更高估值。

这些观点与Anthropic的安全对齐研究其实不矛盾。因为安全对齐是假设未来超级智能出现,以此预测未来的未知风险,并站在今天的角度从底层开始分析和提前预防,因此很难直接下定论。

至少Anthropic的安全研究对我们能起到警示作用。在这次发布报告的结尾,Anthropic指出,在AI工具默认会帮助人类的情况下,人类用户很难对AI提供的建议产生合理怀疑。而这一点在接下来AI智能体应用开发过程中,如果不严加管理和高度对齐,必将会引发新的安全风险隐患。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
徐志胜的脱口秀小剧场陷入困境,合伙人卖房坚持,年亏损远超80万

徐志胜的脱口秀小剧场陷入困境,合伙人卖房坚持,年亏损远超80万

离离言几许
2026-02-09 10:43:53
台积电2025年员工分红超2061亿元新台币,人均约264万元新台币

台积电2025年员工分红超2061亿元新台币,人均约264万元新台币

IT之家
2026-02-11 15:18:17
网友偶遇59岁王祖贤,温柔如水,网友感慨:还是那个聂小倩的味道

网友偶遇59岁王祖贤,温柔如水,网友感慨:还是那个聂小倩的味道

世鑫的笔记
2026-02-11 09:37:52
女孩首次回男友老家见公婆,却连夜跑路,可全网都夸她人间清醒

女孩首次回男友老家见公婆,却连夜跑路,可全网都夸她人间清醒

观世记
2026-02-11 17:02:13
华住会被约谈,旗下有全季、汉庭、桔子等酒店品牌

华住会被约谈,旗下有全季、汉庭、桔子等酒店品牌

红星新闻
2026-02-11 17:26:50
我61岁,和45岁女舞伴搭伙过日子,新婚夜她突然提出一个要求

我61岁,和45岁女舞伴搭伙过日子,新婚夜她突然提出一个要求

小月故事
2026-02-05 11:02:18
有点惨,CBA俱乐部杯季军战球员名单:广厦仅8人出战

有点惨,CBA俱乐部杯季军战球员名单:广厦仅8人出战

懂球帝
2026-02-11 19:07:57
正式告别,29岁陈幸同深夜发声,4个字表明态度,周启豪看懂

正式告别,29岁陈幸同深夜发声,4个字表明态度,周启豪看懂

卿子书
2026-02-11 00:08:52
血泪教训:不要跟任何人,包括你的父母,子女,枕边人,分享这三件事。

血泪教训:不要跟任何人,包括你的父母,子女,枕边人,分享这三件事。

小影的娱乐
2026-01-14 00:12:47
伊朗,突发!特朗普,重大宣布!

伊朗,突发!特朗普,重大宣布!

新浪财经
2026-02-11 09:52:29
2026年最悲壮IPO!小米智能锁代工厂,利润低到尘埃

2026年最悲壮IPO!小米智能锁代工厂,利润低到尘埃

说财猫
2026-02-11 15:40:58
卡佩罗:C罗没有梅西、马拉多纳和大罗的天赋;老佛爷独断专行

卡佩罗:C罗没有梅西、马拉多纳和大罗的天赋;老佛爷独断专行

懂球帝
2026-02-11 10:11:30
快船3配角把价值打没了!桑德斯米勒转正后连崩,尼德豪泽迷失!

快船3配角把价值打没了!桑德斯米勒转正后连崩,尼德豪泽迷失!

篮球资讯达人
2026-02-11 13:27:15
巴萨主席候选人:巴萨比5年前更糟,较当时损失了2.8亿欧元

巴萨主席候选人:巴萨比5年前更糟,较当时损失了2.8亿欧元

懂球帝
2026-02-11 19:07:57
闫学晶如今愁的不是代言问题,也不是名声,而是自己的儿媳妇

闫学晶如今愁的不是代言问题,也不是名声,而是自己的儿媳妇

草莓解说体育
2026-02-11 19:06:39
索菲亚,经销商跑了

索菲亚,经销商跑了

拾遗地
2026-02-10 14:14:44
王曼昱也不曾想到,孙颖莎拿下冠军24小时,自己的处境会如此尴尬

王曼昱也不曾想到,孙颖莎拿下冠军24小时,自己的处境会如此尴尬

胡一舸南游y
2026-02-11 13:48:30
陈冲弃养的中国双胞胎,25年无下落?萝莉岛300万页文件让人不安

陈冲弃养的中国双胞胎,25年无下落?萝莉岛300万页文件让人不安

壹月情感
2026-02-10 23:43:27
男子用鞋带捆绑妻子双手,强行与其发生性行为,事后烧炭恐吓同归于尽,被判6年

男子用鞋带捆绑妻子双手,强行与其发生性行为,事后烧炭恐吓同归于尽,被判6年

都市快报橙柿互动
2026-02-11 16:22:13
美媒:多名共和党众议员“倒戈”,导致保护特朗普政府关税政策的动议未能通过

美媒:多名共和党众议员“倒戈”,导致保护特朗普政府关税政策的动议未能通过

环球网资讯
2026-02-11 16:25:35
2026-02-11 20:12:49
经济观察报 incentive-icons
经济观察报
经济观察报是专注于财经新闻与经济分析的全国性综合财经类媒体。聚焦商道、商技和商机。
112994文章数 1606444关注度
往期回顾 全部

科技要闻

痛失两位华裔大佬!马斯克为何留不住人心

头条要闻

小红书疑推送擦边内容 有主播超短裙仅能盖住隐私部位

头条要闻

小红书疑推送擦边内容 有主播超短裙仅能盖住隐私部位

体育要闻

搞垮一个冬奥选手,只需要一首歌?

娱乐要闻

汪峰吃惊!章子怡年前6天高调官宣喜讯

财经要闻

习酒节前价格雪崩控量稳价变空谈

汽车要闻

比亚迪最美B级SUV? 宋Ultra这腰线美翻了

态度原创

时尚
家居
游戏
房产
数码

冬季穿出高级感,全靠这3个招数简单好懂,中年女人赶紧照搬

家居要闻

简雅闲居 静享时光柔

《深海迷航2》开发商称联机模式并非强制 全程可单人游玩

房产要闻

177亿元,砸向超级城更!海南这座城,正式起飞!

数码要闻

Meta为Quest 3头显带来Surface Keyboard功能

无障碍浏览 进入关怀版