网易首页 > 网易号 > 正文 申请入驻

洛斯阿拉莫斯新防御方法保护AI模型免受攻击

0
分享至

神经网络是一种以人脑连接为模型的人工智能,正在推动广泛科学领域的关键突破。但这些模型面临着来自对抗性攻击的重大威胁,这些攻击可能会破坏预测并产生不正确的信息。美国洛斯阿拉莫斯国家实验室的研究人员开创了一种新的净化策略,可以抵消对抗性攻击,并保持神经网络的强大性能。

洛斯阿拉莫斯计算机科学家Manish Bhattarai说:“对人工智能系统的对抗性攻击可以采取对输入图像进行微小、几乎不可见的调整的形式,这些细微的修改可以使模型朝着攻击者想要的结果发展。”“这些漏洞允许恶意行为者在真实输出的幌子下,用欺骗性或有害内容充斥数字渠道,对人工智能驱动技术的信任和可靠性构成直接威胁。”

低秩迭代扩散(LoRID)方法通过利用生成去噪扩散过程的强大功能与先进的张量分解技术相结合,从输入数据中消除对抗性干预。在对基准数据集的一系列测试中,LoRID在消除攻击场景中的对抗噪声方面取得了无与伦比的准确性,有可能提高更安全、更可靠的人工智能能力。

扩散是一种通过向数据中添加噪声,然后教模型去除噪声来训练人工智能模型的技术。通过学习清理噪声,人工智能模型有效地学习了数据的底层结构,使其能够自行生成逼真的样本。在基于扩散的净化中,该模型利用其对“干净”数据的学习表示来识别和消除输入中引入的任何对抗性干扰。

不幸的是,应用太多的噪声净化步骤会从数据中剥离出重要的细节——类似用力擦洗照片会使其失去清晰度——而太少的步骤会为有害的干扰留下挥之不去的空间。LoRID方法通过在扩散过程的早期阶段采用多轮去噪来导航这种权衡,帮助模型在不损害数据有意义内容的情况下精确消除适量的噪声,从而增强模型的抗攻击性。

至关重要的是,对抗性输入通常会揭示出微妙的“低级”特征——这些模式可能会绕过复杂的防御。通过引入一种称为张量分解的技术,LoRID精确地指出了这些低阶方面,从而增强了模型在大型对抗攻击中的防御能力。

该团队使用广泛认可的基准数据集(如CIFAR-10、CIFAR-100、Celebr HQ和ImageNet)测试了LoRID,评估了其对抗最先进的黑盒和白盒攻击的性能。在白盒攻击中,对手完全了解AI模型的架构和参数。在黑盒攻击中,他们只看到输入和输出,隐藏了模型的内部工作。在每次测试中,LoRID的表现始终优于其他方法,特别是在鲁棒精度方面,鲁棒精度是模型在对抗威胁下可靠性的关键指标。

该团队在实验室最新的具有人工智能能力的超级计算机Venado上运行了LoRID模型,以测试一系列最先进的视觉模型对抗黑盒和白盒攻击。

通过利用多个Venado节点数周——考虑到巨大的计算需求,这是一项雄心勃勃的努力——他们成为第一个进行如此全面分析的团队。Venado的强大功能将数月的模拟时间缩短到了几个小时,将总开发时间从几年缩短到了一个月,并显著降低了计算成本。

无论在哪里应用神经网络或机器学习应用,强大的净化方法都可以增强人工智能的安全性,包括在实验室的国家安全任务中。

洛斯阿拉莫斯人工智能研究员Minh Vu表示:“我们的方法在著名数据集的最先进性能方面树立了新的基准,在白盒和黑盒攻击场景下都表现出色。”“这一成就意味着我们现在可以在使用数据训练基础模型之前净化数据,无论是私人还是公共来源,确保其安全性和完整性,同时始终如一地提供准确的结果。”

该团队在人工智能促进协会主办的著名的AAAI人工智能会议(AAAI-2025)上展示了他们的工作和成果。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
秦皇岛大姐逃单偷狗后续:正脸曝光,被人认出已社死,摊主不和解

秦皇岛大姐逃单偷狗后续:正脸曝光,被人认出已社死,摊主不和解

奇思妙想草叶君
2026-04-24 11:33:43
兄弟德比一边倒!蓉城39分钟轰3球,浙江被打崩,韦世豪锦上添花

兄弟德比一边倒!蓉城39分钟轰3球,浙江被打崩,韦世豪锦上添花

奥拜尔
2026-04-25 19:47:04
皮蛋再次成为关注对象!研究发现:高血脂吃皮蛋,身体或有6改善

皮蛋再次成为关注对象!研究发现:高血脂吃皮蛋,身体或有6改善

健康科普365
2026-04-25 09:27:08
蔡振华现状:65岁圆满无遗憾,享受退休生活,唯独37岁儿子让他愁

蔡振华现状:65岁圆满无遗憾,享受退休生活,唯独37岁儿子让他愁

洲洲影视娱评
2026-04-14 13:58:26
从谷雨到立夏,这3种“护肝菜”再贵也要吃!养个好身体,好过夏

从谷雨到立夏,这3种“护肝菜”再贵也要吃!养个好身体,好过夏

阿龙美食记
2026-04-23 08:11:53
两性关系:55-65岁这十年,惜命最好的方式,不是锻炼,而是这6点

两性关系:55-65岁这十年,惜命最好的方式,不是锻炼,而是这6点

周哥一影视
2026-04-17 06:45:59
中国全面断供开始,高市请出日本八旬老将访华,中方已读未答应

中国全面断供开始,高市请出日本八旬老将访华,中方已读未答应

流史岁月
2026-04-25 14:00:03
袁军波突发心脏疾病,不幸离世

袁军波突发心脏疾病,不幸离世

台州交通广播
2026-04-25 18:10:05
印度否认军机坠毁

印度否认军机坠毁

新华社
2026-04-24 23:48:02
快讯!赖办“资政”谢长廷表态了!

快讯!赖办“资政”谢长廷表态了!

达文西看世界
2026-04-25 14:46:29
多名院士调查发现:吃一口放久变软的香蕉,或等于进一次毒?真假

多名院士调查发现:吃一口放久变软的香蕉,或等于进一次毒?真假

荆医生科普
2026-04-25 16:03:38
伊朗用血泪给中国换来了教训:最大的敌人,并不是美国和以色列

伊朗用血泪给中国换来了教训:最大的敌人,并不是美国和以色列

墨印斋
2026-04-23 15:42:00
强对流天气+雷电+10级大风,济南发布重要天气预报;山东局部有中雨

强对流天气+雷电+10级大风,济南发布重要天气预报;山东局部有中雨

鲁中晨报
2026-04-25 17:16:07
特朗普发长文攻击华裔和印度裔移民,你说集中营还远吗?

特朗普发长文攻击华裔和印度裔移民,你说集中营还远吗?

谈芯说科技
2026-04-24 22:05:35
马苏深夜哽咽“一个人很久了”!孔令辉隔空回应:是我没顾上她

马苏深夜哽咽“一个人很久了”!孔令辉隔空回应:是我没顾上她

时间巡查
2026-04-25 16:06:47
暴雨,大暴雨!明起,新一轮强降雨来袭

暴雨,大暴雨!明起,新一轮强降雨来袭

新浪财经
2026-04-25 17:01:34
悲催!毕业后拼到的浙江体制工作,被妈妈毁了,孩子现去新疆发展

悲催!毕业后拼到的浙江体制工作,被妈妈毁了,孩子现去新疆发展

火山詩话
2026-04-25 09:47:37
“只顾自己纹眉,不管女儿死活?”14岁女孩生日照,脸上全是槽点

“只顾自己纹眉,不管女儿死活?”14岁女孩生日照,脸上全是槽点

蝴蝶花雨话教育
2026-04-25 00:45:03
正在直播!斯诺克世锦赛:八强再出二,丁俊晖vs赵心童二阶段开打

正在直播!斯诺克世锦赛:八强再出二,丁俊晖vs赵心童二阶段开打

金风说
2026-04-25 17:13:42
急得满头大汗的印度,终于买到了尿素,但是和他们想的大不一样!

急得满头大汗的印度,终于买到了尿素,但是和他们想的大不一样!

达文西看世界
2026-04-25 11:40:56
2026-04-25 20:59:00
Ai时代前沿
Ai时代前沿
人工智能新闻动态及应用案例。
1718文章数 511关注度
往期回顾 全部

科技要闻

DeepSeek V4发布!黄仁勋预言的"灾难"降临

头条要闻

男童7岁18斤被当脑瘫治多年 父母查其出生病历发现问题

头条要闻

男童7岁18斤被当脑瘫治多年 父母查其出生病历发现问题

体育要闻

火箭0-3触发百分百出局定律:本季加时赛9战8败

娱乐要闻

《我们的爸爸2》第一季完美爸爸翻车了

财经要闻

90%订单消失,中东旺季没了

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

教育
旅游
游戏
亲子
公开课

教育要闻

我国“就业率逼近100%”的5所双非大学,500多分就能上!

旅游要闻

从“中国游”到“中式生活”:外国人眼中的中国魅力与巨变

LCK第二赛段:Faker冰鸟救世,T1横扫BRO

亲子要闻

我国儿童肿瘤生存率首次纳入年报体系!5年达76%,不同癌种差异显著

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版