网易首页 > 网易号 > 正文 申请入驻

复旦主导,中美等8个国家25家单位联合发布大模型安全技术综述

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

近年来,随着大模型的快速发展和广泛应用,其安全问题引发了社会各界的广泛关注。例如,近期发生的「全球首例利用 ChatGPT 策划的恐袭事件」再次敲响了警钟,凸显了大模型安全问题的紧迫性和重要性。

为应对这一挑战,来自中美英德等 8 个国家 25 家高校和科研机构的 44 位 AI 安全领域学者联合发布了一篇系统性技术综述论文。该论文的第一作者是复旦大学马兴军老师,通信作者是复旦大学姜育刚老师,领域内众多知名学者共同参与。

  • 论文标题:Safety at Scale: A Comprehensive Survey of Large Model Safety
  • 论文地址:https://arxiv.org/abs/2502.05206
  • GitHub 主页:https://github.com/xingjunm/Awesome-Large-Model-Safety

这篇综述论文全面调研了近年来大模型安全相关的 390 篇研究工作,并采用简单直接的三级目录结构对内容进行了系统梳理(如图 3 所示):一级目录聚焦模型类型,二级目录区分攻击与防御类型,三级目录细化技术路线。

研究覆盖了视觉基础模型、大语言模型、视觉-语言预训练模型、视觉-语言模型、文生图扩散模型和智能体等6 种主流大模型,以及对抗攻击、后门攻击、数据投毒、越狱攻击、提示注入、能量延迟攻击、成员推理攻击、模型抽取攻击、数据抽取攻击和智能体攻击等10 种攻击类型

论文总结了 4 个重要研究趋势(参考下图 1 和 2):

1. 研究规模显著增长

过去 4 年,大模型安全研究论文数量成倍增长,2024 年相关研究已突破 200 篇,充分体现了学术界和产业界对该领域的高度关注。

2. 攻防研究比例失衡

在现有研究中,约 60% 的工作聚焦于攻击方法,而防御相关研究仅占 40%。这种攻防研究的不平衡状态凸显了当前防御技术的不足,亟需更多资源投入以提升大模型的安全性。

3. 重点攻击目标

大语言模型、文生图扩散模型以及视觉基础模型(包括预训练 ViT 和 SAM)是目前最受攻击者关注的三类模型。这些模型因其广泛的应用场景和高影响力,成为安全研究的核心焦点。

4. 主流攻击类型

对抗攻击、后门和投毒攻击以及越狱攻击是目前被研究最多的三大攻击类型。这些攻击手段因其高成功率和潜在危害性,成为大模型安全领域的主要挑战。

图 1. (左)过去四年发表的大模型安全研究论文数量;(中)各类大模型的研究分布;(右)各类攻击 / 防御的研究分布。

图 2. (左)不同模型上研究论文数量的季度变化趋势;(中)各类大模型与对应攻防研究之间的比例对应关系;(右)各类攻防研究论文年度发表数量的变化趋势(从高到低上下排序)。

除了介绍针对各类模型的攻击与防御方法,论文还归纳了研究常用的数据集和评估基准,为初学者快速了解领域进展和实验设置提供了参考。论文的组织结构清晰,内容详实,不仅为学术界和产业界提供了全面的研究指南,也为未来大模型安全研究指明了方向。

最后,论文总结了大模型安全领域的主要挑战,并呼吁学术界与国际社会协同合作,共同应对这些难题:

1. 根本脆弱性理解不足

领域需要增加对大模型根本脆弱性的理解。比如大语言模型的脆弱性根源是什么,不同模态间的脆弱性是否会相互传播?文生图和文生视频类大模型语言能力的缺乏是否会让它们更难对齐?此外,大模型是否真的会记忆原始训练数据或者以何种方式、多大程度记忆训练数据?

2. 安全评测的局限性

当前评估方法存在显著不足。单一参考攻击成功率无法全面衡量模型安全性,基于静态数据集的基准评测难以应对各类攻击。尽管对抗性评测不可或缺,但在实际环境中,其全面性、准确性和动态性仍需提升。

3. 防御机制亟待加强

现有防御措施存在明显短板,当前防御体系缺乏主动机制和有效检测手段。安全对齐技术并不是万能的,在面对更先进的攻击时仍可被绕过。随着具身智能发展和通用智能的接近,领域亟需更具系统性、实用性和前瞻性的防御方案。

4. 呼吁全球合作

为应对日益多样化的挑战,倡议发展以防御为导向的大模型安全研究,开发更强大的安全防御工具。呼吁模型开源、呼吁商业模型提供专用安全 API、呼吁建立开源安全平台。呼吁全球合作,只有通过学术界、产业界和国际社会的共同努力,才能构建更安全可信的人工智能生态系统。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深度 | “AI应用” 概念,市场 10 大核心上市公司

深度 | “AI应用” 概念,市场 10 大核心上市公司

飞跑的鹿
2026-01-14 20:50:26
11国做出选择,特朗普很兴奋,喊中国将会服软,高市早苗形势不妙

11国做出选择,特朗普很兴奋,喊中国将会服软,高市早苗形势不妙

胥言
2026-01-14 17:10:50
多地现快递驿站转让帖,经营者直言太累,称每天工作十几个小时,每月只赚五六千,“不如去当保安”

多地现快递驿站转让帖,经营者直言太累,称每天工作十几个小时,每月只赚五六千,“不如去当保安”

大风新闻
2026-01-14 17:03:09
江西南昌一景区山脚现“停衣位”,大量游客将羽绒服脱到路边再爬山:不担心丢失,大家素质都很高

江西南昌一景区山脚现“停衣位”,大量游客将羽绒服脱到路边再爬山:不担心丢失,大家素质都很高

极目新闻
2026-01-13 20:12:14
独家:贺娇龙为何会坠马出事?

独家:贺娇龙为何会坠马出事?

仕道
2026-01-14 13:03:16
89岁国民党前主席连战近况曝光!

89岁国民党前主席连战近况曝光!

看看新闻Knews
2026-01-14 19:49:08
外媒被中国的“超级战士”吓尿了。

外媒被中国的“超级战士”吓尿了。

荆楚寰宇文枢
2026-01-14 23:17:02
特战部队进驻台北!赖清德当局开始慌了,下令加强防斩首演练

特战部队进驻台北!赖清德当局开始慌了,下令加强防斩首演练

温读史
2026-01-14 10:23:23
以总理专机离开以色列

以总理专机离开以色列

财联社
2026-01-14 18:38:13
投诉杨贵妃雕塑的,正眼看他一下,你都输了

投诉杨贵妃雕塑的,正眼看他一下,你都输了

不主流讲话
2026-01-14 18:09:01
人要坏成什么样子,才能做出这等丧尽天良的事!

人要坏成什么样子,才能做出这等丧尽天良的事!

胖胖说他不胖
2026-01-14 13:31:12
普京四年布局成功了?乌克兰只是幌子,真正的目标已经落入圈套

普京四年布局成功了?乌克兰只是幌子,真正的目标已经落入圈套

悦心知足
2026-01-13 02:54:20
伊朗局势依然紧张感拉满!特朗普喊“援助在路上”,开打倒计时?

伊朗局势依然紧张感拉满!特朗普喊“援助在路上”,开打倒计时?

上观新闻
2026-01-14 19:57:11
监管出手降杠杆!哪些板块最受冲击?

监管出手降杠杆!哪些板块最受冲击?

君临财富
2026-01-14 17:45:34
闫学晶事件迎来反转!林傲霏中戏毕业照曝光,中戏欺骗了所有考生

闫学晶事件迎来反转!林傲霏中戏毕业照曝光,中戏欺骗了所有考生

阿纂看事
2026-01-14 16:41:41
中央定调!退休新规实施,公务员和事业编制,不能弹性延迟退休吗

中央定调!退休新规实施,公务员和事业编制,不能弹性延迟退休吗

夜深爱杂谈
2026-01-13 20:50:30
中老铁路泰国段施工坠落砸列车,致22死70伤,承建商曝光

中老铁路泰国段施工坠落砸列车,致22死70伤,承建商曝光

聚焦真实瞬间
2026-01-14 20:06:53
徐帆回应离婚5个月,冯小刚近况曝光,内心早已看透一切

徐帆回应离婚5个月,冯小刚近况曝光,内心早已看透一切

徐帮阳
2026-01-14 17:29:52
宝能姚振华实名举报的大瓜

宝能姚振华实名举报的大瓜

穿透
2026-01-14 16:39:05
浅议章泽天做播客:当一个富太太开始抛头露面

浅议章泽天做播客:当一个富太太开始抛头露面

穿透
2026-01-14 13:51:28
2026-01-15 04:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12117文章数 142536关注度
往期回顾 全部

科技要闻

携程因涉嫌垄断被市场监管总局调查

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

网红彭十六偷税被封杀 曾成功转型明星

财经要闻

携程被立案调查,最高或被罚超50亿

汽车要闻

曝Model Y或降到20万以内!

态度原创

旅游
家居
教育
房产
艺术

旅游要闻

从荒地到花海:凯里用 10 年造绿,让冬日公园藏满幸福滋味!

家居要闻

心之所向 现代建构之美

教育要闻

年轻妈妈带男孩坐地铁,坐姿引发热议!网友:这才是真正的“炫富”!

房产要闻

热销17亿后!天正·三亚湾壹号,被爆违建!

艺术要闻

与光同行的温柔诗意:沉浸于威廉·A·施耐德的人像油画世界

无障碍浏览 进入关怀版