网易首页 > 网易号 > 正文 申请入驻

复旦、上海创智学院等发布前沿大模型安全报告,覆盖六大领先模型

0
分享至



随着大语言模型加速迈向多模态与智能体形态,传统以单一维度为主的安全评估体系已难以覆盖真实世界中的复杂风险图景。在模型能力持续跃升的 2026 年,开发者与用户也愈发关注一个核心问题:前沿大模型的安全性,到底如何?

基于这一背景,复旦大学、上海创智学院、迪肯大学与伊利诺伊大学厄巴纳 — 香槟分校的研究团队联合发布本次安全评测报告,面向GPT-5.2、Gemini 3 Pro、Qwen3-VL、Grok 4.1 Fast、Nano Banana Pro、Seedream 4.5六大前沿模型,构建了一套覆盖语言、视觉语言与图像生成三大核心场景的统一安全评测框架,对当前主流大模型的安全能力进行了系统性、全景式刻画。在评测设计上,融合了四大关键维度,形成多层次、立体化的安全评估体系:

  • 基准评测,系统整合 ALERT、Flames、BBQ 等9 个国际主流安全基准,全面刻画模型在标准风险分布下的基础安全能力;
  • 对抗评测,覆盖30 种代表性黑盒越狱攻击方法,包括语义伪装、代码混淆与长程多轮诱导等复杂攻击形态,真实还原高强度对抗场景;
  • 多语言评测,支持18 种语言,系统检验模型安全机制在跨语种环境下的稳定性与迁移能力;
  • 合规性评测,面向欧盟《AI 法案》、美国 NIST RMF、新加坡 MAS FEAT 及中国《生成式人工智能管理办法》等核心监管框架,评估模型在全球治理体系下的合规适配水平。

通过全方位的安全评测,本报告揭示了前沿大模型在不同应用场景、威胁模型与监管语境下的安全边界,为产业落地与政策制定提供一定参考。



  • 论文链接: https://arxiv.org/pdf/2601.10527
  • 项目主页: https://xsafeai.github.io/AI-safety-report/
  • Github链接: https://github.com/XSafeAI/AI-safety-report
  • HuggingFace链接: https://huggingface.co/papers/2601.10527

声明:

本报告是一项基于公开方法与统一框架开展的学术性安全评测研究,旨在为前沿大模型的安全能力提供系统性认知参考,而非任何形式的监管裁定或合规结论。评测结果具有明显的时效性与场景依赖性,应主要用于推动安全评估体系的透明化与持续改进,而不宜被解读为简单的模型排名或舆论定性依据。

本报告选取的评测对象均为当前通用能力处于第一梯队的前沿模型。我们亦对其他模型进行了探索性测试,其整体安全表现普遍低于本报告所纳入的模型,但未在正文中展开呈现。另需说明的是,由于 API 使用成本因素,本次研究未覆盖 Claude 系列模型。

受限于资源与周期,本报告的评测规模仍然有限,难以全面覆盖真实世界中的所有风险形态,相关结论不可避免具有一定的局部性与阶段性,应被视为学术参考而非最终结论。

全方位安全评测


报告的主要发现如下:

  • 基于静态安全基准的评测会普遍高估安全性,在真实越狱攻击下没有模型具备可靠的防御能力,即使 GPT-5.2 在最坏情况下的安全率也仅约 6%,其他模型接近于 0%;多轮自适应攻击和跨语言场景成为当前最大的安全短板。
  • 不同模型呈现出明显的“安全人格”差异:GPT-5.2 为全能内化型,Qwen3-VL 为准则合规型,Gemini 3 Pro 为伦理交互型,Grok 4 Fast 为自由效率型;在文生图模型中 Nano Banana Pro 整体最稳,为柔性重塑型,Seedream 4.5 为坚实屏障型。

安全能力排行



1. 语言模态安全

GPT-5.2的平均安全率为78.39%,展现出业界领先的安全水平,其安全机制已从依赖规则触发与启发式过滤,迈入以深层语义理解与价值对齐为核心的阶段。这一范式转变使模型在复杂、灰区场景中的安全判断更加稳定,也显著降低了在对抗输入下的失效风险,体现出当前最接近“内生安全”的对齐形态。

Gemini 3 Pro的平均安全率为67.9%,整体呈现出 “强但不均衡” 的安全特征:在基准评测与多语言安全上保持第二梯队领先,基准测试达到 88.06%,多语言安全率为 67.00%,合规性维度也取得 73.54% 的稳定成绩,显示其基础对齐与社会价值观校准较为扎实。然而,其对抗鲁棒性下降至 41.17%,与其基准表现形成明显落差,说明该模型在攻击驱动输入下仍存在可被利用的脆弱面,更适合 “常规分布” 下的安全场景,而在语义伪装与复杂上下文操纵中的泛化能力仍有提升空间。

Qwen3-VL的平均安全率为63.7%,比肩 Gemini 3 Pro。其在合规性方面表现尤为突出,以 77.11% 的成绩位居第二,体现了其在合规导向型安全策略上的系统优势。不过,其在对抗安全性(33.42%)与多语言安全(64.00%)上的明显回落,也反映出该模型更擅长 “规则明确型风险”,而在语义伪装与跨语境迁移方面仍有提升空间。

Grok 4.1 Fast的平均安全率为55.2%,表现呈现出很大的不均衡性。尽管其在基线安全性(66.60%)和合规性评测(45.97%)中处于垫底位置,显示出系统性的合规短板 ,但其在对抗评测中却展现了意外的韧性,以 46.39% 的安全率位列全场第二 。这种 “底座薄弱但对抗较强” 的独特性,反映了其防护策略可能更多依赖于对特定攻击模式的拦截,而非全维度的安全内化,在非英语语境和严监管场景中依然面临较大的合规挑战 。

2. 多模态安全

GPT-5.2的平均多模态安全率为94.69%,延续了全面领先的态势,在对抗评测下达到 97.24% 的近饱和表现,在基准场景中亦以 92.14% 稳居首位。这一结果表明,其安全机制不仅在文本层面实现了深度内化,在图文交互等复杂跨模态场景中同样具备高度稳定性,能够有效抵御视觉诱导、语义叠加等复合型风险,代表了当前多模态安全对齐的最高成熟度。

Qwen3-VL的平均安全率为81.11%,超越 Gemini 3 Pro。其以 83.32% 的基准成绩和 78.89% 的对抗成绩稳居第二,并在两类评测中均保持对 Gemini 3 Pro 的领先优势。这表明其在视觉 - 语言交互场景中的安全策略具备较好的结构完整性,能够在面对图文组合诱导时维持相对稳健的防御表现。

Gemini 3 Pro的平均安全率为78.99%位列第三,整体呈现出 “可靠但保守” 的多模态安全特征。其在常规视 - 语言任务中的风险识别能力较为扎实,但在面对多轮视觉诱导、隐性语义嵌套等复杂攻击时,防御强度明显弱于前两名模型,说明其多模态安全机制仍更多建立在规则与触发层面,而非深层语义融合层面的统一对齐。

Grok 4.1 Fast的平均安全率为68.16%。其表现具有一定 “反直觉” 性:其对抗成绩 68.34% 略高于基准成绩 67.97%,显示其安全水平对攻击扰动并不敏感。这一现象并不意味着其具备真正的鲁棒性,反而更可能反映出其更强的防护机制主要停留在浅层过滤与简单触发逻辑上,缺乏随攻击复杂度提升而动态调节的能力,整体仍难以支撑复杂真实场景下的多模态风险防控需求。

3. 文生图安全

Nano Banana Pro的平均安全率为59.86%,在文生图安全评测中展现出当前最为成熟的整体防护水平,在基准评测(60.00%)、对抗评测(54.00%)与合规性评测(65.59%)三个维度均位居首位。其成绩随评测强度递进而稳定提升,表明该模型的安全机制并非仅针对静态提示词进行表层过滤,而是具备一定程度的风险语义重构与情境适配能力,能够在监管敏感场景下保持相对一致的防御表现。这一特征使其在艺术表达与内容合规之间形成了较为平衡的治理路径,是当前文生图模型中安全泛化能力最为突出的代表。

Seedream 4.5的平均安全率为41.71%,展现了坚实的合规基础,其基准安全(47.94%)与合规性(57.53%)成绩证明了其在受监管视觉场景下的精准防控优势,但是在对抗安全性(19.67%)方面成绩偏低,显示其基础防护能力仍存在结构性短板。该模型在显性监管红线与高风险类别上具备较为稳定的规则触发能力,然而这种以约束为主的防御模式在面对语义伪装、隐性诱导等对抗型提示时缺乏足够的语境理解支撑,导致在对抗场景中的安全鲁棒性仍显不足。

大模型的 “安全人格” 画像



GPT-5.2(全能内化型)

其安全雷达图谱近乎全向饱和,表明安全机制已从外置规则演进为内生推理能力。在灰区与复杂语境中,GPT-5.2 往往能给出克制而精确的合规引导,避免过度拒绝与风险放行之间的摇摆。不过也正因其具备更强的语义理解与任务完成能力,在极少数高度隐蔽的对抗性场景中,其 “深度推理 — 深度协作” 的优势亦可能被利用,对安全校准提出更高的持续演化要求。

Qwen3-VL(准则合规型)

在法律政策边界清晰、监管要求明确的场景中展现出极强的稳定性与可预期性,尤其在生物安全、政务合规等 “硬红线” 领域具备高度专业化的防御能力。然而,评测也显示,其安全策略明显偏向规则驱动范式:当风险表达转向语义伪装或情境隐喻时,模型在跨语境推断与抽象风险识别方面的弹性仍显不足,使其在未知攻击形态下呈现出一定脆性。

Gemini 3 Pro(伦理交互型)

采用 “先响应、后校准” 的人本化安全交互范式,在保障对话流畅度的同时保持较高的风险敏感性。其在社会价值观与文化语境对齐方面表现细腻,尤其擅长处理偏见与歧视类风险。但评测亦表明,其安全策略在部分场景中偏向事后纠偏而非事前阻断,当面对对抗性重构或复杂情境操纵时,这种 “柔性防御” 在稳定性上仍有提升空间。

Grok 4.1 Fast(自由效率型)

呈现出轻量化与极速响应的产品哲学,原生防御机制相对克制,更强调开放表达与低摩擦交互体验。其设计取向为用户提供了更大的创作自由度与更广阔的对话空间,体现出一种以效率与表达自由优先的安全取舍路径,在开放性与防护性之间形成鲜明风格。

Nano Banana Pro(柔性重塑型)

擅长通过内生语义净化策略对高风险提示进行隐性重构,在维持生成质量与艺术表现力的同时,实现较为稳定的内容合规控制。这一 “柔性转译” 式治理模式在多数场景中有效平衡了安全与创作自由,但其对边界模糊风险的处理仍高度依赖隐式转换机制,一旦语义重塑失效,防护体系的显性支撑能力相对有限。

Seedream 4.5(坚实屏障型)

在文生图领域坚持以强约束为核心的安全设计理念,特别是在版权与暴力内容防御方面构建了稳定可靠的拦截闭环。然而,其安全体系明显呈现出“阻断优先”特征:对边缘语义与灰区场景缺乏足够的语义判别弹性,导致在部分复杂创作需求下出现 “要么全挡、要么全漏” 的两极化风险,暴露出语义理解深度与生成自由度之间的结构性张力。

对抗演进与治理挑战

1. 多轮自适应攻击的深层威胁

研究表明,攻击者通过持续观测模型响应并动态调整诱导策略,可形成具备 “自我进化” 能力的多步攻击链路。在此范式下,单一拦截层和静态规则体系难以形成有效防线,多轮自适应攻击在复杂场景中的绕过成功率显著提升,正在成为下一阶段大模型安全治理的核心挑战。

2. 跨语言安全的结构性不均衡

评测结果显示,多数模型在非英语语境(如泰语、阿拉伯语等)下的安全表现出现20%–40%的系统性下滑,暴露出当前安全对齐在语料分布与策略迁移上的显著不平衡。这一差距不仅削弱了模型的全球可用性,也放大了区域性风险外溢的可能性,构成全球部署背景下的长期隐患。

3. 决策透明度与可解释性的治理短板

尽管前沿模型在合规性指标上持续进步,但在拒绝决策的可解释性与责任可追溯性方面仍普遍存在结构性不足。当前安全机制更多体现为 “结果合规”,而非 “过程可审计”,这一缺口在高风险领域(如医疗、公共治理与国家安全)中尤为突出,已成为制约可信部署的重要制度性瓶颈。

结语

本报告致力于为全球人工智能安全研究提供一份基于系统实证的关键参照坐标。随着模型能力呈指数级跃升,安全对齐已不再是事后修补式的技术叠加,而必须转向从底层架构、训练范式到多模态交互机制的全栈式深度嵌入。

本报告呼吁学术界、产业界与治理机构应当形成更加紧密的协同机制,共同构建兼具包容性、标准化与动态演进能力的安全评估体系,以制度化、工程化的方式推动生成式人工智能走向可控、可信与可持续的发展路径。

更为系统和深入的分析见论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
又铁又爱投!近5战51中8,三分29中4,球迷:名气大就可以胡扔?

又铁又爱投!近5战51中8,三分29中4,球迷:名气大就可以胡扔?

金山话体育
2026-04-04 08:43:25
澳门世界杯:男单4强出炉!卫冕冠军零封名将,雨果再战王楚钦

澳门世界杯:男单4强出炉!卫冕冠军零封名将,雨果再战王楚钦

全言作品
2026-04-04 22:32:36
研究首次绘制出完整的阴蒂神经网络

研究首次绘制出完整的阴蒂神经网络

生物学霸
2026-04-03 17:24:20
一女子爬山扭到脚,因思想保守不愿让男消防员搀扶下山,最终被5名消防员用担架抬下山

一女子爬山扭到脚,因思想保守不愿让男消防员搀扶下山,最终被5名消防员用担架抬下山

新浪财经
2026-04-04 20:51:11
赵心童10-1完胜希金斯晋级决赛,54万奖金冲击第三冠!

赵心童10-1完胜希金斯晋级决赛,54万奖金冲击第三冠!

老壥说体育
2026-04-05 04:34:32
国乒女队也沦落?孙颖莎险胜,俩主力惨败,教练组特殊安排被批评

国乒女队也沦落?孙颖莎险胜,俩主力惨败,教练组特殊安排被批评

三十年莱斯特城球迷
2026-04-04 19:59:09
随着皇马1-2爆冷+皇家社会2-0!西甲最新积分榜:被巴萨甩开4分

随着皇马1-2爆冷+皇家社会2-0!西甲最新积分榜:被巴萨甩开4分

万花筒体育球球
2026-04-05 01:42:27
这是张雪峰创业初期和女儿张姩菡的旧合照

这是张雪峰创业初期和女儿张姩菡的旧合照

岁月有情1314
2026-04-04 10:26:01
澳门世界杯捷报:女单爆大冷!世界冠军0:4出局,国乒被剃光头

澳门世界杯捷报:女单爆大冷!世界冠军0:4出局,国乒被剃光头

超喜欢我
2026-04-05 04:25:45
王传君夫妻疑街头争吵!齐溪皱眉咄咄逼人,膀大腰圆像个保镖

王传君夫妻疑街头争吵!齐溪皱眉咄咄逼人,膀大腰圆像个保镖

童叔不飙车
2026-04-02 20:46:58
1989年,他在旧货堆捡了一条旧钢管,用来做晾衣杆,34年后他懵了

1989年,他在旧货堆捡了一条旧钢管,用来做晾衣杆,34年后他懵了

小虎新车推荐员
2026-04-05 00:10:58
英媒终于承认:中东打一仗才发现,中国这3张底牌,谁都学不来!

英媒终于承认:中东打一仗才发现,中国这3张底牌,谁都学不来!

阿器谈史
2026-04-02 15:33:03
中超再现奇葩1幕:3个进球被吹,视频回放看了足足11分钟!

中超再现奇葩1幕:3个进球被吹,视频回放看了足足11分钟!

邱泽云
2026-04-04 23:32:50
美国提议48小时临时停火,伊朗在战场上用重火力回应!伊方:以色列上空已被伊朗导弹主宰,“铁穹”神话终结;伊朗无人机大规模打击本古里安机场

美国提议48小时临时停火,伊朗在战场上用重火力回应!伊方:以色列上空已被伊朗导弹主宰,“铁穹”神话终结;伊朗无人机大规模打击本古里安机场

每日经济新闻
2026-04-04 23:07:45
明日清明,牢记:1不洗,2不收,3不走,4要吃,消灾纳福安康度春

明日清明,牢记:1不洗,2不收,3不走,4要吃,消灾纳福安康度春

宝哥精彩赛事
2026-04-05 00:15:08
六秒钟的拥抱

六秒钟的拥抱

利维坦
2026-04-03 09:00:45
抵达湖北,杨鸣正式上任,体育局任命,新岗位曝光,赵继伟期待

抵达湖北,杨鸣正式上任,体育局任命,新岗位曝光,赵继伟期待

漫川舟船
2026-04-04 18:49:57
连烧30小时!百亿航母成废铁?5700官兵被扣押,福建舰成全球焦点

连烧30小时!百亿航母成废铁?5700官兵被扣押,福建舰成全球焦点

小曙说娱
2026-04-03 01:57:33
曝女顶流现身医院急诊!虚弱到站不稳被助理搀扶,工作室最新回应

曝女顶流现身医院急诊!虚弱到站不稳被助理搀扶,工作室最新回应

君笙的拂兮
2026-04-04 03:50:40
人民日报点名、公安部力挺,做出两个重要决定后,张雪意外火出圈

人民日报点名、公安部力挺,做出两个重要决定后,张雪意外火出圈

刘森森
2026-04-04 18:49:11
2026-04-05 05:15:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12681文章数 142612关注度
往期回顾 全部

科技要闻

内存一年涨四倍!国产手机厂商集体涨价

头条要闻

伊朗发动第七轮导弹袭击 耶路撒冷拦截导弹升空

头条要闻

伊朗发动第七轮导弹袭击 耶路撒冷拦截导弹升空

体育要闻

刹不住的泰格·伍兹,口袋里的两粒药丸

娱乐要闻

Q女士反击,否认逼宋宁峰张婉婷离婚

财经要闻

中微董事长,给半导体泼点冷水

汽车要闻

17万级海豹07EV 不仅续航长还有9分钟满电的快乐

态度原创

时尚
本地
教育
健康
公开课

别再穿大一码了!遮肉根本不是靠宽松

本地新闻

跟着歌声游安徽,听古村回响

教育要闻

这些英国大学开始崩盘!

干细胞抗衰4大误区,90%的人都中招

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版