网易首页 > 网易号 > 正文 申请入驻

【技术能力】人工智能安全测试评价体系及风险知识库发布

0
分享至

伴随人工智能技术的飞速发展,大模型已深度融入千行百业,在带来巨大便利的同时,其潜在的安全风险也日益凸显。为积极响应国家对人工智能安全发展的重要指示,切实提升我国大模型及智能体的安全防护能力,人工智能场景应用与智能系统测评工业和信息化部重点实验室(以下简称“实验室”)研究提出“人工智能安全测试评价体系”,包括大模型安全测评以及智能体安全测评两个方面。旨在为业界提供权威、全面、实用的安全评估标准体系与系统工具,共同筑牢人工智能安全防线。

一、大模型安全测评体系

大模型安全测评聚焦于解决大模型在实际应用中面临的各类复杂安全挑战,特别是在数据隐私、模型鲁棒性、内容合规性以及智能体行为可控性等关键维度。构建起一套从底层算法到上层应用的全链条检测机制,旨在揭示大模型深层次的安全隐患,并提供精准的修复建议。

【核心测评维度与技术亮点】

▲大模型安全测评指标体系

在对抗样本检测与鲁棒性评估方面,评估大模型在面对微小扰动时的预测稳定性与决策可靠性以及在恶意干扰下的鲁棒性。

在隐私泄露检测与数据安全防护方面,评估大模型在数据全生命周期中防止敏感信息泄露的能力,并审查训练数据的合规性与防泄露机制。

在公平性检测与偏见消除方面,多维度识别大模型在输出中是否存在针对特定群体的偏见或歧视,并结合训练数据分析追溯偏见根源。

在有害内容检测与内容合规性治理方面,精准识别并阻断违法犯罪、道德风险、伦理争议以及泄露个人隐私或损害身心健康的内容。

在后门攻击与模型完整性风险检测方面,分析大模型内部是否存在被恶意植入的隐藏后门逻辑,通过知识图谱比对和异常行为分析检测模型知识污染。

在模型窃取检测与知识产权保护方面,评估大模型抵御知识产权侵犯行为的能力,并识别训练或生成过程中未经授权使用受版权保护内容的情况。

在指令安全与供应链风险管控方面,精准识别SQL注入、RCE、提示词注入等高危指令,并重点审计MCP协议中存在的核心风险。

在算法内控与管理体系评估方面,审查算法上线评审机制、日常监测与退出处置机制,从而保障大模型全生命周期的安全管理。

▲CSTC论道人工智能安全检测平台-大模型安全检测模块

二、智能体安全测评体系

随着智能体(Agent)应用的普及,其自主决策和行动能力带来了新的安全挑战。智能体安全测评核心内容在于构建一个全方位的安全评估体系,旨在确保智能体从代码层面到行为层面,再到与外部环境交互的整个生命周期的安全性,对智能体在复杂环境中执行任务时的安全性、可靠性与可控性进行评价。

【核心测评维度与技术亮点】

▲智能体安全测评指标体系

代码安全检测。分析智能体软件代码本身的安全性,识别代码中的安全风险(如注入、溢出)、逻辑缺陷、恶意代码及不安全配置。

模型安全评估。包含数据训练安全、算法鲁棒性与输出合规性。检验模型抵御恶意攻击、规避安全漏洞及有害内容生成的能力。

通信协议检测。评估通信协议(如加密、认证、完整性机制)的安全性、合规性及实现健壮性,识别潜在安全漏洞或违规行为,防范数据泄露、篡改与未授权访问风险。

权限管理检测。评估智能体对用户权限的分配、使用和管控能力。验证其是否遵循最小化原则,精准授予必要权限。

数据安全检测。评估智能体数据采集、传输、存储、使用及销毁环节的安全性、合规性,验证加密、脱敏、防泄露等防护措施的有效性。

行为监控分析。检测智能体操作指令、数据交互及决策逻辑是否符合预设安全规范,识别异常或潜在风险行为,保障智能体行为的安全可控。

恶意软件检测。识别和防御针对智能体系统的恶意程序(如病毒、木马等),检测已知与未知威胁,确保其安全稳定运行,防范数据泄露或功能破坏。

身份认证检测。通过验证智能体接入系统或服务时的身份凭证与机制,严格确认其真实性和合法性,防止未授权访问或恶意冒充。

API安全检测。识别智能体API接口中的潜在漏洞(如注入、越权、数据泄露等),评估其抵御恶意请求和未授权访问的能力。

目标与任务冲突行为策略评估。检验智能体在目标设定与具体任务指令发生矛盾时,其行为策略是否产生异常或偏离预期。

社会工程学与欺骗抵抗能力。测评智能体识别和防范人为欺骗手段(如仿冒身份、诱导性信息)的能力。衡量智能体在面对意图操控其行为或获取敏感信息的恶意尝试时,保障系统安全运行核心韧性的能力。

鲁棒性与对抗性攻击防御。衡量智能体在输入干扰或恶意扰动下的稳定性。评估智能体抵抗精心设计的对抗样本攻击的能力。

日志与审计能力。检测智能体全量记录其核心行为、关键决策、交互事件及异常情况的能力,为安全事件追溯、行为分析、责任认定及风险发现提供坚实依据。

▲CSTC论道人工智能安全检测平台-智能体安全检测模块

三、人工智能安全风险知识库

在发布“人工智能安全测试评价体系”基础上,实验室还基于CSTC论道人工智能安全检测平台构建一个全面、及时、共享的“人工智能安全风险知识库”,收集、整理保存各类人工智能安全风险的基本信息、特征、解决方案等属性,奠定人工智能整体安全防护水平的重要数据基础。

【通用算法风险】“人工智能安全风险知识库”收集的通用算法安全风险包括数据中毒、模型窃取、模型反演攻击等通用算法层面的安全问题。

【常见大模型安全风险】“人工智能安全风险知识库”收集的常见大模型安全风险类型包括数据泄露、模型后门、对抗性攻击、偏见与歧视、知识产权侵犯、幻觉与事实错误、越狱与提示注入、不安全API使用等。

【智能体特有安全风险】“人工智能安全风险知识库”收集的智能体特有安全风险类型包括包含但不限于目标冲突越权、工具投毒、描述混淆、间接提示注入,以及权限绕过等。

【安全风险信息详情】“人工智能安全风险知识库”每个安全风险条目包含安全风险描述、影响范围、复现方法、风险等级、防御建议以及相关案例分析。

【威胁情报更新机制】“人工智能安全风险知识库”建立常态化的威胁情报收集与共享机制,及时收录全球最新的人工智能安全风险与攻击技术,为用户提供预警和防护建议。

▲CSTC论道人工智能安全检测平台-人工智能安全风险知识库

详情咨询

中国软件评测中心人工智能研究测评事业部是人工智能场景应用与智能系统测评工业和信息化部重点实验室主要建设单位,已建成基于人工智能安全测试评价体系的大模型安全及智能体安全测试评价能力及相关检测工具。现邀请各行业单位、检测机构、企业用户以及研究机构等各界伙伴参与测试评价,共同提升大模型与智能体领域安全防护能力。后续实验室将发布论道大模型/智能体测评研究报告,敬请关注!

联系人:

沈老师 18910748987(微信同号)

曹老师 18518203633(微信同号)

来源 | 人工智能研究测评事业部

编辑 | 办公室

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
NBA名宿为总决赛的文班亚马鸣不平:成了史上最肮脏手段的受害者

NBA名宿为总决赛的文班亚马鸣不平:成了史上最肮脏手段的受害者

好火子
2026-06-13 00:00:10
1936年营长带两个连投奔红军,1955年授衔以为自己顶多被评为大校

1936年营长带两个连投奔红军,1955年授衔以为自己顶多被评为大校

磊子讲史
2026-06-11 11:53:11
新华社:不要让机关事业单位中的“官油子”得势得利!

新华社:不要让机关事业单位中的“官油子”得势得利!

细说职场
2026-06-13 13:03:37
鹅腿阿姨儿子被扒:宝马路虎换着开,出手很阔绰,妻子貌美如花

鹅腿阿姨儿子被扒:宝马路虎换着开,出手很阔绰,妻子貌美如花

娱乐圈圈圆
2026-06-12 11:25:35
虎扑网友自曝婚前过往:破过三个c

虎扑网友自曝婚前过往:破过三个c

自愈小日子
2026-06-12 01:03:28
高考刚结束,央视、人民日报接连“点名”张桂梅,句句戳人心窝!

高考刚结束,央视、人民日报接连“点名”张桂梅,句句戳人心窝!

梦醉为红颜一笑
2026-06-11 16:03:06
39.2%:33.0%!郑丽文赢了、绿营却乐开花,需警惕赖清德鱼死网破

39.2%:33.0%!郑丽文赢了、绿营却乐开花,需警惕赖清德鱼死网破

野史日记
2026-06-12 12:55:15
特朗普:伊朗对协议内容说法与事实不符

特朗普:伊朗对协议内容说法与事实不符

参考消息
2026-06-13 14:26:27
4年1.785亿顶薪,好几支球队疯抢,詹姆斯这下高兴了

4年1.785亿顶薪,好几支球队疯抢,詹姆斯这下高兴了

从零到一研究所
2026-06-13 12:54:31
如今来看,马斯克"安插"在中国的秘密武器,已经见效了!

如今来看,马斯克"安插"在中国的秘密武器,已经见效了!

无情有思可
2026-06-13 06:07:35
“人生第一次被枪顶着脑门!”中国球迷讲述惊魂一刻:到墨西哥看世界杯,刚出机场就遇飞车党,“枪顶在我们头上,抢完坐摩托就跑了……”

“人生第一次被枪顶着脑门!”中国球迷讲述惊魂一刻:到墨西哥看世界杯,刚出机场就遇飞车党,“枪顶在我们头上,抢完坐摩托就跑了……”

都市快报橙柿互动
2026-06-12 14:54:28
大家都难了吗?网传胖东来要降薪,成本会计3600工资竟来23人面试

大家都难了吗?网传胖东来要降薪,成本会计3600工资竟来23人面试

慧翔百科
2026-06-12 08:39:57
41岁夫妻因“房事频繁”双双入院,医生提醒:每周不应超过一个数

41岁夫妻因“房事频繁”双双入院,医生提醒:每周不应超过一个数

路医生健康科普
2026-06-03 16:36:08
广厦核心赵岩昊顶薪到期离队,球迷直呼背叛

广厦核心赵岩昊顶薪到期离队,球迷直呼背叛

梦忆之浅
2026-06-13 13:37:17
悲哀!48岁妈妈因管教12岁女儿发生争执,母女俩同日先后跳楼身亡

悲哀!48岁妈妈因管教12岁女儿发生争执,母女俩同日先后跳楼身亡

墨兰史书
2026-06-12 20:40:04
不到三天丢掉冠军,《火遮眼》口碑下滑,观众差评理由一致

不到三天丢掉冠军,《火遮眼》口碑下滑,观众差评理由一致

影视高原说
2026-06-13 07:39:30
难以置信!浙江一保安征婚,每月要女方给10000元,仅限杭州女生

难以置信!浙江一保安征婚,每月要女方给10000元,仅限杭州女生

火山詩话
2026-06-12 10:49:53
6月13日足球世界杯推荐:精选4场世界杯解析,含比分,进球数参考

6月13日足球世界杯推荐:精选4场世界杯解析,含比分,进球数参考

足球二串大王
2026-06-13 12:09:02
13日萨格勒布挑战赛:女单4强出炉!产生3个不可思议,陈熠大爆发

13日萨格勒布挑战赛:女单4强出炉!产生3个不可思议,陈熠大爆发

林轻吟
2026-06-13 14:22:36
女子外卖备注牛蛙不要烧 结果收到一兜活泼乱跳的牛蛙 商家:以为考验是预制菜

女子外卖备注牛蛙不要烧 结果收到一兜活泼乱跳的牛蛙 商家:以为考验是预制菜

中国能源网
2026-06-12 11:09:03
2026-06-13 15:24:49
中国电子信息产业发展研究院 incentive-icons
中国电子信息产业发展研究院
工信部直属的科研事业单位
3042文章数 912关注度
往期回顾 全部

科技要闻

SpaceX上市首日破2万亿美元,马斯克再封神

头条要闻

专家:中国制裁外国防长及其亲属极为少见 是杀鸡儆猴

头条要闻

专家:中国制裁外国防长及其亲属极为少见 是杀鸡儆猴

体育要闻

东道主三战不败!美墨开门红加拿大零的突破

娱乐要闻

12年情怀碎一地!跑男接连翻车

财经要闻

梁文锋向左,杨植麟向右

汽车要闻

2026重庆车展 长城炮Hi4-T正式上市售14.98万起

态度原创

艺术
健康
家居
旅游
教育

艺术要闻

书法各体临习方法

老人、小孩、孕妇,吃粽子有啥风险

家居要闻

空间微调 移形换境

旅游要闻

夏天就该这样过!大别山的夏天,从霍山大峡谷漂流的第一声尖叫开始。

教育要闻

已知ABCDEF✖️F=999999,求ABCDEF各等于多少?

无障碍浏览 进入关怀版