网易首页 > 网易号 > 正文 申请入驻

【技术能力】人工智能安全测试评价体系及风险知识库发布

0
分享至

伴随人工智能技术的飞速发展,大模型已深度融入千行百业,在带来巨大便利的同时,其潜在的安全风险也日益凸显。为积极响应国家对人工智能安全发展的重要指示,切实提升我国大模型及智能体的安全防护能力,人工智能场景应用与智能系统测评工业和信息化部重点实验室(以下简称“实验室”)研究提出“人工智能安全测试评价体系”,包括大模型安全测评以及智能体安全测评两个方面。旨在为业界提供权威、全面、实用的安全评估标准体系与系统工具,共同筑牢人工智能安全防线。

一、大模型安全测评体系

大模型安全测评聚焦于解决大模型在实际应用中面临的各类复杂安全挑战,特别是在数据隐私、模型鲁棒性、内容合规性以及智能体行为可控性等关键维度。构建起一套从底层算法到上层应用的全链条检测机制,旨在揭示大模型深层次的安全隐患,并提供精准的修复建议。

【核心测评维度与技术亮点】

▲大模型安全测评指标体系

在对抗样本检测与鲁棒性评估方面,评估大模型在面对微小扰动时的预测稳定性与决策可靠性以及在恶意干扰下的鲁棒性。

在隐私泄露检测与数据安全防护方面,评估大模型在数据全生命周期中防止敏感信息泄露的能力,并审查训练数据的合规性与防泄露机制。

在公平性检测与偏见消除方面,多维度识别大模型在输出中是否存在针对特定群体的偏见或歧视,并结合训练数据分析追溯偏见根源。

在有害内容检测与内容合规性治理方面,精准识别并阻断违法犯罪、道德风险、伦理争议以及泄露个人隐私或损害身心健康的内容。

在后门攻击与模型完整性风险检测方面,分析大模型内部是否存在被恶意植入的隐藏后门逻辑,通过知识图谱比对和异常行为分析检测模型知识污染。

在模型窃取检测与知识产权保护方面,评估大模型抵御知识产权侵犯行为的能力,并识别训练或生成过程中未经授权使用受版权保护内容的情况。

在指令安全与供应链风险管控方面,精准识别SQL注入、RCE、提示词注入等高危指令,并重点审计MCP协议中存在的核心风险。

在算法内控与管理体系评估方面,审查算法上线评审机制、日常监测与退出处置机制,从而保障大模型全生命周期的安全管理。

▲CSTC论道人工智能安全检测平台-大模型安全检测模块

二、智能体安全测评体系

随着智能体(Agent)应用的普及,其自主决策和行动能力带来了新的安全挑战。智能体安全测评核心内容在于构建一个全方位的安全评估体系,旨在确保智能体从代码层面到行为层面,再到与外部环境交互的整个生命周期的安全性,对智能体在复杂环境中执行任务时的安全性、可靠性与可控性进行评价。

【核心测评维度与技术亮点】

▲智能体安全测评指标体系

代码安全检测。分析智能体软件代码本身的安全性,识别代码中的安全风险(如注入、溢出)、逻辑缺陷、恶意代码及不安全配置。

模型安全评估。包含数据训练安全、算法鲁棒性与输出合规性。检验模型抵御恶意攻击、规避安全漏洞及有害内容生成的能力。

通信协议检测。评估通信协议(如加密、认证、完整性机制)的安全性、合规性及实现健壮性,识别潜在安全漏洞或违规行为,防范数据泄露、篡改与未授权访问风险。

权限管理检测。评估智能体对用户权限的分配、使用和管控能力。验证其是否遵循最小化原则,精准授予必要权限。

数据安全检测。评估智能体数据采集、传输、存储、使用及销毁环节的安全性、合规性,验证加密、脱敏、防泄露等防护措施的有效性。

行为监控分析。检测智能体操作指令、数据交互及决策逻辑是否符合预设安全规范,识别异常或潜在风险行为,保障智能体行为的安全可控。

恶意软件检测。识别和防御针对智能体系统的恶意程序(如病毒、木马等),检测已知与未知威胁,确保其安全稳定运行,防范数据泄露或功能破坏。

身份认证检测。通过验证智能体接入系统或服务时的身份凭证与机制,严格确认其真实性和合法性,防止未授权访问或恶意冒充。

API安全检测。识别智能体API接口中的潜在漏洞(如注入、越权、数据泄露等),评估其抵御恶意请求和未授权访问的能力。

目标与任务冲突行为策略评估。检验智能体在目标设定与具体任务指令发生矛盾时,其行为策略是否产生异常或偏离预期。

社会工程学与欺骗抵抗能力。测评智能体识别和防范人为欺骗手段(如仿冒身份、诱导性信息)的能力。衡量智能体在面对意图操控其行为或获取敏感信息的恶意尝试时,保障系统安全运行核心韧性的能力。

鲁棒性与对抗性攻击防御。衡量智能体在输入干扰或恶意扰动下的稳定性。评估智能体抵抗精心设计的对抗样本攻击的能力。

日志与审计能力。检测智能体全量记录其核心行为、关键决策、交互事件及异常情况的能力,为安全事件追溯、行为分析、责任认定及风险发现提供坚实依据。

▲CSTC论道人工智能安全检测平台-智能体安全检测模块

三、人工智能安全风险知识库

在发布“人工智能安全测试评价体系”基础上,实验室还基于CSTC论道人工智能安全检测平台构建一个全面、及时、共享的“人工智能安全风险知识库”,收集、整理保存各类人工智能安全风险的基本信息、特征、解决方案等属性,奠定人工智能整体安全防护水平的重要数据基础。

【通用算法风险】“人工智能安全风险知识库”收集的通用算法安全风险包括数据中毒、模型窃取、模型反演攻击等通用算法层面的安全问题。

【常见大模型安全风险】“人工智能安全风险知识库”收集的常见大模型安全风险类型包括数据泄露、模型后门、对抗性攻击、偏见与歧视、知识产权侵犯、幻觉与事实错误、越狱与提示注入、不安全API使用等。

【智能体特有安全风险】“人工智能安全风险知识库”收集的智能体特有安全风险类型包括包含但不限于目标冲突越权、工具投毒、描述混淆、间接提示注入,以及权限绕过等。

【安全风险信息详情】“人工智能安全风险知识库”每个安全风险条目包含安全风险描述、影响范围、复现方法、风险等级、防御建议以及相关案例分析。

【威胁情报更新机制】“人工智能安全风险知识库”建立常态化的威胁情报收集与共享机制,及时收录全球最新的人工智能安全风险与攻击技术,为用户提供预警和防护建议。

▲CSTC论道人工智能安全检测平台-人工智能安全风险知识库

详情咨询

中国软件评测中心人工智能研究测评事业部是人工智能场景应用与智能系统测评工业和信息化部重点实验室主要建设单位,已建成基于人工智能安全测试评价体系的大模型安全及智能体安全测试评价能力及相关检测工具。现邀请各行业单位、检测机构、企业用户以及研究机构等各界伙伴参与测试评价,共同提升大模型与智能体领域安全防护能力。后续实验室将发布论道大模型/智能体测评研究报告,敬请关注!

联系人:

沈老师 18910748987(微信同号)

曹老师 18518203633(微信同号)

来源 | 人工智能研究测评事业部

编辑 | 办公室

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
奥运冠军“拉拉链露胸”,让耐克绷不住了!

奥运冠军“拉拉链露胸”,让耐克绷不住了!

品牌营销报
2026-02-23 11:31:10
43年了,为什么那么多人怀念1983年?

43年了,为什么那么多人怀念1983年?

深度报
2026-02-28 22:25:37
许世友得知开国中将途经南京,怒道:这还了得,我去车站截住他!

许世友得知开国中将途经南京,怒道:这还了得,我去车站截住他!

史海孤雁
2026-03-01 16:16:08
一针见血!中国男篮为什么能赢下中国台北?郭士强赛后一句话点破赢球真相!

一针见血!中国男篮为什么能赢下中国台北?郭士强赛后一句话点破赢球真相!

星Xin辰大海
2026-03-02 12:17:04
“我恨不得丢了她”,宝妈公开承认厌恶10岁女儿,引数万网友共鸣

“我恨不得丢了她”,宝妈公开承认厌恶10岁女儿,引数万网友共鸣

温读史
2025-10-10 10:22:51
金银全线高开,国际油价飙升

金银全线高开,国际油价飙升

界面新闻
2026-03-02 07:30:04
王一博聊天记录被扒,与女友国外隐婚生子,买50万私密部位洗护液

王一博聊天记录被扒,与女友国外隐婚生子,买50万私密部位洗护液

花哥扒娱乐
2026-03-01 16:56:10
56岁大妈心梗离世,医生:吃他汀时除了牛奶,这6种食物尽量少碰

56岁大妈心梗离世,医生:吃他汀时除了牛奶,这6种食物尽量少碰

岐黄传人孙大夫
2026-02-28 22:15:03
92岁台湾老兵回重庆寻亲,下飞机后却怒斥子女:这不还是台北

92岁台湾老兵回重庆寻亲,下飞机后却怒斥子女:这不还是台北

海佑讲史
2026-02-28 21:19:37
美专家:美军可在全球任何地方打胜仗,但在台海面对解放军时除外

美专家:美军可在全球任何地方打胜仗,但在台海面对解放军时除外

攒一兜星星
2026-01-15 22:24:51
哈梅内伊死了,但伊朗的“四大势力”才刚醒

哈梅内伊死了,但伊朗的“四大势力”才刚醒

Ck的蜜糖
2026-03-02 12:10:13
为什么美国、日本第一时间就知道中国的决策、军事及重大的工程等

为什么美国、日本第一时间就知道中国的决策、军事及重大的工程等

Thurman在昆明
2026-03-02 01:31:00
伊朗外长:新任最高领袖将在“一或两天”内被选出

伊朗外长:新任最高领袖将在“一或两天”内被选出

参考消息
2026-03-01 23:29:38
汪小菲和张兰解除母子关系!马筱梅在旁煽风点火,大S的话没说错

汪小菲和张兰解除母子关系!马筱梅在旁煽风点火,大S的话没说错

山谷里的怒吼
2026-03-02 00:20:27
伊朗,犯了一个错误!

伊朗,犯了一个错误!

钧言堂
2026-02-28 17:41:56
伊朗4枚导弹袭击“林肯”号航母,美军正式公布伤亡数字

伊朗4枚导弹袭击“林肯”号航母,美军正式公布伤亡数字

文汇报
2026-03-02 03:47:30
中东谁也打不过的以色列,在东亚算什么水平?韩国:谁也打不过

中东谁也打不过的以色列,在东亚算什么水平?韩国:谁也打不过

比利
2025-11-29 18:49:51
没想到这么快,几个小时就举了白旗,弹尽粮绝,不投降就没命了!

没想到这么快,几个小时就举了白旗,弹尽粮绝,不投降就没命了!

科普100克克
2025-10-05 15:24:42
伊朗说击落美军MQ-9型“死神”无人机

伊朗说击落美军MQ-9型“死神”无人机

新华社
2026-03-02 12:08:25
谷牧晚年说:我怀念建国初期的民主时光,当时我和毛主席争了一路

谷牧晚年说:我怀念建国初期的民主时光,当时我和毛主席争了一路

楚风说历史
2026-03-02 08:25:03
2026-03-02 12:47:01
中国电子信息产业发展研究院 incentive-icons
中国电子信息产业发展研究院
工信部直属的科研事业单位
2906文章数 912关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

体育要闻

卡里克主场5连胜!队史第2人通过最大考验

娱乐要闻

美伊以冲突爆发,多位明星被困中东

财经要闻

中东局势影响如何?十大券商策略来了

汽车要闻

预售11.28万起 狐全新阿尔法S5标配宁德时代

态度原创

家居
数码
本地
亲子
公开课

家居要闻

万物互联 享科技福祉

数码要闻

军规可靠:联想发布ThinkTab X11强固型Android平板电脑

本地新闻

津南好·四时总相宜

亲子要闻

新型家庭“诈骗”案例,专门针对人类幼崽的红包

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版