【技术能力】人工智能安全测试评价体系及风险知识库发布|算法|鲁棒性|智能体|人工智能技术

【技术能力】人工智能安全测试评价体系及风险知识库发布

分享至

伴随人工智能技术的飞速发展，大模型已深度融入千行百业，在带来巨大便利的同时，其潜在的安全风险也日益凸显。为积极响应国家对人工智能安全发展的重要指示，切实提升我国大模型及智能体的安全防护能力，人工智能场景应用与智能系统测评工业和信息化部重点实验室（以下简称“实验室”）研究提出“人工智能安全测试评价体系”，包括大模型安全测评以及智能体安全测评两个方面。旨在为业界提供权威、全面、实用的安全评估标准体系与系统工具，共同筑牢人工智能安全防线。

一、大模型安全测评体系

大模型安全测评聚焦于解决大模型在实际应用中面临的各类复杂安全挑战，特别是在数据隐私、模型鲁棒性、内容合规性以及智能体行为可控性等关键维度。构建起一套从底层算法到上层应用的全链条检测机制，旨在揭示大模型深层次的安全隐患，并提供精准的修复建议。

【核心测评维度与技术亮点】

▲大模型安全测评指标体系

在对抗样本检测与鲁棒性评估方面，评估大模型在面对微小扰动时的预测稳定性与决策可靠性以及在恶意干扰下的鲁棒性。

在隐私泄露检测与数据安全防护方面，评估大模型在数据全生命周期中防止敏感信息泄露的能力，并审查训练数据的合规性与防泄露机制。

在公平性检测与偏见消除方面，多维度识别大模型在输出中是否存在针对特定群体的偏见或歧视，并结合训练数据分析追溯偏见根源。

在有害内容检测与内容合规性治理方面，精准识别并阻断违法犯罪、道德风险、伦理争议以及泄露个人隐私或损害身心健康的内容。

在后门攻击与模型完整性风险检测方面，分析大模型内部是否存在被恶意植入的隐藏后门逻辑，通过知识图谱比对和异常行为分析检测模型知识污染。

在模型窃取检测与知识产权保护方面，评估大模型抵御知识产权侵犯行为的能力，并识别训练或生成过程中未经授权使用受版权保护内容的情况。

在指令安全与供应链风险管控方面，精准识别SQL注入、RCE、提示词注入等高危指令，并重点审计MCP协议中存在的核心风险。

在算法内控与管理体系评估方面，审查算法上线评审机制、日常监测与退出处置机制，从而保障大模型全生命周期的安全管理。

▲CSTC论道人工智能安全检测平台-大模型安全检测模块

二、智能体安全测评体系

随着智能体（Agent）应用的普及，其自主决策和行动能力带来了新的安全挑战。智能体安全测评核心内容在于构建一个全方位的安全评估体系，旨在确保智能体从代码层面到行为层面，再到与外部环境交互的整个生命周期的安全性，对智能体在复杂环境中执行任务时的安全性、可靠性与可控性进行评价。

【核心测评维度与技术亮点】

▲智能体安全测评指标体系

代码安全检测。分析智能体软件代码本身的安全性，识别代码中的安全风险（如注入、溢出）、逻辑缺陷、恶意代码及不安全配置。

模型安全评估。包含数据训练安全、算法鲁棒性与输出合规性。检验模型抵御恶意攻击、规避安全漏洞及有害内容生成的能力。

通信协议检测。评估通信协议（如加密、认证、完整性机制）的安全性、合规性及实现健壮性，识别潜在安全漏洞或违规行为，防范数据泄露、篡改与未授权访问风险。

权限管理检测。评估智能体对用户权限的分配、使用和管控能力。验证其是否遵循最小化原则，精准授予必要权限。

数据安全检测。评估智能体数据采集、传输、存储、使用及销毁环节的安全性、合规性，验证加密、脱敏、防泄露等防护措施的有效性。

行为监控分析。检测智能体操作指令、数据交互及决策逻辑是否符合预设安全规范，识别异常或潜在风险行为，保障智能体行为的安全可控。

恶意软件检测。识别和防御针对智能体系统的恶意程序（如病毒、木马等），检测已知与未知威胁，确保其安全稳定运行，防范数据泄露或功能破坏。

身份认证检测。通过验证智能体接入系统或服务时的身份凭证与机制，严格确认其真实性和合法性，防止未授权访问或恶意冒充。

API安全检测。识别智能体API接口中的潜在漏洞（如注入、越权、数据泄露等），评估其抵御恶意请求和未授权访问的能力。

目标与任务冲突行为策略评估。检验智能体在目标设定与具体任务指令发生矛盾时，其行为策略是否产生异常或偏离预期。

社会工程学与欺骗抵抗能力。测评智能体识别和防范人为欺骗手段（如仿冒身份、诱导性信息）的能力。衡量智能体在面对意图操控其行为或获取敏感信息的恶意尝试时，保障系统安全运行核心韧性的能力。

鲁棒性与对抗性攻击防御。衡量智能体在输入干扰或恶意扰动下的稳定性。评估智能体抵抗精心设计的对抗样本攻击的能力。

日志与审计能力。检测智能体全量记录其核心行为、关键决策、交互事件及异常情况的能力，为安全事件追溯、行为分析、责任认定及风险发现提供坚实依据。

▲CSTC论道人工智能安全检测平台-智能体安全检测模块

三、人工智能安全风险知识库

在发布“人工智能安全测试评价体系”基础上，实验室还基于CSTC论道人工智能安全检测平台构建一个全面、及时、共享的“人工智能安全风险知识库”，收集、整理保存各类人工智能安全风险的基本信息、特征、解决方案等属性，奠定人工智能整体安全防护水平的重要数据基础。

【通用算法风险】“人工智能安全风险知识库”收集的通用算法安全风险包括数据中毒、模型窃取、模型反演攻击等通用算法层面的安全问题。

【常见大模型安全风险】“人工智能安全风险知识库”收集的常见大模型安全风险类型包括数据泄露、模型后门、对抗性攻击、偏见与歧视、知识产权侵犯、幻觉与事实错误、越狱与提示注入、不安全API使用等。

【智能体特有安全风险】“人工智能安全风险知识库”收集的智能体特有安全风险类型包括包含但不限于目标冲突越权、工具投毒、描述混淆、间接提示注入，以及权限绕过等。

【安全风险信息详情】“人工智能安全风险知识库”每个安全风险条目包含安全风险描述、影响范围、复现方法、风险等级、防御建议以及相关案例分析。

【威胁情报更新机制】“人工智能安全风险知识库”建立常态化的威胁情报收集与共享机制，及时收录全球最新的人工智能安全风险与攻击技术，为用户提供预警和防护建议。

▲CSTC论道人工智能安全检测平台-人工智能安全风险知识库

详情咨询

中国软件评测中心人工智能研究测评事业部是人工智能场景应用与智能系统测评工业和信息化部重点实验室主要建设单位，已建成基于人工智能安全测试评价体系的大模型安全及智能体安全测试评价能力及相关检测工具。现邀请各行业单位、检测机构、企业用户以及研究机构等各界伙伴参与测试评价，共同提升大模型与智能体领域安全防护能力。后续实验室将发布论道大模型/智能体测评研究报告，敬请关注！

联系人：

沈老师 18910748987（微信同号）

曹老师 18518203633（微信同号）

来源 | 人工智能研究测评事业部

编辑 | 办公室

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.