深知发布智能体专用安全模型，实现对话风险近100%防御|调用|知识库

深知发布智能体专用安全模型，实现对话风险近100%防御

2025-11-24 17:22:33　来源: AI大模型工场

北京举报

分享至

随着大模型应用越来越多的深入到日常工作生活场景：从AI教育、客户服务、商机互动、文旅推荐、医疗导办到保险咨询，也随着智能体交互日益成为社会经济生活的重要环节，一场隐蔽的安全危机正悄然而来；生成式人工智能对话互动时普遍面临着恶意诱导、隐藏条件等各类风险，对话风险正成为行业AI落地中的“致命暗礁”。

2025年8月27日，公安部第三研究所数据安全技术研发中心依据GB/T45654-2025《网络安全技术生成式人工智能服务安全基本要求》对国内主流大模型商业化版本开展安全测试，并发布了测试结果[1]。如图一结果显示8类安全维度的不合规率整体分布在28%至51%之间，其中涉黑灰产、谣言和诈骗类均超过40%。不难看出，智能体所“仰仗”的各通用大模型本身的安全防护能力普遍不足。

问题如此严重的原因，是敏感词规则防火墙等现有防御手段已跟不上新式AI攻击手段的迭代：关键词拦截会漏判误判；而主模型在安全训练时，为了不让能力下降过大又很难做到高概率防范。另一方面《生成式人工智能服务安全基本要求》等监管政策对智能体落地应用的安全风险控制“划了红线”；如何严谨又不失效果的解决对话安全风险问题，困扰着所有的智能体开发者。

彩智科技的深知安全团队提出了“一个基于专有模型的大模型对话安全响应框架——深知风控”，深知风控框架（以下简称“深知”）是一个模型组合，它通过“风险精准识别分类+输出权威溯源可解释”协同设计，并以完全不影响智能体的模型能力的“防火墙”式保护机制，给出兼顾安全与效率的突破性解决方案。同时，深知接口可以让智能体开发者5分钟上手，快速让原智能体获得近100%的安全风险防御能力。

一、测试验证：防御能力领先

衡量大模型安全的核心标准是实战防御能力。

深知在与Qwen3Guard-Gen-8B、TinyR1-Safety-8B等头部安全模型最新版本进行的专项测评中，从风险识别精度、回复严谨性等方面展现出优势。技术报告中，测评所采用的数据集使用TinyR1-Safety-8B技术报告所公开的测试数据集为主（随机抽取其中2000条英文与2000中文），同时还使用并公开了深知可信团队在实战中积累的100条高风险的数据。

其中，与风险分类模型Qwen3Guard-Gen-8B，按风险召回率测评结果如下（可详见技术报告）：

与风险应答模型在TinyR1-Safety-8B的对比评测，使用用TinyR1-Safety-8B技术报告所使用的安全应答的测评标准，结果如下（可详见技术报告）：

在公开中英文安全测试集中，面对欺诈诱导、敏感信息窃取等高风险复杂攻击场景，同类模型因依赖静态知识出现政策过时、捏造合规依据、丑闻人物无感知等问题，安全评分仅74%，而深知依托动态可信知识库有接近100%的高风险防护率。

相关测试过程、评测标准、测试数据集及实验结果均已公开发表于前述技术报告与开放平台，评测具备可验证性。

二、输入端打破“非黑即白”，四分类体系精准识别锁死企业风险

传统大模型安全防御往往在于把风险判定简化为“安全/不安全”的二元选择——要么过度拦截影响体验，要么漏判风险埋下隐患。深知重构安全防护逻辑，建立“安全（Safe）、不安全（Unsafe）、有条件安全（ConditionallySafe）、重点关注（Focus）”的四类体系，有针对性的处置风险。如下：

三、输出端：可信知识库+解读模型，根治企业AI“幻觉”顽疾

针对识别出的风险问题，深知提供安全代答，在确保安全的前提下进行交流，输出内容严格符合法规与主流价值观。

代答内容均源自深知全量规章知识库，知识库覆盖全国337个地级及以上城市的法律、政策、行业标准规范、公共服务等领域知识，并保持常态化动态日更新及知识工程化处理；上亿条精细治理的知识点可溯源回复，让每一次响应都有据可查，彻底杜绝信息捏造与“幻觉”问题引发的风险。

同时提供两种代答模式灵活选择：

积极型（active）：对各类风险问题进行合规可控的交流回应；可以在电商、旅游、娱乐等智能体中使用，有很好互动性。深知的目标，是让这些平时很大众化的智能体，在碰到用户刻意用“敏感”问题挑战时，及时变身成正能量朋友，不躲避的按主流价值观“娓娓道来”，进行安全又积极的交流。

稳妥型（conservative）：适用于政务、司法等严肃场景，部分敏感问题仅输出提示性内容，严守安全底线。尤其是，深知已有案例实战，模型使用方已在网信、公安等有关部门组织的生成式人工智能安全测评中，取得近100%防护的优异效果。

四、应用价值：低门槛赋能，让智能体开发聚焦场景痛点与价值核心

深知提供简洁易用的API接口与多语言调用示例（Python、cURL等），开发者无需复杂配置，获取api-key后即可快速接入，并集成到现有业务系统，大幅降低风控开发成本。

深知风控DeepKnown-Guard（见上图）代表了一种外部化、低耦合的安全防护新范式，旨在通过API调用实现安全服务的热插拔（Hot-Pluggable），从而彻底解耦安全与业务逻辑。

具体来说，对于那些教育培训、导游导购、医疗康养、客户服务、行业咨询、金融理财等领域大模型与智能体，可以不再为AI对话安全问题而困扰。通过简单调用深知接口，智能体可以先让深知来判断诉求表达的安全情况，在有风险时直接拒答或让深知返回代答回复，并在无风险时自行场景交互。以上过程不仅可在一次调用内完成；还可进一步通过参数配置，使用深知的上下文理解、流式输出、地域识别本地化服务等功能。

对企业来说，大模型安全风控的痛点不仅是“防不住”，还有“用不起”——搭建定制化防护架构、持续迭代加固模型，需要投入资金和人力，并且还容易引起模型处理核心场景时的能力下降。深知将复杂的安全技术转化为“低门槛可随时调用”的服务，大幅降低AI落地成本。开发者无需精通模型安全技术，也不用改造现有系统；只需通过API接口在线调用深知，就能快速激活全套安全防御能力；从而将更多精力投入AI驱动的业务创新。

结语：安全是智能体进入核心场景的“入场券”

在智能体开始普及于社会生活主流场景的今天，安全早已不是“附加项”，而是不可或缺的“必需品”。深知安全响应框架以“输入分类+输出溯源”的技术创新实现近100%高风险防御实测结果；并以“安全托底、业务创新”的模式，将加速大模型在教育、零售、金融、康养、文旅等各行业的规模化应用。

深知团队在国务院政策答问平台、广东“粤政易”AI智能办公助手等重大人工智能应用项目的成功案例，积累了丰富的AI安全风控经验。如今通过将复杂的安全技术转化为低门槛的 API 服务，深知助力智能体从“追求功能炫酷”向“安全实用落地”的成熟转型，成为智能体进入核心场景的“新基建”。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.