网易首页 > 网易号 > 正文 申请入驻

深知发布智能体专用安全模型,实现对话风险近100%防御

0
分享至

随着大模型应用越来越多的深入到日常工作生活场景:从AI教育、客户服务、商机互动、文旅推荐、医疗导办到保险咨询,也随着智能体交互日益成为社会经济生活的重要环节,一场隐蔽的安全危机正悄然而来;生成式人工智能对话互动时普遍面临着恶意诱导、隐藏条件等各类风险,对话风险正成为行业AI落地中的“致命暗礁”。

2025年8月27日,公安部第三研究所数据安全技术研发中心依据GB/T45654-2025《网络安全技术 生成式人工智能服务安全基本要求》对国内主流大模型商业化版本开展安全测试,并发布了测试结果[1]。如图一结果显示8类安全维度的不合规率整体分布在28%至51%之间,其中涉黑灰产、谣言和诈骗类均超过40%。不难看出,智能体所“仰仗”的各通用大模型本身的安全防护能力普遍不足。



问题如此严重的原因,是敏感词规则防火墙等现有防御手段已跟不上新式AI攻击手段的迭代:关键词拦截会漏判误判;而主模型在安全训练时,为了不让能力下降过大又很难做到高概率防范。另一方面《生成式人工智能服务安全基本要求》等监管政策对智能体落地应用的安全风险控制“划了红线”;如何严谨又不失效果的解决对话安全风险问题,困扰着所有的智能体开发者。

彩智科技的深知安全团队提出了“一个基于专有模型的大模型对话安全响应框架——深知风控”,深知风控框架(以下简称“深知”)是一个模型组合,它通过“风险精准识别分类+输出权威溯源可解释”协同设计,并以完全不影响智能体的模型能力的“防火墙”式保护机制,给出兼顾安全与效率的突破性解决方案。同时,深知接口可以让智能体开发者5分钟上手,快速让原智能体获得近100%的安全风险防御能力。



一、测试验证:防御能力领先

衡量大模型安全的核心标准是实战防御能力。

深知在与Qwen3Guard-Gen-8B、TinyR1-Safety-8B等头部安全模型最新版本进行的专项测评中,从风险识别精度、回复严谨性等方面展现出优势。技术报告中,测评所采用的数据集使用TinyR1-Safety-8B技术报告所公开的测试数据集为主(随机抽取其中2000条英文与2000中文),同时还使用并公开了深知可信团队在实战中积累的100条高风险的数据。

其中,与风险分类模型Qwen3Guard-Gen-8B,按风险召回率测评结果如下(可详见技术报告):



与风险应答模型在TinyR1-Safety-8B的对比评测,使用用TinyR1-Safety-8B技术报告所使用的安全应答的测评标准,结果如下(可详见技术报告):



在公开中英文安全测试集中,面对欺诈诱导、敏感信息窃取等高风险复杂攻击场景,同类模型因依赖静态知识出现政策过时、捏造合规依据、丑闻人物无感知等问题,安全评分仅74%,而深知依托动态可信知识库有接近100%的高风险防护率。

相关测试过程、评测标准、测试数据集及实验结果均已公开发表于前述技术报告与开放平台,评测具备可验证性。

二、输入端打破“非黑即白”,四分类体系精准识别锁死企业风险

传统大模型安全防御往往在于把风险判定简化为“安全/不安全”的二元选择——要么过度拦截影响体验,要么漏判风险埋下隐患。深知重构安全防护逻辑,建立“安全(Safe)、不安全(Unsafe)、有条件安全(ConditionallySafe)、重点关注(Focus)”的四类体系,有针对性的处置风险。如下:



三、输出端:可信知识库+解读模型,根治企业AI“幻觉”顽疾

针对识别出的风险问题,深知提供安全代答,在确保安全的前提下进行交流,输出内容严格符合法规与主流价值观。

代答内容均源自深知全量规章知识库,知识库覆盖全国337个地级及以上城市的法律、政策、行业标准规范、公共服务等领域知识,并保持常态化动态日更新及知识工程化处理;上亿条精细治理的知识点可溯源回复,让每一次响应都有据可查,彻底杜绝信息捏造与“幻觉”问题引发的风险。

同时提供两种代答模式灵活选择:

积极型(active):对各类风险问题进行合规可控的交流回应;可以在电商、旅游、娱乐等智能体中使用,有很好互动性。深知的目标,是让这些平时很大众化的智能体,在碰到用户刻意用“敏感”问题挑战时,及时变身成正能量朋友,不躲避的按主流价值观“娓娓道来”,进行安全又积极的交流。

稳妥型(conservative):适用于政务、司法等严肃场景,部分敏感问题仅输出提示性内容,严守安全底线。尤其是,深知已有案例实战,模型使用方已在网信、公安等有关部门组织的生成式人工智能安全测评中,取得近100%防护的优异效果。

四、应用价值:低门槛赋能,让智能体开发聚焦场景痛点与价值核心

深知提供简洁易用的API接口与多语言调用示例(Python、cURL等),开发者无需复杂配置,获取api-key后即可快速接入,并集成到现有业务系统,大幅降低风控开发成本。



深知风控DeepKnown-Guard(见上图)代表了一种外部化、低耦合的安全防护新范式,旨在通过API调用实现安全服务的热插拔(Hot-Pluggable),从而彻底解耦安全与业务逻辑。

具体来说,对于那些教育培训、导游导购、医疗康养、客户服务、行业咨询、金融理财等领域大模型与智能体,可以不再为AI对话安全问题而困扰。通过简单调用深知接口,智能体可以先让深知来判断诉求表达的安全情况,在有风险时直接拒答或让深知返回代答回复,并在无风险时自行场景交互。以上过程不仅可在一次调用内完成;还可进一步通过参数配置,使用深知的上下文理解、流式输出、地域识别本地化服务等功能。

对企业来说,大模型安全风控的痛点不仅是“防不住”,还有“用不起”——搭建定制化防护架构、持续迭代加固模型,需要投入资金和人力,并且还容易引起模型处理核心场景时的能力下降。深知将复杂的安全技术转化为“低门槛可随时调用”的服务,大幅降低AI落地成本。开发者无需精通模型安全技术,也不用改造现有系统;只需通过API接口在线调用深知,就能快速激活全套安全防御能力;从而将更多精力投入AI驱动的业务创新。

结语:安全是智能体进入核心场景的“入场券”

在智能体开始普及于社会生活主流场景的今天,安全早已不是“附加项”,而是不可或缺的“必需品”。深知安全响应框架以“输入分类+输出溯源”的技术创新实现近100%高风险防御实测结果;并以“安全托底、业务创新”的模式,将加速大模型在教育、零售、金融、康养、文旅等各行业的规模化应用。

深知团队在国务院政策答问平台、广东“粤政易”AI智能办公助手等重大人工智能应用项目的成功案例,积累了丰富的AI安全风控经验。如今通过将复杂的安全技术转化为低门槛的 API 服务,深知助力智能体从“追求功能炫酷”向“安全实用落地”的成熟转型,成为智能体进入核心场景的“新基建”。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
”经济学家吴晓求教授说:“老百姓都没收入了,还在刺激消费!这种做法是错误的!

”经济学家吴晓求教授说:“老百姓都没收入了,还在刺激消费!这种做法是错误的!

张晓磊
2025-11-07 11:34:05
股价暴涨超500%!上交所出手,暂停光伏“妖股”相关投资者账户交易

股价暴涨超500%!上交所出手,暂停光伏“妖股”相关投资者账户交易

澎湃新闻
2026-01-14 22:34:27
曼联冬窗重磅决策敲定!3 笔交易尘埃落定,卡里克暗藏深意

曼联冬窗重磅决策敲定!3 笔交易尘埃落定,卡里克暗藏深意

奶盖熊本熊
2026-01-15 01:48:42
董路:邝兆镭在西班牙拿不到参赛证,将回国加盟深圳新鹏城

董路:邝兆镭在西班牙拿不到参赛证,将回国加盟深圳新鹏城

懂球帝
2026-01-14 09:25:40
国务院国资委披露80多家央企负责人2024年度薪酬信息

国务院国资委披露80多家央企负责人2024年度薪酬信息

澎湃新闻
2026-01-14 20:07:04
广西一法官未通知当事人拍卖其亿元矿山,裁定书作出7个月未送达

广西一法官未通知当事人拍卖其亿元矿山,裁定书作出7个月未送达

报人老张
2026-01-14 12:46:33
阿隆索走了,“阿隆索”又回来了,皇马这是要干嘛?

阿隆索走了,“阿隆索”又回来了,皇马这是要干嘛?

兰亭墨未干
2026-01-14 11:45:48
泰国在建高铁发生事故,有三个方面非常值得关注!

泰国在建高铁发生事故,有三个方面非常值得关注!

全城探秘
2026-01-14 18:19:02
3年才结一次果!四川果农耗费8年首次收获,如今果子市值约80万元

3年才结一次果!四川果农耗费8年首次收获,如今果子市值约80万元

万象硬核本尊
2026-01-12 16:39:58
1970年蒋经国与35岁的长子蒋孝文合影,当时蒋孝文只剩七八岁智商

1970年蒋经国与35岁的长子蒋孝文合影,当时蒋孝文只剩七八岁智商

浩渺青史
2026-01-14 14:46:23
徐帆回应离婚5个月,冯小刚近况曝光,内心早已看透一切

徐帆回应离婚5个月,冯小刚近况曝光,内心早已看透一切

来科点谱
2026-01-14 08:57:48
惊天冷门!皇马又无缘1冠 遭西乙保级队绝杀 身价是其121倍却翻车

惊天冷门!皇马又无缘1冠 遭西乙保级队绝杀 身价是其121倍却翻车

我爱英超
2026-01-15 07:08:30
独家:贺娇龙为何会坠马出事?

独家:贺娇龙为何会坠马出事?

仕道
2026-01-14 13:03:16
小米二手车价格崩盘?雷军徐洁云齐辟谣!真实情况:出一台卖一台

小米二手车价格崩盘?雷军徐洁云齐辟谣!真实情况:出一台卖一台

柴狗夫斯基
2026-01-14 08:32:51
叹服!日本亚洲杯3连胜轰10-0 派大学生以小打大 身价不及U23国足

叹服!日本亚洲杯3连胜轰10-0 派大学生以小打大 身价不及U23国足

我爱英超
2026-01-14 06:30:22
未来可期!U23国足涌现6新星,锁定国脚名额,邵佳一手下不缺人才

未来可期!U23国足涌现6新星,锁定国脚名额,邵佳一手下不缺人才

国足风云
2026-01-14 21:29:28
坏消息,奇才队特雷·杨因膝伤和股四头肌伤缺席全明星赛前2场

坏消息,奇才队特雷·杨因膝伤和股四头肌伤缺席全明星赛前2场

好火子
2026-01-15 07:14:09
1997年回归前夜,香港十几万黑帮连夜“大逃亡”,他们最后都去哪了?

1997年回归前夜,香港十几万黑帮连夜“大逃亡”,他们最后都去哪了?

老杉说历史
2026-01-13 19:14:13
今晚大降温!集体停牌核查!

今晚大降温!集体停牌核查!

老A情报圈
2026-01-15 00:06:17
樊振东告知上海体育局媒体报道捐款280万不完全符合事实让删视频

樊振东告知上海体育局媒体报道捐款280万不完全符合事实让删视频

冷桂零落
2026-01-15 07:21:46
2026-01-15 08:24:49
AI大模型工场 incentive-icons
AI大模型工场
专注AI大模型行业媒体,深度解读公司大模型行业动态,且提供一手的AIGC,行业大模型内容。
331文章数 86关注度
往期回顾 全部

科技要闻

反垄断大棒,为何砸向了携程

头条要闻

贺娇龙意外坠马头部重伤离世 最后一条朋友圈与马有关

头条要闻

贺娇龙意外坠马头部重伤离世 最后一条朋友圈与马有关

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

网红彭十六偷税被封杀 曾成功转型明星

财经要闻

携程被立案调查,最高或被罚超50亿

汽车要闻

曝Model Y或降到20万以内!

态度原创

艺术
房产
本地
数码
家居

艺术要闻

历代书家集字春联大集合

房产要闻

热销17亿后!天正·三亚湾壹号,被爆违建!

本地新闻

邵阳公益诉讼检察主题曲:《守望星》

数码要闻

华为WATCH Ultimate 2手表开推HarmonyOS 6.0.0.209版本

家居要闻

心之所向 现代建构之美

无障碍浏览 进入关怀版