上周一个做AI客服的朋友跟我吐槽:他们给大模型加了四层安全检测,结果用户问句话要等8秒才回复。"安全是安全了,但用户全跑光了。"
这不是个例。很多团队在纸面上画的安全架构图很漂亮——LLM过滤器、行为分类器、响应扫描层层层叠加——但上线后才发现,每多一层模型调用,延迟就往上蹿一截。最后为了产品能用,只能偷偷关掉防护。
![]()
真正的问题在于把AI安全当成了提示工程问题,实际上它是系统工程问题:延迟、执行控制、架构隔离、信任边界,一个都不能少。
一个务实的分层防御应该长什么样?底层放轻量级计算过滤器,用规则匹配、关键词检测这些便宜手段先挡住噪音攻击,别让垃圾流量触发昂贵的推理层。中间层做上下文隔离,哪怕模型被攻破,也别让它自动获得执行敏感操作的权限。上层才是LLM-based的语义理解,留给真正需要判断的复杂场景。
关键认知转变:目标不是完美防御,而是让成功的注入攻击影响力有限、执行权限有限、波及范围有限。在生产环境里,韧性比假装不可能被攻破更重要。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.