这个工程师给AI回复"盖公章"：30道安检门+数字签名防篡改|密钥|hmac

这个工程师给AI回复"盖公章"：30道安检门+数字签名防篡改

2026-03-30 12:20:07　来源: 像素与芯片

北京举报

分享至

去年全球大模型API调用量突破千亿次，但有个细节几乎没人提：你收到的回复，真的是模型写的吗？

中间缓存、CDN、反向代理……任何一层都能神不知鬼不觉地改几个字。用户毫无察觉，开发者也无从验证。一位叫OMEGA ARCHITECT的工程师花了三个月，给这个问题造了套"防伪系统"。

为什么没人给AI回复"盖公章"？

传统API的安全设计有个盲区：只验进来的，不验出去的。你用密钥签名请求，服务器认你是谁；但服务器返回什么，客户端只能照单全收。

OMEGA ARCHITECT的假设很直接——如果中间有人动了手脚怎么办？缓存层为了省成本返回旧版本，或者更糟，网络攻击者针对性篡改特定用户的内容。

他的解法是给每个回复加HMAC-SHA256签名。生成最终文本后，用密钥算一段哈希值，随响应一起返回。客户端收到后自己重算一遍，对不上就报警。整个过程不加密、不增加延迟，只是加了个"防伪标签"。

有个反直觉的细节：如果做了长度截断，必须在截断后签名，而不是对完整内容签名再截断。否则客户端验签时永远对不上——这个坑他踩过。

代码很朴素，Python标准库就能实现：

import hmac import hashlib def sign_output(content: str, key: str) -> str: return hmac.new( key.encode(), content.encode(), hashlib.sha256 ).hexdigest()

30道安检门：Prompt注入的"变形记"攻防

签名解决的是"内容被改"，但内容本身可能是炸弹。OMEGA ARCHITECT在输入侧建了四层过滤，共30个检测模式。

第一层是显性的Prompt注入，15个模式覆盖"ignore previous instructions""act as""roleplay as"这类经典话术。但真正的较量在"变形"——攻击者开始用Unicode homoglyph（同形异义字符）绕过关键词过滤。

比如把IGNORE写成ɪɢɴᴏʀᴇ，肉眼几乎分不清，但Unicode码点完全不同。防御策略是先做NFKC规范化，把这些花体字打回原形，再匹配模式。

第二层是混用脚本检测。西里尔字母（Cyrillic）和拉丁字母混用是经典套路，е（西里尔）和e（拉丁）在屏幕上长得一样，程序眼里却是两个字符。检测逻辑简单粗暴：同时出现拉丁和西里尔字符就拦截。

第三层是SQL注入检测，7个模式。虽然他的架构里用户输入根本不碰数据库，但发送SELECT * FROM或DROP TABLE的人显然在试探。直接返回422，顺便记一笔。

第四层他没细说，但留了口子——"其他敏感模式"。

规范化处理的代码同样朴素：

import unicodedata def normalize_input(text: str) -> str: # 剥离零宽字符 text = text.replace('\u200b', '').replace('\u200c', '').replace('\u200d', '') # Unicode规范化 return unicodedata.normalize('NFKC', text)

FastAPI架构：把安全做成"默认配置"

整个系统基于FastAPI搭建，选择这个框架有个务实考量：异步原生支持，处理高并发签名验证不会阻塞。HMAC计算本身是CPU密集型，但SHA256在现代处理器上足够快，实测 overhead 在毫秒级。

架构上他把验证链拆成可插拔的中间件。输入先过30模式检测，失败直接拒掉，不浪费模型token；通过的才进Groq（一个推理加速平台），生成结果后签名返回。

一个设计取舍值得注意：他没做端到端加密。TLS已经覆盖传输层，他的签名专注解决"服务端到客户端"这段链路的完整性。如果攻击者能破TLS，那签名密钥大概率也保不住，这是威胁模型的边界。

日志策略也很克制。注入尝试记来源IP和模式命中类型，但不记完整输入——避免敏感数据沉淀。签名验证失败则记详细上下文，方便排查是客户端bug还是真被篡改了。

这套方案能复制吗？

OMEGA ARCHITECT把代码开源了，但坦白说，直接套用的场景有限。HMAC签名需要客户端配合验签，大部分现有应用不会主动做这步。他的目标用户是对安全有强需求、能改客户端的B端场景——金融、医疗、政务这类"一个字不能错"的领域。

30模式注入检测的价值更普世。Unicode规范化、混用脚本检测这些技术，任何接大模型的应用都能抄。成本也不高，正则匹配+简单遍历，微秒级延迟。

有个问题他没回答：模型本身生成的有害内容怎么办？签名保证"没被改过"，但不保证"原本就是对的"。这是另一个战场，他的方案诚实地说"不在射程内"。

项目上线后，他在评论区收到一条反馈：有人把这套检测逻辑搬到浏览器插件里，用来标记可疑的AI生成内容。原本防输入的盾，被改成了验输出的矛——这个用法他也没想到。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.