OpenAI 已经开始卷隐私模型了？国内团队同期发布|key|上下文|隐私保护|隐私数据|agent|openai

分享至

Agent 时代，隐私保护必须前置到模型层。

端云 Agent 这两周有点热闹。

4 月 22 号，OpenAI 放出了 openai/privacy-filter，一个专门给 LLM 做隐私过滤的小模型；三周后的 5 月 12 日，一家叫记忆张量MemTensor的公司和荣耀AI团队关于隐私过滤的模型也在同期开源，并且一次性放出了两个大小的模型和对应的技术报告，并且从系统性能上看，占据了绝对的优势。

听起来有些巧合，实则两家团队从不同方向到达了同一个判断：Agent 时代，隐私保护必须前置到模型层。

OpenAI 在这件事上动作很早，privacy-filter的出现，意味着行业头部玩家已经把「LLM 隐私过滤」当作一个独立的基础设施在做。MemPrivacy 想回答的也是同一个问题——当 Agent 拥有长期记忆，隐私过滤应该被放在哪一层、用什么粒度去做。

在此之前，记忆张量 MemTensor 已经推出 MemOS，把 Agent 记忆从向量库或 RAG 插件，提升为可管理、可调度、可演化的「记忆操作系统」，业务已经在游戏、端侧智能硬件、金融、工业等场景落地。而MemPrivacy 更像是 MemOS 往端云协同场景自然长出的隐私层——当一个系统已经在多个场景里跑过“记忆的进与出”，再做“哪些进、哪些不进”就是必然的下一步。

从系统性能以及多个测评集表现上来看，MemPrivacy占据了绝对的优势。

图：MemPrivacy 登顶Huggingface Daily Paper 的日榜和周榜第一

在当下，二者都面临同一个问题：要不要拦截用户隐私数据进入云端？

如果什么都不拦，用户的健康数据、家庭住址、账号凭证、财务信息会跟着记忆一起进入云端；如果全部打码，云端模型又像拿到了一张被涂黑的病历单，只知道“这里有隐私”，但不知道这段话到底在说血压、邮箱、密码，还是一条项目机密。

MemPrivacy 和OpenAI一样，想解决的，就是这个“两头都难受”的问题：隐私数据留在本地，语义信息还能被云端 Agent 读懂。

隐私过滤不是“打码”，Agent 需要看懂语义

传统隐私保护最常见的做法，是把敏感内容抹掉。

手机号？打码。

地址？打码。

血压、API Key、身份证号？继续打码。

这类方法在日志脱敏里能用，但放到 Agent 记忆系统里就麻烦了。Agent 不是只负责“别泄露”，它还要理解上下文、形成记忆、调用工具、给出个性化回复。举个例子。

用户说：

我的血压今天是 160/110，帮我记一下，之后提醒我关注。

如果系统直接把它变成：

我的 *** 今天是 *** ，帮我记一下。

云端模型看到这句话，基本只剩一个空壳。它不知道这是健康指标，也不知道这和后续提醒、风险判断、健康建议有什么关系。

MemPrivacy 的处理方式更像“给敏感信息换一张本地身份证”。

它会在端侧把原文替换成类似：

我的血压今天是，帮我记一下。

真实数值 160/110 留在本地，云端只看到语义类型化的占位符。云端仍然能判断：这是一条健康相关记忆，需要在后续对话中保持上下文；但它看不到具体数值。

这一步看起来只是替换符号，实际改变了整个隐私保护的姿态。

不是“把信息删掉”，而是“把明文锁在本地，把语义留给模型”。

MemPrivacy 怎么做：明文不出端

记忆张量MemTensor 团队提出的 MemPrivacy，核心思路叫做：本地可逆伪匿名化。

它不是把隐私信息简单删除，也不是替换成无意义的星号，而是在端侧完成一次更精细的「偷梁换柱」。

核心流程分成三步：

2.1 端侧上行脱敏

用户在手机、PC 等端侧设备上和 Agent 对话时，MemPrivacy 模型会先在本地扫描文本，识别其中的隐私片段。

触发保护阈值后，系统不会把真实内容直接发给云端，而是替换成语义类型化占位符，并把“真实值 ↔ 占位符”的映射关系保存在本地数据库里。

打个比方，就是快递盒上的姓名电话不直接寄出去，外面只贴一个只有本地系统认识的编号。快递系统知道这是“收件人信息”，但不知道真实手机号是多少。

2.2 云端安全处理

云端大模型收到的不是原始隐私，而是已经脱敏后的文本。

比如：

我的血压今天是。

云端看不到真实血压值，但能保留句子的结构、任务意图和语义类型。它仍然可以围绕“健康指标偏高”“需要提醒”“与用户长期健康记忆相关”做推理。

这比 *** 的优势很直接：*** 只告诉模型“这里没了”，告诉模型“这里是健康信息，但明文不给你”。

2.3 端侧下行恢复

云端生成回复后，文本再回到本地。

如果回复里包含，端侧系统会根据本地映射表把它还原成真实内容，最终展示给用户。

对用户来说，体验是连续的：Agent 仍然像记得完整信息一样回复；对云端来说，敏感明文从头到尾没有出现。

三种策略对比：无保护、完全过滤、MemPrivacy

在端云 Agent 场景里，隐私保护通常会落到三种策略上。

第一种：无保护

用户原始数据直接上云。云端模型可以完整理解上下文，个性化效果最好，但健康数据、私人邮箱、家庭住址、账号凭证等敏感信息也会完整暴露。

在数据合规越来越严格的今天，这几乎是在走钢丝。

第二种：完全过滤

所有隐私内容都被替换成 *** 或直接删除。看起来很安全，但代价是 Agent 彻底失去关键语义。用户想让它记住健康状况、财务约束、工作上下文，它却只能看到一片空白。

这类 Agent 看似安全，实际上已经丧失了「长期个性化」的基础。

MemPrivacy 选择的是第三条路：细粒度类型化占位符

云端不知道你的真实血压是多少，但知道这是一个健康指标；不知道你的私人邮箱是什么，但知道这里有一个邮箱；不知道你的 API Key 明文，但知道这里是一个高危凭证。

这种设计保住了两个东西：一是隐私边界，二是语义结构。

也正因如此，MemPrivacy 才有机会在隐私保护和 Agent 效用之间取得平衡。

四级隐私分层：不是所有个人信息都该一刀切

MemPrivacy 把隐私分成 PL1 到 PL4 四个层级。

4.1 PL4：致命核心级

这一层是最高风险信息。

包括明文密码、验证码、Session/Cookie 令牌、API Key、内部商业机密等。一旦泄露，可能导致账号接管、资金盗刷、系统越权或数据大规模暴露。这类信息不适合进入云端上下文。

4.2 PL3：高危敏感级

这一层不一定能单独定位一个人，但被滥用后可能造成健康、财产、安全或声誉损害。

比如详细医疗诊断、生理指标、精准轨迹定位、生物特征、敏感消费记录等。

血压 160/110 就属于这类更深层的敏感信息。它不是邮箱电话那种传统 PII，但在 Agent 长期记忆里，风险并不低。

4.3 PL2：身份锚定级

PL2 主要是能直接或间接定位到个人的信息。

真实姓名、详细收货地址、手机号、私人邮箱、IP 地址、社交账号等，都属于这一层。

还有一些组合信息也需要保护，比如“公司 + 职位 + 姓名”。单看每个字段可能不敏感，合起来就能把人锚定出来。

4.4 PL1：基础画像级

PL1 是低风险、但对个性化很有价值的信息。

比如：

我每天早上 6 点跑步。

我喜欢看科幻片。

我偏好简洁一点的回复风格。

这类信息通常不需要脱敏。因为它们构成了 Agent 个性化体验的基础，又不会直接造成严重隐私风险。

这套分层设计的意义在于——它让隐私保护不再是一刀切。

同样是消费记录，「在超市花了 86 块钱」可能只是日常偏好；但某笔带有明确医疗属性的消费，则可能进入 PL3。

同样是数字，有些只是普通计数，有些却是血压、身份证号、验证码或 API Key。

这套分层的好处是，系统不再用“隐私 / 非隐私”二分法做判断，而是能根据风险等级采用不同策略。

OpenAI privacy-filter 的问题：8 个粗粒度标签不够 Agent 用

Open AI 的 privacy-filter 使用 1.5B 参数、50M 激活参数的双向 Token 分类架构，支持 128k 上下文，目标是高吞吐量的 PII 检测与掩码。

Open AI 的思路是：扫描文本，找出 8 类基础隐私信息，再替换成预设语义标签。

比如把人名替换成 [PRIVATE_PERSON]。

这个方案比纯 *** 更进一步，但放到长期记忆 Agent 里，颗粒度还是偏粗。

5.1 同一个标签里塞了太多东西

银行卡号、社保编号、项目档案号，可能都被归到类似 [ACCOUNT_NUMBER] 的粗粒度标签下。登录密码、数据库凭证、API Key，也可能被压进同一个 [SECRET]。

对普通脱敏来说，这样也许够用。对 Agent 来说，差别很大。

API Key 可能触发工具调用安全策略，登录密码需要绝对阻断，项目档案号可能和企业知识库检索有关。它们不能都变成同一种“秘密”。

5.2 复杂上下文隐私容易漏

真实对话里的隐私不只有姓名、邮箱、电话。

“我的血压今天是 160/110”不是传统意义上的账号标识符，但它显然是健康隐私。只靠少量固定标签，很容易漏掉这类上下文相关的信息。

漏掉，隐私裸奔。

错判，Agent 失忆。

这就是粗粒度过滤在 Agent 记忆场景里的核心矛盾。

评测结果：准确率超过 OpenAI，系统效用几乎不损失

记忆张量MemTensor 团队联合荣耀终端、同济大学完成构建了 MemPrivacy-Bench：覆盖 200 个用户的对话历史，包含超过 15.5 万个隐私项，支持中英双语隐私信息检测。

同时，团队还在 PersonaMem-v2 上做了分布外测试，用来观察模型在陌生场景下的泛化能力。

6.1 隐私提取准确率

在隐私文本、隐私级别、隐私类型的综合 F1 指标上，得到的结果是：

远超 OpenAI 专项模型：

在 MemPrivacy-Bench 上，OpenAI privacy-filter 的综合 F1 分数只有 35.50%。而 MemPrivacy-4B-RL 达到了 85.97%，两者差距高达50.47%！即使是在跨分布的 PersonaMem-v2 数据集上，MemPrivacy 依然领先 OpenAI 近 9%。

越级挑战通用大模型：

即使面对参数量极其庞大的最强通用模型 GPT-5.2、Gemini-3.1-Pro 以及 DeepSeek-V3.2-Think，MemPrivacy-4B 乃至仅有 0.6B 的微型版本在两个数据集上均实现了碾压。

这说明，隐私提取不是简单堆大参数就能解决的问题。真正重要的不是模型有多大，而是它是否理解「什么信息该被保护、该保护到什么程度、保护后还能不能继续被 Agent 使用」。

6.2 系统效用损失

隐私保护还有一个更现实的问题：保护之后，Agent 会不会变笨？

团队在几个主流记忆系统平台上做了端到端测试，底座统一采用 GPT-4.1。

实验结果如下：

当采用传统的不可逆掩码（Irreversible Masking）时，三大记忆系统的准确率分别暴跌了 26.67%、41.87% 和 16.99%，模型几乎处于失忆状态。

而在 MemPrivacy 保护下（最高防御级别 PL4+PL3+PL2 全开），系统效用损失被死死控制在 0.71% ~ 1.60% 之间。如果用户仅选择保护最高风险的凭证级隐私（PL4），准确率下降甚至不到 0.89%。

这意味着，MemPrivacy 真正做到了在不伤害智能体智商的前提下，把隐私泄漏风险降到了最低。

为什么 MemPrivacy 更适合端云 Agent

MemPrivacy 背后有两块关键建设：分类体系和训练策略。

7.1 从“有没有隐私”变成“隐私风险有多高”

传统过滤系统往往只判断：

这是隐私吗？是 / 否。

MemPrivacy 的四级分类让系统可以继续问：

这类隐私有多危险？该不该上云？是否需要替换？替换成什么语义类型？

这对 Agent 很重要。

因为 Agent 要处理的不是静态文本，而是连续任务。一个收货地址、一个健康指标、一段 API Key、一条兴趣偏好，在长期记忆里承担的作用完全不同。

把它们放进同一个“隐私”桶里，系统很难既安全又好用。

7.2 用训练让模型学会隐私边界

原文中提到，MemPrivacy 使用 Qwen3 系列作为模型基座，覆盖 0.6B、1.7B、4B 多个规格。训练分两步：

使用 26K 高质量多轮对话数据做 SFT，让模型具备基础隐私定位与替换能力；

引入 GRPO 强化学习，通过输出组相对比较和结构化 F1 Reward，优化细粒度隐私边界上的召回率与精确率。

换句话说，SFT 是先教模型“哪些地方像隐私”；GRPO 再继续训练它“哪些边界不能乱判”。

医疗指标、凭证、地址、偏好、身份组合，这些信息经常混在真实对话里。模型不只要找得出来，还要分得清楚。

回到开头那个判断——OpenAI 抢先一步把隐私过滤前置为一项独立能力，记忆张量 MemTensor 在同一时间窗里给出了更贴近 Agent 记忆场景的工程化答案。两家团队在不同坐标系里，看到了同一个方向。

在万物皆可Agent的未来，大模型比你更懂你自己是必然趋势，但比你更懂你，不代表让云端看光你。

而MemPrivacy，则为下一代云边协同架构(Edge-Cloud Agents)提供了一套直接可用、高精度、低损耗的标杆级工程解法。无论是对于开发个人AlI助理的AI Builders，还是对于需要满足严苛数据合规(如GDPR)的企业级出海应用，MemPrivacy都展现出了不可估量的商业与技术价值。

对端云Agent来说，"可记忆"之后，"可安全记忆"正在成为下一阶段真正的基础设施问题。

目前，MemPrivacy的模型权重与评测基准已全部开源。隐私与长期记忆之间那道过去几乎无法兼得的墙，也第一次开始出现了被打通的可能。开源信息

开源信息：