越懂你，越危险？MemPrivacy揭示AI记忆下一站|key|上下文|新论文|隐私保护|agent|memprivacy

分享至

机器之心发布

AI 记忆时代，Agent 越来越像一个真正的私人助理。

它记得你的习惯，知道你的日程，理解你的健康状态，甚至能在长期对话中逐渐形成一套关于你的「个人画像」。但问题也随之而来：如果这些记忆都要上云，隐私还安全吗？

4 月 22 日，OpenAI 开源了一个名为privacy-ﬁlter的轻量级隐私过滤模型，试图解决大模型系统中的 PII 检测与脱敏问题。

OpenAI Privacy Filter 地址：https://openai.com/zh-Hans-CN/index/introducing-openai-privacy-filter/

仅仅两周后，记忆张量 MemTensor 团队拿出了一个更激进的答案。该方案由记忆张量 MemTensor 与荣耀 HONOR 团队联合研发，同济大学也参与其中 —— 这也是端侧厂商与记忆基础设施团队首次在「Agent 隐私」这件事上深度合作。

他们正式开源了面向端云协同 Agent 的隐私保护框架与系列模型MemPrivacy。更令人意外的是，在同样的真实对话隐私提取任务上，MemPrivacy 的 F1 分数最高比 OpenAI privacy-filter 高出50.47 %

这并不是一次临时跨界。

在此之前，记忆张量已经推出 MemOS，把 Agent 记忆从向量库或 RAG 插件，提升为可管理、可调度、可演化的系统资源：记什么、怎么检索、如何更新、如何治理，都被放进一套「记忆操作系统」里。

MemPrivacy 更像是 MemOS 往端云协同场景自然长出的隐私层 —— 当 Agent 开始长期记住用户偏好、健康状态、账号凭证和工作上下文时，问题就不只是「能不能记住」，而是「能不能安全地记住」。这也让记忆张量做 MemPrivacy 显得顺理成章：它不是从通用 PII 打码出发，而是直接从 Agent 长期记忆的真实使用场景出发，重新定义隐私类型、保护级别和占位符机制。

发布当天，MemPrivacy 即上榜 Hugging Face Daily&Weekly Papers TOP1。

这不是一个简单的「隐私打码工具」。

它瞄准的是下一代个性化 Agent 最核心、也最棘手的问题：如何让云端大模型继续拥有长期记忆和个性化能力，同时又不让用户的敏感数据真正离开本地？

换句话说，MemPrivacy 想做的事情是：让 Agent 可用，但不可见。

论文标题：MemPrivacy: Privacy-Preserving Personalized Memory Management for Edge-Cloud Agents
论文地址：https://arxiv.org/pdf/2605.09530
代码仓库：https://github.com/MemTensor/MemPrivacy
模型仓库：https://huggingface.co/collections/IAAR-Shanghai/memprivacy

OpenAI 入局

但 8 个标签撑不起 Agent 的长期记忆

OpenAI 的 privacy-filter 思路很简单：扫描文本，识别隐私片段，然后替换成语义标签。

比如，把用户输入中的人名「Maya」替换成 [PRIVATE_PERSON]。

这套模型拥有 1.5B 参数，其中激活参数约 50M，采用双向 Token 分类架构，支持 128k 上下文，主打高吞吐量 PII 检测与掩码。

相比传统一律替换成 *** 的打码方式，这当然已经进了一步：它至少保留了一部分语义。

但放到端云 Agent 的长期记忆场景里，问题很快暴露出来了。

OpenAI privacy-filter 只提供 8 类基础隐私标签。对于普通表单脱敏，这也许够用；但对于一个需要理解用户、长期记忆用户、甚至调用工具替用户执行任务的 Agent 来说，这个粒度太粗了。

银行卡号、社保编号、项目档案号，可能都会被塞进同一个 [ACCOUNT_NUMBER]。登录密码、数据库凭证、API Key、内部密钥，也可能统统变成 [SECRET]。

这就像把所有危险物品都贴上「危险」两个字。

安全是安全了一点，但语义也被抹平了。

真正的问题在于，Agent 不是数据库清洗脚本。它需要理解上下文、保留关系、形成记忆，并在未来的对话中继续使用这些信息。

当用户说「我的血压今天是 160/110」时，这不是普通数字，而是健康指标；当用户说「这是我公司数据库的连接串」时，这也不是普通文本，而是高危凭证。粗粒度标签一旦识别不到，就会漏；一旦识别错，就会毁掉语义。

于是，隐私过滤进入了一个两难局面：

漏判，用户隐私裸奔；误判，Agent 当场失忆。

这正是下一代个性化 Agent 最难绕开的矛盾。

MemPrivacy 登场

不是抹掉隐私，而是给隐私换一张「本地身份证」

记忆张量 MemTensor 团队提出的 MemPrivacy，核心思路叫做：本地可逆伪匿名化

它不是把隐私信息简单删除，也不是替换成无意义的星号，而是在端侧完成一次更精细的「偷梁换柱」。

整个流程可以拆成三步。

端侧上行脱敏

用户在手机、PC 等边缘设备上与 Agent 对话时，本地会先运行一个轻量级 MemPrivacy 模型。它负责识别对话中的隐私片段，并根据用户设置的保护等级进行处理。

如果文本里出现「我的血压今天是 160/110」，MemPrivacy 不会直接把它变成 ***，而是替换为类似

这样的细粒度类型化占位符。

真实血压值与占位符之间的映射关系，只保存在本地数据库里。

云端安全处理

云端大模型看到的是：「我的血压今天是

。」

它看不到 160/110 这个明文敏感数据，但依然知道这里是一个健康指标，因此可以继续进行推理、生成建议、形成记忆，甚至调用相关工具。

第三步，端侧下行恢复

当云端回复「您的血压

偏高」时，本地系统再把占位符恢复成真实数值，最终呈现给用户。

在用户体验上，这个过程几乎是透明的。

但在系统架构上，关键敏感数据从未真正离开本地。

这就是 MemPrivacy 最重要的设计：让云端看懂结构，但看不到明文

三种路线对比

无保护裸奔，全过滤失忆，MemPrivacy 保留智商

在端云 Agent 场景里，传统隐私保护大致有两种极端方案。

第一种是无保护。

用户原始数据直接上云。云端模型当然可以完整理解上下文，个性化效果最好，但健康数据、私人邮箱、家庭住址、账号凭证等敏感信息也会完整暴露。

在数据合规越来越严格的今天，这几乎是在走钢丝。

第二种是完全过滤。

所有隐私内容都被替换成 *** 或直接删除。看起来很安全，但代价是 Agent 彻底失去关键语义。用户想让它记住健康状况、财务约束、工作上下文，它却只能看到一片空白。

这类 Agent 看似安全，实际上已经丧失了「长期个性化」的基础。

MemPrivacy 选择的是第三条路：细粒度类型化占位符

云端不知道你的真实血压是多少，但知道这是一个健康指标；不知道你的私人邮箱是什么，但知道这里有一个邮箱；不知道你的 API Key 明文，但知道这里是一个高危凭证。

这种设计保住了两个东西：一是隐私边界，二是语义结构。

也正因如此，MemPrivacy 才有机会在隐私保护和 Agent 效用之间取得平衡。

硬核实力

F1 分数甩开 OpenAI 超 50 点，完爆 GPT-5.2

为了验证 MemPrivacy 的能力，研究团队构建了一个新的评测基准MemPrivacy-Bench。这个基准覆盖 200 个用户的对话历史，包含超过 15.5 万个隐私项，并支持中英双语隐私信息检测。

此外，为了测试泛化能力，团队还在外部个性化长文本对话数据集PersonaMem-v2上进行了 OOD 交叉测试。

在这两大基准的提取准确率（隐私文本、级别、类型的综合 F1 分数）较量中，MemPrivacy 均展现出了碾压级的优势：

远超 OpenAI 专项模型：

在 MemPrivacy-Bench 上，OpenAI privacy-filter 的综合 F1 分数只有35.50%

而 MemPrivacy-4B-RL 达到了85.97%，两者差距高达惊人的50.47%！即使是在跨分布的 PersonaMem-v2 数据集上，MemPrivacy 依然领先 OpenAI 近 9%。

原因也很清楚：OpenAI privacy-filter 的优势在速度，非自回归 Token 分类架构带来了很高吞吐量；但它的问题在于标签覆盖窄、颗粒度粗，对复杂上下文和中文场景的适配不足。

MemPrivacy 则针对 Agent 长记忆场景重新定义了隐私类型、保护级别和训练目标，因此在真实对话中更接近实际需求。

更有意思的是，MemPrivacy 不只是赢了 OpenAI 的专项小模型。

越级挑战通用大模型：

即使面对参数量极其庞大的最强通用模型 GPT-5.2、Gemini-3.1-Pro 以及 DeepSeek-V3.2-Think，MemPrivacy-4B 乃至仅有 0.6B 的微型版本在两个数据集上均实现了碾压。

这说明，隐私提取不是简单堆大参数就能解决的问题

它更像一个高度结构化、强约束、强边界感的任务。真正重要的不是模型有多大，而是它是否理解「什么信息该被保护、该保护到什么程度、保护后还能不能继续被 Agent 使用」。

不让 Agent 变傻

系统效用损失最低不到 1%

隐私保护还有一个更现实的问题：保护得再好，如果 Agent 变傻了，也是白搭。

这也是很多粗暴脱敏方案的死穴。

用户说：「我最近血压偏高，帮我记住，以后安排运动计划时注意一点。」

如果系统把血压、健康状态、运动偏好全部抹掉，云端模型当然安全了，但它也没法再提供真正个性化的服务。

MemPrivacy 的类型化占位符真的能保留记忆系统的效用吗？

团队在业界几个主流记忆系统平台上进行了端到端测试。所有底座均采用统一的 GPT-4.1 模型。

实验结果令人振奋：

当采用传统的不可逆掩码（Irreversible Masking）时，三大记忆系统的准确率分别暴跌了 26.67%、41.87% 和 16.99%，模型几乎处于失忆的瘫痪状态。
在 MemPrivacy 保护下（最高防御级别 PL4+PL3+PL2 全开），系统效用损失被死死控制在0.71% ~ 1.60%之间。如果用户仅选择保护最高风险的凭证级隐私（PL4），准确率下降甚至不到 0.89%

这意味着，MemPrivacy 真正做到了在不伤害智能体智商的前提下，把隐私泄漏风险降到了最低。

这正是 MemPrivacy 的关键价值：它不是在「安全」和「智能」之间二选一，而是试图把两者拆开 —— 明文不上云，但语义仍然可用。

四级隐私树

终于把「什么是隐私」讲清楚了

MemPrivacy 能做到这一点，背后一个重要原因是：它没有把隐私当作一个简单的二分类问题。

传统隐私过滤常常是「要么脱敏，要么全明文」。但真实世界远比这复杂。

MemPrivacy 引入了以可识别性、潜在危害性与可利用性为准绳的四级隐私分类法 (PL1-PL4)，从而支持用户根据需求自由调控脱敏阈值：

PL4 致命核心级（最高警戒凭证与机密）

这一层包括明文密码、验证码、Session、Cookie、API Key、内部商业机密等。一旦泄露，就可能导致账户接管、资金盗刷、系统越权或大规模数据泄露。

这类数据一旦检测到，系统将实行 “绝对零容忍” 拦截，严禁进入云端上下文。

PL3 高危敏感级（引发生命财产风险的红线数据）

包括身份证件号、详细医疗诊断、生理指标、精准轨迹定位、生物特征、敏感消费记录等。它们不一定直接等于账号权限，但足以对人身安全、财产、健康和声誉造成实质伤害。

PL2 身份锚定级（可溯源的标识信息）

包括真实姓名、详细地址、手机号、私人邮箱、IP 地址、社交账号等。单独或组合起来，可以定位到具体自然人。尤其是「公司 + 职位 + 姓名」这类组合，在真实场景中也具备很强的可识别性。

PL1 基础画像级（安全可用的个性化基石）

包括作息习惯、兴趣偏好、非诊断性情绪、表达风格等。这类信息是个性化 Agent 的基础，一般不会带来实质伤害，因此可以安全用于长期记忆。

这套分层设计的意义在于 —— 它让隐私保护不再是一把锤子。

同样是消费记录，「在超市花了 86 块钱」可能只是日常偏好；但某笔带有明确医疗属性的消费，则可能进入 PL3。

同样是数字，有些只是普通计数，有些却是血压、身份证号、验证码或 API Key。

这就是细粒度隐私识别真正困难的地方：模型必须理解语义、上下文、风险和用途。

两阶段训练

让模型真正理解隐私边界

在模型训练上，MemPrivacy 采用了 Qwen3 系列作为基座，覆盖 0.6B、1.7B、4B 多个规格。

训练过程分为两个阶段。

第一阶段是 SFT。

团队使用 26K 高质量多轮对话数据进行监督微调，让模型掌握基础的隐私定位、类型识别和占位符替换能力。

第二阶段是 GRPO 强化学习。

团队引入基于结构化 Reward 的策略优化，用提取结果的 F1 分数直接反馈模型表现。

这一步的意义在于，隐私识别最难的往往不是显而易见的手机号或邮箱，而是边界模糊、依赖上下文的细粒度信息。

比如一句「我最近压力很大」是否需要脱敏？

一句「我的血压今天 160/110」又该被划到什么级别？

某个字符串到底是普通 ID，还是内部凭证？

GRPO 让模型在这些模糊边界上进一步优化召回率与精确率的平衡，最终带来了 MemPrivacy 在多个测试集上的明显优势。

结语

端云 Agent 的下一块基础设施

在万物皆可 Agent 的未来，大模型比你更懂你自己是必然趋势，但比你更懂你，不代表让云端看光你。

OpenAI privacy-filter 的发布敲响了数据清洗和隐私合规的发令枪；而记忆张量与荣耀 AI 联合发布的 MemPrivacy，则为下一代云边协同架构（Edge-Cloud Agents）提供了一套直接可用、高精度、低损耗的标杆级工程解法。无论是对于开发个人 AI 助理的 AI Builders，还是对于需要满足严苛数据合规（如 GDPR）的企业级出海应用，MemPrivacy 都展现出了不可估量的商业与技术价值。

在这件事上，荣耀并不是一个偶然出现的合作方。从 MagicOS 到 YOYO，荣耀一直在尝试把更多 AI 能力真正放进设备本身。这也是为什么 MemPrivacy 的方案会和荣耀的端侧 AI 路线天然契合。

MemPrivacy 在荣耀终端设备上的落地，则是这次合作的进一步延伸：0.6B 到 4B 的多档模型本身就是为端侧部署设计的。当越来越多人开始习惯通过 YOYO 这样的 Agent 完成健康、出行、工作甚至财务相关的任务时，用户真正需要的，其实是一个 “既懂你、又不会看光你” 的 AI。

对端云 Agent 来说，“可记忆” 之后，“可安全记忆” 正在成为下一阶段真正的基础设施问题。

目前，MemPrivacy 的模型权重与评测基准已全部开源。隐私与长期记忆之间那道过去几乎无法兼得的墙，也第一次开始出现了被打通的可能。

论文地址：https://arxiv.org/pdf/2605.09530
代码仓库：https://github.com/MemTensor/MemPrivacy
模型仓库：https://huggingface.co/collections/IAAR-Shanghai/memprivacy

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.