研究显示：主流大模型隐私对话泄露率最高达69%|完整性|kimi|隐私保护|满血版模型

研究显示：主流大模型隐私对话泄露率最高达69%

分享至

记者丨肖潇

编辑丨王俊张伟贤

让Kimi翻译英文截图，AI却突然回复了一位陌生人的简历，包含完整的姓名、电话、工作经历、核心业绩——这是上周一位用户在社交平台透露的经历。用户拨打简历里的电话后，发现能联系到真人，对方也确认此前曾让Kimi改简历。

用户发帖称，Kimi向他解释为AI出现了幻觉，目前原帖已不可见。我们上周联系Kimi求证，未收到答复。

“（简历）这种信息本身就不应该明文存储，说明隐私合规也没做好。”一位合规律师当时向我们指出，数据串流是直接原因，但一个更值得关心的问题是隐私。

另一位大厂法务看到新闻后，也在重新思考个人信息处理问题。“大多隐私治理的讨论都会滑向后端视角，既然信息已经进入大模型了，那就想办法删除、遗忘或者匿名化。现在应该开始思考怎么把个人信息拦在进入AI之前。”

大模型会“说漏”隐私，已经让人不那么惊讶了。学术界用过度分享（Natural Agentic Oversharing）来形容这一现象：即使没有黑客入侵、没有提示词攻击，模型也会主动泄露个人信息。

大模型有多爱过度分享隐私？我们看到了两篇有解释力的论文，它们仔细研究了学术界和业界的两个盲区。

第一篇来自尼洛法尔（Niloofar Mireshghallah），她曾是Meta AI对齐小组的研究员，现在就职于美国卡内基梅隆大学。

尼洛法尔在2023年就关注到一个变化：大模型开始访问多源数据，上下文输入窗口在变长，检索增强生成（RAG）能力在精进，这些交互数据变得越来越重要。但大部分针对AI隐私保护的工作只盯着训练数据，没太考虑人机交互中的信息流动。

今天的用户已经习惯每天把长篇文档、个人简历、工作PPT、病历情况直接扔给AI，而过去的数据清洗、差分隐私等保护措施几乎对此无能为力。尼洛法尔认为，即便是经过大量RLHF（基于人类反馈的强化学习）训练的大模型，也仍然缺乏何为隐私的推理能力，常常在错误的语境中吐露个人信息。

为了进一步验证，2025年11月，尼洛法尔等人发布了一篇研究《A Compositional Benchmark for Contextual Integrity of Persistent Memory in LLMs》，虚构10个用户档案，策划财务、医疗、法律等49种对话语境，测试大模型如何使用用户的上下文信息。

实验显示，7个主流大模型中，上下文隐私信息的泄露率最高达69%（Qwen-32 32B），最低也有14%（GPT-4o）。

实验中的一些泄漏案例非常严重。比如，一个用户跟GPT-5聊天后，请求撰写一段急诊室求助信息，GPT-5完整描述了他最近的生活变化，但还透露他在工作中因劳动纠纷被扣了1200美元；另一个用户让AI起草给公司HR的邮件，结果连离婚案件编号也被写了进去。

尼洛法尔将这一症状诊断为“颗粒度失败”：AI无法判断社会情景里哪些是必要信息、哪些是非必要的。它知道要跟医院谈健康、跟银行谈财务、跟法院谈法律，但不知道健康问题到底该说得多细。

论文还有一个悲观的发现，不管是增强模型规模还是加上防御性的提示词，对保护隐私的帮助都十分有限。

问题背后是那个经典的隐私-效率悖论，AI要变得更有用，最简单的方式就是倾囊相授，不分情境地把所有相关信息都倒出来。在实验中，较低的隐私泄露率往往以牺牲回复完整性为代价，GPT-4o的泄露率最低，但其完整性最低；Qwen-32的完整性第二高，而泄露率最高。

当AI从bot进入智能体时代，情况变得更复杂了。

2026年2月，美国马萨诸塞大学主导的一篇论文《SPILLAGE: Agentic Oversharing on the Web》指出“行为隐私”问题：过去人们都在研究聊天对话框，但智能体点击、滚动、浏览网页同样会泄露隐私。

一个例子是，用户向AI聊起自己离婚失业，随后让其去购买血糖试纸。你以为AI只会关注“血糖试纸”的购物需求，但它很可能会在搜索时输入“适合离婚男性的血糖试纸”，或者点击“单亲妈妈用品”的分类。

这些行为不太可能被人看到，但足以把隐私暴露给第三方网站。马萨诸塞大学团队在亚马逊、eBay两个购物网站上测试，用180个虚拟用户身份分别执行1080次任务运行，结果发现泄露行为非常普遍。

有意思的是，同样的信息，仅仅改变表达方式，泄露率就会明显改变。团队将用户提示词分成自然聊天、写邮件和直接请求三种形态，结果发现越直接的指令，越容易触发过度分享，因为AI缺乏语境说明。

这也能说明，大模型缺乏区分哪些信息不该使用的机制。它不能真正理解哪些是隐私信息，而是被提示词牵着走。

为什么AI已经能替代硅谷最顶尖的程序员，在隐私认知上却还像一个学龄儿童？

“仔细想想这其实很有道理，数学和编程都有可验证的答案，你可以直接通过运行代码来检查答案是否正确，但隐私的根本性质就不同。它没有唯一的正确答案，存在多种并存的有效真理。”尼洛法尔在最新博客中给出了一种解释。

这一点早在 2004 年，就被互联网隐私里最有名的学者海伦·尼森鲍姆概括为场景完整性理论（Contextual Integrity，CI）。隐私不是某一类固定数据，而是信息在特定场景下是否按照合理预期流动。向谁分享、在什么情境下、出于什么目的，决定了隐私的不同边界。

这对AI提出截然不同的能力要求：有组合、概括和克制能力，能判断在具体情境下，哪条规则应该让步。人类会在成长过程中逐渐积累冲突裁决能力，大模型虽然能在代码或者算数上高速前进，却没有类似的社会化训练过程。

因此，马萨诸塞大学的论文认为，更可靠的控制方式还是提前处理信息——在用户请求传递给AI之前，就先进行筛选。毕竟一旦个人信息进入模型，就很难不被使用。尤其对于智能体，泄露行为随着操作实时发生，不存在事后补救的机会。

尼洛法尔也在呼吁未来的研究方向，即增强AI的隐私场景感知能力，而不是一味追求更大的模型，或者用提示词约束。

眼下有没有更具体的解药呢？尼洛法尔前两年都在否定各种方案，最近她肯定了一条方向：先用规模较小的可信模型，在本地处理私密数据，再将非私密的查询发给云端大模型分析，这也是OpenAI最近开源的Privacy Filter模型的核心思路。

当然，不是所有公司都有OpenAI的技术能力和社会责任。想在一家商业公司推动隐私保护，安全、法务和产品部门往往会因为不同利益立场陷入争吵。

但一个让人期待的发现是，提高隐私处理能力，也会同时提高智能体的性能。在前述论文结尾，马萨诸塞大学团队开展了一个对照实验：将用户请求中的所有隐私信息删除，只保留完成购物任务必需的信息，然后让智能体执行相同的任务。结果发现，脱敏的处理反而大幅提高了任务准确度。

SFC

出品丨21财经客户端 21世纪经济报道

微信统筹丨黎雨桐编辑丨张嘉钰

21君荐读

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.