专题·个人信息保护 | 大模型时代个人信息泄露风险与治理路径

分享至

俞能海

文 | 中国科学技术大学网络空间安全学院俞能海童蒙陈可江；网络安全科技馆张丽

随着生成式人工智能的规模化部署，数据驱动范式正深刻重塑内容生产、知识服务与产业生态。大模型对海量训练数据的高度依赖，以及其参数黑盒化、能力涌现等特性，使得传统个人信息保护机制面临结构性挑战。大模型对训练数据的隐式编码与非透明处理机制，导致以网络边界防护和“告知—同意”为核心的传统隐私保护范式适用性受限。因此，亟须从治理理念、技术工具与法律法规等多个层面，系统性应对大模型时代的新型个人信息泄露风险。

一、风险识别与挑战剖析

近年来，以ChatGPT、深度求索（DeepSeek）及千问（Qwen）系列为代表的大模型，在自然语言处理与生成任务中取得显著进展，并加速向各垂直行业渗透。然而，实证研究表明，大模型在训练过程中容易形成对敏感数据的“非预期记忆”，从而构成潜在的隐私泄露风险。例如，2024年，研究人员通过特定查询从ChatGPT中成功提取出数百条包含姓名、电话与邮箱的真实训练数据；2025年，Google Gemini被曝存在“零点击”数据泄露漏洞；2026年，安全研究人员在“龙虾”（OpenClaw）中识别出多处高危信息泄露漏洞。这些案例表明，大模型时代的个人信息保护正面临来自技术机理层面的新型泄露风险冲击。

在传统信息安全框架下，个人信息泄露主要源于结构化数据库的批量数据窃取或应用层越权访问漏洞，攻击者所获取的通常是可直接读取的明文数据。然而，大模型将训练数据中的分布信息压缩并编码至千亿级非透明权重的参数中，再通过概率性的上下文推理生成输出。这种“隐式编码—概率生成”机制，使得个人信息可能以模型的“非预期记忆”（即模型对训练数据中罕见序列的过拟合复现）泄露，攻击路径也从而由传统的显式窃取转向更为隐蔽的隐式还原。

从技术手段审视，当前学术界已识别出针对大模型的两种典型隐私攻击方式：成员推理攻击（Membership Inference Attack, MIA）与训练数据提取攻击（Training Data Extraction Attack, TDEA）。前者试图推断特定数据是否被用于模型训练；后者则直接尝试重构模型所记忆的训练数据片段。这两种攻击分别从“是否属于训练集”和“具体内容是什么”两个维度，构成了当前最具现实威胁的技术性个人隐私泄露路径。

（一）成员推理攻击：身份归属的统计学暴露

成员推理攻击是指攻击者通过查询目标机器学习模型，利用模型输出的概率分布、置信度分数或损失值等信息的细微差异，推断某一特定数据样本是否被用于模型训练的一类隐私攻击方法。与传统数据泄露攻击直接窃取原始数据不同，成员推理攻击的目的并非还原训练样本内容，而是推断特定样本是否参与过模型训练；其实现手段主要依赖于模型在成员与非成员数据之间表现出的统计差异。具体而言，对于诸如通过应用程序编程接口（API）对外提供服务的模型（如ChatGPT），攻击者通常能够获取模型返回的每个候选词的概率（如OpenAI API中的logprobs参数），或通过多次查询统计输出结果的稳定性，以估计生成内容的损失值与置信度。鉴于模型对训练样本通常具有更高的拟合度（表现为损失更低、置信度更高），攻击者可据此训练分类器，实现成员身份的统计推断。

在医疗领域，若攻击者成功判定某病历样本属于训练成员，即可间接推断个体就诊记录与疾病特征，从而导致敏感健康信息的实质性泄露。例如，2025年一项针对临床问答模型Llemr的实证研究表明，攻击者能够以较高的准确率推断该模型中是否包含特定真实患者的病历信息。

在金融风控场景中，成员推理攻击同样面临较高的滥用风险，攻击者可通过成员判定推断个体信贷记录或交易流水。例如，针对银行信用评分模型的研究显示，攻击者能够通过成员推理成功判断目标用户是否曾出现在训练数据中，进而获取其信用相关的敏感信息。

（二）训练数据提取攻击：原始信息的逐字还原

训练数据提取攻击的核心目标是从大模型中逆向重构预训练语料中的原始文本片段。该攻击的可行性根植于模型的记忆机理：在预训练阶段，模型吸纳的海量互联网数据、社交媒体内容及未充分脱敏的私有文档，会以非预期记忆的形式隐式编码至千亿级参数空间中。基于攻击者权限差异，训练数据提取攻击主要演进为两条技术路径：其一为黑盒查询攻击，攻击者仅需API调用权限，通过提示词工程、上下文诱导与少样本示例拼接等手段迭代试探，逐步拼凑出身份证号、联系方式或私有通信记录等敏感信息；其二为白盒与灰盒攻击，攻击者依托梯度分析、参数微扰或激活值反演实现定向提取，此类方法通常需获取模型内部访问权限，但重构精度与成功率更高。已有研究表明，在特定条件下，攻击者可以从开源大模型中成功提取数百条以上的训练数据原文。例如，Google DeepMind团队（2025）针对LLaMA等模型展开的研究中，成功提取出涵盖个人身份信息、代码及通用唯一识别码（UUID）等敏感内容的数百条逐字文本序列。

此外，上述攻击具有无感化与可复制化特征。模型公开部署后，低权限调用者即可实施试探性查询。而一旦敏感数据发生泄露，便可被无限次重组与跨平台分发，导致溯源与阻断成本显著攀升。

二、法律规制与治理框架有待持续完善

面对大模型带来的新型数据泄露威胁，现行以《中华人民共和国个人信息保护法》（以下简称《个人信息保护法》）为核心的个人信息保护法律体系，在适用过程中面临技术快速发展所带来的新情境，需进一步与技术的复杂性和隐蔽性相协调。

（一）“告知—同意”机制的执行局限与数据溯源困境

《个人信息保护法》确立了以“告知—同意”为核心的个人信息处理规则，并辅以匿名化、去标识化等技术标准。然而，大模型的训练数据多源于大规模网络爬取、第三方数据交易、开源社区共享及已有语料库整合。在这一过程中，对海量原始数据主体进行逐一、具体的“告知”在实际操作中具有一定难度，其信息被收集与使用的具体情况难以追溯，导致“同意”的获取在实践层面面临挑战，进而可能影响后续的撤回同意、访问与更正等权利的顺利行使。

此外，当个人信息已被模型“记忆”（内化于参数中），法律赋予个人的“删除权”在技术上面临严峻的挑战，即“机器遗忘”难题。若采取简单剔除相关参数的方法，可能影响模型的整体性能与知识连贯性；而对模型进行全量重新训练，则涉及较高的资源与时间成本。因此，在当前技术条件下，落实“删除”要求仍需进一步研究与探索，这也是法律实施与技术实践之间需要持续沟通与协调的方向。

（二）责任主体界定复杂与救济机制效能有限

大模型的研发与应用生态涉及多方主体，涵盖训练数据提供方、预训练模型开发者、微调服务商、应用程序编程接口（API）调用者、终端应用平台等。若发生因模型记忆导致的信息泄露事件，传统的“谁处理、谁负责”原则在责任界定上面临适用挑战。对于权益受影响的个体而言，他们需要证明损害事实、厘清复杂的侵权链条并将损害量化，这往往面临举证困难、溯源复杂、损害难以量化等多重现实障碍，导致维权成本较高，有时甚至超过所能获得的赔偿，在一定程度上影响了用户寻求救济的积极性。在监管层面，现有算法备案与安全评估制度多聚焦于内容安全、系统稳定性等方面，针对数据隐私与模型记忆泄露的专项审查机制尚未系统建立，跨部门协同治理、全生命周期动态监测、第三方独立审计等配套机制仍处于逐步探索与完善阶段。

三、前沿探索与国际经验借鉴

当前，全球主要法域已积极关注大模型带来的隐私风险，并加快推进相关制度创新与标准建设。我国可借鉴国际经验，结合本土法律框架与技术生态，构建适配的大模型个人信息治理体系。

一是规制逻辑向“事前预防”延伸，强调隐私保护应内嵌于模型研发至部署的全生命周期。例如，欧盟《人工智能法》明确要求基础模型开发者建立数据治理框架、留存训练日志并开展系统性风险评估。

二是合规模式向“动态验证”演进，依托第三方审计、红队测试与自动化探针实现常态化安全评估。新加坡的AI Verify框架通过标准化测试路径提供合规验证工具，并依托“监管沙盒”完成受控场景下的模型风险压力测试。

三是责任架构向“多元共治”转型，构建政府监管、企业履责、技术社群自律与保险托底协同的责任分配网络。例如，美国通过相关行政令推动行业自愿限制训练数据中个人身份信息的使用，《加州隐私权法案》（CPRA）也强化了对消费者数据的保护边界。整体而言，人工智能隐私治理正转向建立权责清晰、信息透明的多方协同机制。

四、权利保障与社会共治路径

为筑牢大模型时代的个人信息保护防线，我们可转向“技术内生+制度适配+社会协同”的立体治理范式。具体而言，技术内生于模型架构，制度适配全生命周期，社会协同赋能多元主体，三者相互衔接、互为支撑，共同构建适应大模型时代的个人信息保护体系。

（一）技术防护：隐私计算与模型架构的深度融合

应推动隐私增强技术与大模型研发流程的标准化嵌入。差分隐私可在训练或微调过程中注入可控噪声，切断模型输出与特定样本的强关联；采用联邦学习实现“数据不动模型动”，从源头降低集中式数据汇聚风险；在推理与交互环节，可结合模型水印、输出过滤与提示词安全网关，识别并拦截试图还原高敏感信息的恶意查询。同时，亟须研发高效可靠的“机器遗忘”算法与影响函数评估工具，使模型能够在不重训的前提下精准剔除指定数据的影响，从而为法律规定的个人信息删除权提供可验证的技术支撑。

（二）制度设计：全生命周期合规与风险共担机制

建议建立大模型个人信息泄露专项评估机制。在预训练、指令微调、对齐优化及部署各阶段，要求开发者提交数据谱系报告、记忆泄露压力测试结果及缓解方案，并接受具备资质的第三方独立审计。探索模型透明度分级披露制度，尤其对面向公众的通用大模型，需公开训练数据分类比例、去标识化标准、安全测试记录及第三方认证结论。在责任分配方面，引入“风险共担+保险托底”机制，鼓励开发者投保人工智能隐私责任险，并推动建立行业互助基金，以分散因不可预见的泄露事件所带来的赔偿压力与经营风险。

（三）社会共治：公众赋能与生态自律

强化公众数字素养与隐私权利意识，通过开源工具、浏览器插件、操作系统级隐私保护模块等形式，赋予用户便捷的“模型交互防护”能力（如自动脱敏提示词、查询频率限制、本地化缓存清理）。鼓励行业协会、开源社区与头部企业联合制定《大模型个人信息保护自律公约》，建立行业合规“红黑榜”与信用惩戒机制，形成行业自律压力。同时，推动高校、科研机构与企业合作，共建“隐私安全沙盒”与“红蓝对抗演练平台”，在可控环境中开展持续性的攻防测试与技术验证，实现“以攻促防、以练代管”，营造既保障安全又鼓励创新的良性生态。

五、结语

大模型时代的个人信息泄露威胁，其本质源于技术快速跃迁与制度持续演进之间的结构性张力。成员推理与数据提取等新型攻击手段，不仅突破了传统数据保护的物理边界，更重塑了隐私风险的生成逻辑与传播路径。筑牢安全防线，绝非以牺牲创新为代价的“一刀切”限制，而是要通过技术赋能、制度迭代与社会协同，构建一个弹性适应、透明可信及权责清晰的治理新生态。只有将“隐私保护”内化为大模型发展的底层逻辑，并建立“研发即合规、部署即审计、交互即防护”的全流程长效机制，才能在人工智能新纪元真正实现技术向善与权利保障的同频共振，为数字经济健康发展筑牢不可逾越的安全底线。

（本文刊登于《中国信息安全》杂志2026年第4期）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.