大模型为何能背出陌生人的手机号|序列|逐字

大模型为何能背出陌生人的手机号

2026-04-30 04:46:57　来源: 爬虫饲养员

北京举报

分享至

你让AI续写一封没写完的邮件，它却补上一个陌生号码。区号是真的，格式也对，但你根本不认识这个人。那个号码从哪来？为什么模型会"记得"它？

这不是幻觉，是记忆

这种不安的感觉有学名：可提取记忆（extractable memorization）。研究它比大多数做大模型产品的团队意识到的要早得多，也深得多。

现代记忆研究的起点是2021年。Carlini团队在USENIX Security发表的论文显示，用精心设计的提示词查询GPT-2，能从训练集中恢复数百条逐字序列——包括姓名、手机号、邮箱地址、IRC聊天记录和代码。攻击者不需要接触模型权重或训练数据，一个黑盒API加聪明的提示就够了。

两年后，同一研究路线升级。Nasr和Carlini等人2023年的工作证明，即使是经过RLHF（基于人类反馈的强化学习）对齐的聊天模型也会泄露。他们对ChatGPT发动"发散攻击"：让模型永远重复同一个词。模型跳出助手人设，开始吐出原始训练片段。团队花了约200美元API费用，恢复出一万多条逐字训练样本。

这些论文的实证结论很直接：记忆与数据重复次数呈对数线性关系，且在不同架构中稳定存在。这不是怪癖，是"预测下一个token"训练方式在重复数据上的固有属性。

为什么偏偏是手机号

电话号码、邮箱、地址恰好落在记忆机制的舒适区。它们短、有结构、在爬取的网页中反复出现。一条客服帖子被复制到多个论坛，一个联系信息块被粘贴进同一邮件列表的十个签名，一份泄露的数据库被丢进GitHub gist又被镜像。每一次重复，都在把这条字符串往模型的"我见过这个"区域推。

Carlini的量化研究给出了数字：重复一百次的序列，被记忆的概率比唯一出现的序列高约一个数量级。个人身份信息（PII）片段很少只出现一次，它们出现五十次、五千次。

四层防线，没有完美解

防御分布在四个层面，每层买一种不同的安全。

训练时去重。Lee、Ippolito、Carlini等人2022年的ACL论文证明，激进的近似去重能将逐字输出降低约十倍，同时改善困惑度。这是最便宜也最有效的杠杆，现在每个正经实验室的标配。Google的

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.