你让AI续写一封没写完的邮件,它却补上一个陌生号码。区号是真的,格式也对,但你根本不认识这个人。那个号码从哪来?为什么模型会"记得"它?
这不是幻觉,是记忆
![]()
这种不安的感觉有学名:可提取记忆(extractable memorization)。研究它比大多数做大模型产品的团队意识到的要早得多,也深得多。
现代记忆研究的起点是2021年。Carlini团队在USENIX Security发表的论文显示,用精心设计的提示词查询GPT-2,能从训练集中恢复数百条逐字序列——包括姓名、手机号、邮箱地址、IRC聊天记录和代码。攻击者不需要接触模型权重或训练数据,一个黑盒API加聪明的提示就够了。
两年后,同一研究路线升级。Nasr和Carlini等人2023年的工作证明,即使是经过RLHF(基于人类反馈的强化学习)对齐的聊天模型也会泄露。他们对ChatGPT发动"发散攻击":让模型永远重复同一个词。模型跳出助手人设,开始吐出原始训练片段。团队花了约200美元API费用,恢复出一万多条逐字训练样本。
这些论文的实证结论很直接:记忆与数据重复次数呈对数线性关系,且在不同架构中稳定存在。这不是怪癖,是"预测下一个token"训练方式在重复数据上的固有属性。
为什么偏偏是手机号
电话号码、邮箱、地址恰好落在记忆机制的舒适区。它们短、有结构、在爬取的网页中反复出现。一条客服帖子被复制到多个论坛,一个联系信息块被粘贴进同一邮件列表的十个签名,一份泄露的数据库被丢进GitHub gist又被镜像。每一次重复,都在把这条字符串往模型的"我见过这个"区域推。
Carlini的量化研究给出了数字:重复一百次的序列,被记忆的概率比唯一出现的序列高约一个数量级。个人身份信息(PII)片段很少只出现一次,它们出现五十次、五千次。
四层防线,没有完美解
防御分布在四个层面,每层买一种不同的安全。
训练时去重。Lee、Ippolito、Carlini等人2022年的ACL论文证明,激进的近似去重能将逐字输出降低约十倍,同时改善困惑度。这是最便宜也最有效的杠杆,现在每个正经实验室的标配。Google的
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.