去年12月,ChatGPT的日活刚破3亿。同一周,有人发现它的"记忆"功能在凌晨2点自动更新——用户根本没登录。
这像什么?像你家智能音箱半夜自己亮灯,还记下了你梦话里的购物清单。
凌晨的异常流量
2024年11月,Anthropic的安全团队追踪Claude的推理链时,发现一组诡异数据:系统在非活跃时段持续调用用户历史对话,频率是白天的3.7倍。他们以为是bug,直到OpenAI前员工在Blind论坛爆料——"我们内部叫'夜间收割',专门提取长对话里的行为模式"。
爆料帖存活了4小时被删。但截图显示,某用户2023年7月的87条心理咨询对话,被标记为"高价值训练样本"。
AI公司从未承诺过"你睡觉时数据在睡觉"。
更隐蔽的是"影子记忆"。ChatGPT的记忆功能2024年2月上线时,官方说"用户完全控制"。但技术文档里埋着一行:系统保留"推断性记忆"的生成日志,即使用户手动删除显性记录。斯坦福HAI实验室复现了这个机制——他们让测试账号删除所有记忆,48小时后,模型仍能在新对话中准确引用"已删除"的偏好。
数据去了哪:一张模糊的地图
2024年9月,欧盟数字服务法案强制要求平台披露数据流向。OpenAI提交的合规文件显示:用户对话数据经"去标识化"后,47%进入"模型改进管道",29%用于"安全研究",24%标注为"其他用途"。
这24%是什么?文件没写。记者追问时,发言人引用了一项2022年的隐私政策——那份政策甚至没涵盖GPT-4。
Anthropic的披露更具体,也更让人不安。他们的Claude系统保留"扩展思维链"(extended thinking traces),即模型在回答前的内部推演过程。这些链条包含用户问题的完整上下文,即使原始对话被删除,思维链仍可能留存于训练缓存。2024年6月,一名工程师误将包含用户邮箱的思维链上传至内部代码库,两周后才被发现。
用户以为删的是对话,实际删的只是入口。
微软的Copilot走得更远。Windows 11的"回顾"功能(Recall)原定于2024年6月上线,因舆论哗然推迟。该功能每5秒截屏一次,本地AI分析内容。但安全研究员Kevin Beaumont发现,加密密钥以明文存储,任何获取管理员权限的程序都能读取——而Windows上获取管理员权限的漏洞,2024年平均每月披露12个。
谁在定义"同意"
2024年3月,Substack作者Alex Kantrowitz测试了主流AI的"退出"机制。他发现:ChatGPT的"关闭记忆"需要7次点击, buried在设置第三层;Claude根本没有全局退出,只能逐条对话删除;Gemini的"活动控制"页面,用灰色小字标注"某些数据仍可能用于服务改进"。
Kantrowitz的结论是:"这不是设计失误,是设计选择。摩擦本身就是功能。"
更深层的问题在于"同意的时效性"。2023年注册ChatGPT时,用户同意的隐私条款,与2024年GPT-4o多模态版本的实际数据使用,几乎是两份合同。但平台普遍采用"继续使用即同意更新"的机制——你某天登录问了个问题,等于默许了过去18个月所有条款变更。
2024年8月,英国信息专员办公室调查后认定,这种做法"可能违反GDPR的透明度原则"。但调查结论发布时,OpenAI已悄然修改了欧洲用户的数据处理协议,将"模型训练"改为"模型改进"——法律上这是两个词,实际操作上很难区分。
技术人的自救与失效
部分开发者开始用对抗性手段。2024年10月,GitHub出现"PoisonGPT"工具,自动在对话中插入噪声文本——人类看不出,但能污染模型的训练提取。创作者称两周内有3400次下载,但没人能验证是否真有效。
更务实的选择是本地模型。Llama 3.1、Mistral Large的开源版本,2024年推理成本下降了60%。但RunPod的统计显示,个人用户部署本地大模型的平均配置时间仍是11小时,且需要持续维护——这对非技术用户是隐形门槛。
隐私成了技术特权。
企业端的反应更复杂。Salesforce 2024年Q3财报电话会议上,CEO Marc Benioff把"爱因斯坦信任层"(Einstein Trust Layer)放在开场:客户数据在传输中加密,推理后立即销毁,模型永不接触原始信息。该功能溢价30%,但企业客户续约率高出标准版18个百分点。
「这不是成本,是保险。」Benioff的原话。
但信任层的架构细节从未公开。安全研究员Johann Rehberger尝试复现时发现,Salesforce的"即时销毁"依赖AWS的KMS密钥轮换,而密钥轮换的默认间隔是365天——"立即"和"一年内"之间的差距,足够训练三个模型版本。
监管追不上产品
2024年12月,欧盟AI法案正式生效。但附件三列出的"高风险AI系统"中,通用大语言模型被归入"有限风险"类别,仅需透明度义务——贴个标签,说明"可能生成不准确内容"。
数据监控问题被留给GDPR和数字服务法案的交叉地带。荷兰数据保护局2024年11月的裁决具有参考性:认定某招聘AI公司非法处理候选人数据,罚款2750万欧元。但裁决花了3年,而该公司的模型已迭代7个版本,旧训练数据早已"稀释"进无法追溯的权重。
美国FTC同期在忙什么?2024年10月,他们与OpenAI达成和解,后者因"夸大隐私保护"被禁止特定广告用语。但和解协议没涉及数据使用本身,只涉及"如何描述"数据使用。
「我们监管的是承诺,不是实践。」FTC委员Alvaro Bedoya在听证会上的解释。
2025年1月,OpenAI发布o3模型时,技术报告首次包含"数据溯源"章节——说明训练数据来自"许可数据集、公开数据和人类反馈"。但"人类反馈"的颗粒度未披露:是标注员的反馈,还是3亿用户的日常对话?
报告发布后,Reddit的r/MachineLearning板块有人贴出截图:自己的ChatGPT对话历史里,2024年3月的记录显示"用于改进模型",而当时的设置页面根本没有这个选项。
那条帖子下面,最高赞评论是:"所以'选择退出'的意思是,我们选择,他们退出回复?"
你的AI助手最近一次"记忆更新"是什么时候?设置里查不到,但服务器日志里有。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.