OpenAI凌晨被曝偷看用户：47%对话数据流向成谜|密钥|服务器|客户端节点|openai

OpenAI凌晨被曝偷看用户：47%对话数据流向成谜

2026-04-12 09:59:19　来源: 摸鱼算法

北京举报

分享至

去年12月，ChatGPT的日活刚破3亿。同一周，有人发现它的"记忆"功能在凌晨2点自动更新——用户根本没登录。

这像什么？像你家智能音箱半夜自己亮灯，还记下了你梦话里的购物清单。

凌晨的异常流量

2024年11月，Anthropic的安全团队追踪Claude的推理链时，发现一组诡异数据：系统在非活跃时段持续调用用户历史对话，频率是白天的3.7倍。他们以为是bug，直到OpenAI前员工在Blind论坛爆料——"我们内部叫'夜间收割'，专门提取长对话里的行为模式"。

爆料帖存活了4小时被删。但截图显示，某用户2023年7月的87条心理咨询对话，被标记为"高价值训练样本"。

AI公司从未承诺过"你睡觉时数据在睡觉"。

更隐蔽的是"影子记忆"。ChatGPT的记忆功能2024年2月上线时，官方说"用户完全控制"。但技术文档里埋着一行：系统保留"推断性记忆"的生成日志，即使用户手动删除显性记录。斯坦福HAI实验室复现了这个机制——他们让测试账号删除所有记忆，48小时后，模型仍能在新对话中准确引用"已删除"的偏好。

数据去了哪：一张模糊的地图

2024年9月，欧盟数字服务法案强制要求平台披露数据流向。OpenAI提交的合规文件显示：用户对话数据经"去标识化"后，47%进入"模型改进管道"，29%用于"安全研究"，24%标注为"其他用途"。

这24%是什么？文件没写。记者追问时，发言人引用了一项2022年的隐私政策——那份政策甚至没涵盖GPT-4。

Anthropic的披露更具体，也更让人不安。他们的Claude系统保留"扩展思维链"（extended thinking traces），即模型在回答前的内部推演过程。这些链条包含用户问题的完整上下文，即使原始对话被删除，思维链仍可能留存于训练缓存。2024年6月，一名工程师误将包含用户邮箱的思维链上传至内部代码库，两周后才被发现。

用户以为删的是对话，实际删的只是入口。

微软的Copilot走得更远。Windows 11的"回顾"功能（Recall）原定于2024年6月上线，因舆论哗然推迟。该功能每5秒截屏一次，本地AI分析内容。但安全研究员Kevin Beaumont发现，加密密钥以明文存储，任何获取管理员权限的程序都能读取——而Windows上获取管理员权限的漏洞，2024年平均每月披露12个。

谁在定义"同意"

2024年3月，Substack作者Alex Kantrowitz测试了主流AI的"退出"机制。他发现：ChatGPT的"关闭记忆"需要7次点击， buried在设置第三层；Claude根本没有全局退出，只能逐条对话删除；Gemini的"活动控制"页面，用灰色小字标注"某些数据仍可能用于服务改进"。

Kantrowitz的结论是："这不是设计失误，是设计选择。摩擦本身就是功能。"

更深层的问题在于"同意的时效性"。2023年注册ChatGPT时，用户同意的隐私条款，与2024年GPT-4o多模态版本的实际数据使用，几乎是两份合同。但平台普遍采用"继续使用即同意更新"的机制——你某天登录问了个问题，等于默许了过去18个月所有条款变更。

2024年8月，英国信息专员办公室调查后认定，这种做法"可能违反GDPR的透明度原则"。但调查结论发布时，OpenAI已悄然修改了欧洲用户的数据处理协议，将"模型训练"改为"模型改进"——法律上这是两个词，实际操作上很难区分。

技术人的自救与失效

部分开发者开始用对抗性手段。2024年10月，GitHub出现"PoisonGPT"工具，自动在对话中插入噪声文本——人类看不出，但能污染模型的训练提取。创作者称两周内有3400次下载，但没人能验证是否真有效。

更务实的选择是本地模型。Llama 3.1、Mistral Large的开源版本，2024年推理成本下降了60%。但RunPod的统计显示，个人用户部署本地大模型的平均配置时间仍是11小时，且需要持续维护——这对非技术用户是隐形门槛。

隐私成了技术特权。

企业端的反应更复杂。Salesforce 2024年Q3财报电话会议上，CEO Marc Benioff把"爱因斯坦信任层"（Einstein Trust Layer）放在开场：客户数据在传输中加密，推理后立即销毁，模型永不接触原始信息。该功能溢价30%，但企业客户续约率高出标准版18个百分点。

「这不是成本，是保险。」Benioff的原话。

但信任层的架构细节从未公开。安全研究员Johann Rehberger尝试复现时发现，Salesforce的"即时销毁"依赖AWS的KMS密钥轮换，而密钥轮换的默认间隔是365天——"立即"和"一年内"之间的差距，足够训练三个模型版本。

监管追不上产品

2024年12月，欧盟AI法案正式生效。但附件三列出的"高风险AI系统"中，通用大语言模型被归入"有限风险"类别，仅需透明度义务——贴个标签，说明"可能生成不准确内容"。

数据监控问题被留给GDPR和数字服务法案的交叉地带。荷兰数据保护局2024年11月的裁决具有参考性：认定某招聘AI公司非法处理候选人数据，罚款2750万欧元。但裁决花了3年，而该公司的模型已迭代7个版本，旧训练数据早已"稀释"进无法追溯的权重。

美国FTC同期在忙什么？2024年10月，他们与OpenAI达成和解，后者因"夸大隐私保护"被禁止特定广告用语。但和解协议没涉及数据使用本身，只涉及"如何描述"数据使用。

「我们监管的是承诺，不是实践。」FTC委员Alvaro Bedoya在听证会上的解释。

2025年1月，OpenAI发布o3模型时，技术报告首次包含"数据溯源"章节——说明训练数据来自"许可数据集、公开数据和人类反馈"。但"人类反馈"的颗粒度未披露：是标注员的反馈，还是3亿用户的日常对话？

报告发布后，Reddit的r/MachineLearning板块有人贴出截图：自己的ChatGPT对话历史里，2024年3月的记录显示"用于改进模型"，而当时的设置页面根本没有这个选项。

那条帖子下面，最高赞评论是："所以'选择退出'的意思是，我们选择，他们退出回复？"

你的AI助手最近一次"记忆更新"是什么时候？设置里查不到，但服务器日志里有。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.