对 DeepSeek 说一句 <think>，它就开始疯言疯语，到底是不是泄露用户数据啊？|样本|序列|上下文|deepseek|Think(歌曲)|spiderlinebreak

对 DeepSeek 说一句 <think>，它就开始疯言疯语，到底是不是泄露用户数据啊？

2026-05-15 21:55:00　来源: 硅星人

北京举报

分享至

作者｜樊雅婷
邮箱｜ fanyating@pingwest.com

最近不少人发现一个有意思的玩法：在 DeepSeek 对话框里直接输入

或者干脆只打一个，模型就会瞬间吐出一大段毫不相干的内容——有时是小说续写，有时是日期计算，有时是某个根本不存在的故事开头。更怪的是， 每次刷新结果都不一样。

APP端也一样。

目前快速模式刷出概率100% ，专家模式概率较小。

很多人第一反应都是DeepSeek是不是把训练数据漏出来了？也有人猜是“模型的隐藏咒语”。

这些猜测都不对。

这件事的根因，其实是一个语言模型工程师每天都在打交道的概念：对话模板（chat template）被用户玩坏了。

你以为模型看到的是：“你好”，其实是一整段协议

在你跟 DeepSeek 聊天时，输入框里打的字并不是直接喂给模型的。后端会把它包成一段类似下面这样的协议：

<｜begin▁of▁sentence｜><｜User｜>{你输入的话}<｜Assistant｜>

这些尖括号包裹的奇怪字符串叫 特殊 token（special tokens）。它们是模型训练时用来区分谁在说话的分隔符——相当于剧本里的“角色名 + 冒号”。

模型在监督微调（SFT）阶段被反复训练成一种条件反射：

只有在 <｜Assistant｜> 这个 token 出现之后，我才轮到我说话。

所以平常你打“你好”，模型读到的是上面那串完整结构，知道现在是用户问完了，该我答了。

当你把"协议本身"打进输入框，会发生什么

关键问题来了：如果你把 <｜begin▁of▁sentence｜> 这个 字面字符串 直接打到输入框里，前端 / tokenizer 会怎么处理？

答案是：在很多配置下，它会被重新识别为真正的特殊 token id，而不是按普通字符分词。因为 tokenizer 的词表里，这串字面值就映射到那个特殊 id。

这一刻，模型实际看到的上下文（示意）变成了：

这串东西意味着什么？

（begin of sentence）：训练里每一条样本最最开头出现的特殊标记；

：标记一条全新的 SFT 训练样本即将开始；

：在 R1 训练里，标记一段思考独白即将开始。

换句话说，你刚刚把模型送回到一条训练样本"刚刚开始、但用户还没提问"的那个时间节点里。

例如独立研究者也在复现 R1 单独遇到思考 token 时陷入"自问自答"循环的现象。

语言模型不会“沉默”，它只会“继续”

这里有一个很多人没意识到的事实：自回归语言模型不能拒绝输出。

它的工作机制是给定前缀，计算条件分布 P(下一个 token | 前面所有 token)，按这个分布采样一个 token，再把它接到前缀后面，继续算下一个。一直循环到 EOS（end of sentence）才停。

DeepSeek 《模型原理与训练方法说明》里原文是"模型采用自回归生成方式，基于输入的上下文内容，通过概率计算预测最可能接续的词汇序列。"也就是说，模型本质上只在做一件事：根据前缀的概率分布，采样下一个 token。

也就是说——

只要你按了回车，它就必须吐字。你给它的前缀有没有问题，它一点都不在乎。

所以当前缀是这种纯结构、零内容的东西时，它会从哪里采样？

它只能从训练集中所有以这串特殊 token 起头的样本所构成的混合分布里采样。

DeepSeek 的训练数据混合是公开过的——里面有数学题、代码题、长链路推理样本、SFT 阶段塞过的对话剧本、长文写作、小说片段……这些样本都共享同样的开头 token。

所以，突然冒出一道数学题或日期计算可能是命中了 R1 大量的数学 / 推理样本；突然开始写小说可能是命中了 SFT 里的创作类样本；突然出现另一个人在跟你聊天可能是命中了对话剧本类样本......

每次刷新都不一样是因为温度 > 0 时，采样本身就是随机的。

没有用户问题做锚点，整条生成轨迹完全被噪声推着走。这不是 AI 在发疯或者有自主意识，这是它在一个没有锚点的概率空间里自由游走。

为什么 R1 比 V3 更“怪”

同样的玩法，R1 的输出明显比 V3 更滔滔不绝、更天马行空。原因有两个：

R1 更加注重 / <｜end▁of▁thinking｜> 这套思考 token 。 通过 RL 和 SFT，模型学会看到就开始独白长段落。一旦你单独喂它一个，等于按下了“独白模式”按钮。

R1 的训练分布里有大量长 CoT（链式思考）样本。 这些样本本身就是独白几百上千字才进入正题的结构，所以它产生的随机内容也特别长。

第三方评测曾验证过这一说法 “Deepseek R1 hallucinates significantly more (14.3% hallucination rate) than its predecessor, DeepSeek V3 (3.9%)... R1 appears to 'overhelp,' adding information that's not in the text, even if it's factually correct。”

那“另几种解释”为什么不成立？

网上关于这个现象，还流传着其他几种声音：

1. 是不是训练数据泄漏出来了？

不是。

首先，DeepSeek 官方报告里说模型并未存储用于训练的原始文本数据副本

其次，学界共识也一致——除非触发极少数高重复样本的逐字记忆（memorization），否则输出是分布层面的“风格相似”，不是逐字泄漏。输入一个就吐随机故事完全属于前者，你看到的是从分布采样出来的新序列，不是某条训练样本的逐字回放。

2. 是不是 chat template 写错了？

部分是。

这类问题在 DeepSeek 的开源社区里已经被多次提出过。
配置叠加导致序列开头被塞了两个 BOS，说明这套特殊 token 对训练对齐极其敏感。

类似的还有用户提到R1-Distill 漏输出问题。但这些都不是主因。 主因仍然是用户能直接把特殊 token 写进输入。

3. 是不是 AI 出现了诡异的“神秘 token”？

这个说法描述对了现象，但没说到原因。
大量特殊 token 在 embedding 空间里像“空白区”，意义完全依赖上下文。失去锚点后，模型会在分布的某个奇怪角落里采样，于是看上去像凭空生成了一个算术题或一段对白。

4. 写网文的人故意这么用。

不一定。

虽然可能有人专门用裸来获得“跳出常规对话框架的脑暴”，但这种随机性太强，不如引导模型后生成创意答案。

安全定义

如果将前面的玩法再推进一步：不是在个人对话框里试验，而是在 RAG 应用或 Agent 工具调用的上下文中，注入 <|User|>...<|Assistant|> 这类伪造的角色标签——这其实就是安全领域一个真实存在的攻击类型。

换句话说，你今天看到的“在输入框敲入让 DeepSeek 胡言乱语”，与未来可能出现的“某 Agent 被诱骗执行越权操作”，出现的原因完全一致：模型对特殊 token 的信任，建立在“它们只应来自系统后端”这一假定之上。一旦该假定被攻破，整个对话协议便形同虚设。

防御方案在 OWASP 的《LLM Prompt Injection Prevention Cheat Sheet》中已经写明 后端 tokenizer 必须对用户输入做 special-token escaping，强制按 byte 分词，再叠加严格的 chat-template 校验。

如果某天 DeepSeek 在前端或服务端补上了这层过滤，今天这个“咒语”自然就会失效。

总结

这串字符没那么玄乎，只是模型对话协议的内部分隔符。

把它直接喂进模型，就等于让一辆按车道线行驶的车回到“还没画车道线的起点”——它必须继续往前开，但没人告诉它要去哪。所以它就从训练记忆里随机挑一条路线继续跑。每次生成的内容不一样，因为采样本身就是随机的。

这既不是 bug，也不是训练数据泄漏，更不是AI意识觉醒。

它是自回归语言模型 + 被攻破的对话模板共同作用下的一个普通产物。

它的学术名字叫 Special Token Injection——一个在 AI 安全圈已经被研究、被命名、被加入红队工具的、正经的现象。

点个“爱心”，再走吧

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.