网易首页 > 网易号 > 正文 申请入驻

对 DeepSeek 说一句 <think>,它就开始疯言疯语,到底是不是泄露用户数据啊?

0
分享至


作者 | 樊雅婷
邮箱 | fanyating@pingwest.com

最近不少人发现一个有意思的玩法:在 DeepSeek 对话框里直接输入

或者干脆只打一个 ,模型就会瞬间吐出一大段毫不相干的内容——有时是小说续写,有时是日期计算,有时是某个根本不存在的故事开头。更怪的是, 每次刷新结果都不一样

APP端也一样。

目前快速模式刷出概率100% ,专家模式概率较小。



很多人第一反应都是DeepSeek是不是把训练数据漏出来了?也有人猜是“模型的隐藏咒语”。

这些猜测都不对。

这件事的根因,其实是一个语言模型工程师每天都在打交道的概念:对话模板(chat template)被用户玩坏了

1

你以为模型看到的是:“你好”,其实是一整段协议

在你跟 DeepSeek 聊天时,输入框里打的字并不是直接喂给模型的。后端会把它包成一段类似下面这样的协议:

<|begin▁of▁sentence|><|User|>{你输入的话}<|Assistant|>

这些尖括号包裹的奇怪字符串叫 特殊 token(special tokens)。它们是模型训练时用来区分谁在说话 的分隔符——相当于剧本里的“角色名 + 冒号”。

模型在监督微调(SFT)阶段被反复训练成一种条件反射:

只有在 <|Assistant|> 这个 token 出现之后,我才轮到我说话。

所以平常你打“你好”,模型读到的是上面那串完整结构,知道现在是用户问完了,该我答了。

1

当你把"协议本身"打进输入框,会发生什么

关键问题来了:如果你把 <|begin▁of▁sentence|> 这个 字面字符串 直接打到输入框里,前端 / tokenizer 会怎么处理?

答案是:在很多配置下,它会被重新识别为真正的特殊 token id,而不是按普通字符分词。因为 tokenizer 的词表里,这串字面值就映射到那个特殊 id。

这一刻,模型实际看到的上下文(示意)变成了:

这串东西意味着什么?

  • (begin of sentence):训练里每一条样本最最开头出现的特殊标记;

  • :标记一条全新的 SFT 训练样本即将开始;

  • :在 R1 训练里,标记一段思考独白即将开始。

换句话说,你刚刚把模型送回到一条训练样本"刚刚开始、但用户还没提问"的那个时间节点里


例如独立研究者也在复现 R1 单独遇到思考 token 时陷入"自问自答"循环的现象。



1

语言模型不会“沉默”,它只会“继续”

这里有一个很多人没意识到的事实:自回归语言模型不能拒绝输出。

它的工作机制是给定前缀,计算条件分布 P(下一个 token | 前面所有 token),按这个分布采样一个 token,再把它接到前缀后面,继续算下一个。一直循环到 EOS(end of sentence)才停。

DeepSeek 《模型原理与训练方法说明》里原文是"模型采用自回归生成方式,基于输入的上下文内容,通过概率计算预测最可能接续的词汇序列。"也就是说,模型本质上只在做一件事:根据前缀的概率分布,采样下一个 token

也就是说——

只要你按了回车,它就必须吐字。你给它的前缀有没有问题,它一点都不在乎。

所以当前缀是 这种纯结构、零内容的东西时,它会从哪里采样?

它只能从训练集中所有以这串特殊 token 起头的样本所构成的混合分布里采样。

DeepSeek 的训练数据混合是公开过的——里面有数学题、代码题、长链路推理样本、SFT 阶段塞过的对话剧本、长文写作、小说片段……这些样本都共享同样的开头 token。

所以,突然冒出一道数学题或日期计算可能是命中了 R1 大量的数学 / 推理样本;突然开始写小说可能是命中了 SFT 里的创作类样本;突然出现另一个人在跟你聊天可能是命中了对话剧本类样本......

每次刷新都不一样是因为温度 > 0 时,采样本身就是随机的

没有用户问题做锚点,整条生成轨迹完全被噪声推着走。这不是 AI 在发疯或者有自主意识,这是它在一个没有锚点的概率空间里自由游走

1

为什么 R1 比 V3 更“怪”

同样的玩法,R1 的输出明显比 V3 更滔滔不绝、更天马行空。原因有两个:

R1 更加注重 / <|end▁of▁thinking|> 这套思考 token 。 通过 RL 和 SFT,模型学会看到 就开始独白长段落。一旦你单独喂它一个 ,等于按下了“独白模式”按钮。

R1 的训练分布里有大量长 CoT(链式思考)样本。 这些样本本身就是独白几百上千字才进入正题的结构,所以它产生的随机内容也特别长。

第三方评测曾验证过这一说法 “Deepseek R1 hallucinates significantly more (14.3% hallucination rate) than its predecessor, DeepSeek V3 (3.9%)... R1 appears to 'overhelp,' adding information that's not in the text, even if it's factually correct。”

1

那“另几种解释”为什么不成立?

网上关于这个现象,还流传着其他几种声音:

1. 是不是训练数据泄漏出来了?

不是。

首先,DeepSeek 官方报告里说模型并未存储用于训练的原始文本数据副本


其次,学界共识也一致——除非触发极少数高重复样本的逐字记忆(memorization),否则输出是分布层面的“风格相似”,不是逐字泄漏。输入一个 就吐随机故事完全属于前者,你看到的是从分布采样出来的新序列,不是某条训练样本的逐字回放。

2. 是不是 chat template 写错了?

部分是。

这类问题在 DeepSeek 的开源社区里已经被多次提出过。
配置叠加导致序列开头被塞了两个 BOS,说明这套特殊 token 对训练对齐极其敏感。


类似的还有用户提到R1-Distill 漏输出 问题。但这些都不是主因。 主因仍然是用户能直接把特殊 token 写进输入。

3. 是不是 AI 出现了诡异的“神秘 token”?

这个说法描述对了现象,但没说到原因。
大量特殊 token 在 embedding 空间里像“空白区”,意义完全依赖上下文。失去锚点后,模型会在分布的某个奇怪角落里采样,于是看上去像凭空生成了一个算术题或一段对白。

4. 写网文的人故意这么用。

不一定。

虽然可能有人专门用裸 来获得“跳出常规对话框架的脑暴”,但这种随机性太强,不如引导模型后生成创意答案。

1

安全定义

如果将前面的玩法再推进一步:不是在个人对话框里试验,而是在 RAG 应用或 Agent 工具调用的上下文中,注入 <|User|>...<|Assistant|> 这类伪造的角色标签——这其实就是安全领域一个真实存在的攻击类型。

换句话说,你今天看到的“在输入框敲入 让 DeepSeek 胡言乱语”,与未来可能出现的“某 Agent 被诱骗执行越权操作”,出现的原因完全一致:模型对特殊 token 的信任,建立在“它们只应来自系统后端”这一假定之上。一旦该假定被攻破,整个对话协议便形同虚设。

防御方案在 OWASP 的《LLM Prompt Injection Prevention Cheat Sheet》中已经写明 后端 tokenizer 必须对用户输入做 special-token escaping,强制按 byte 分词,再叠加严格的 chat-template 校验。

如果某天 DeepSeek 在前端或服务端补上了这层过滤,今天这个“咒语”自然就会失效。

1

总结

这串字符没那么玄乎,只是模型对话协议的内部分隔符

把它直接喂进模型,就等于让一辆按车道线行驶的车回到“还没画车道线的起点”——它必须继续往前开,但没人告诉它要去哪。所以它就从训练记忆里随机挑一条路线继续跑。每次生成的内容不一样,因为采样本身就是随机的。

这既不是 bug,也不是训练数据泄漏,更不是AI意识觉醒。

它是自回归语言模型 + 被攻破的对话模板共同作用下的一个普通产物

它的学术名字叫 Special Token Injection——一个在 AI 安全圈已经被研究、被命名、被加入红队工具的、正经的现象。


点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
随着比分定格3-2,中超第10掀翻中超第3,45岁郑智率队终结8轮不胜

随着比分定格3-2,中超第10掀翻中超第3,45岁郑智率队终结8轮不胜

侧身凌空斩
2026-05-15 22:04:18
突发:央视已获世界杯版权,签约价格揭晓!

突发:央视已获世界杯版权,签约价格揭晓!

仕道
2026-05-15 15:59:40
玄学不敢明说的10个秘密:看懂一个,少走十年弯路

玄学不敢明说的10个秘密:看懂一个,少走十年弯路

白浅娱乐聊
2026-05-14 00:47:03
难怪黄仁勋那么积极跟着特朗普访华,一到北京就拿下了大额订单。

难怪黄仁勋那么积极跟着特朗普访华,一到北京就拿下了大额订单。

魔都姐姐杂谈
2026-05-14 22:09:10
未婚女孩隐私部位脓肿南京明基医院要求住院手术 女孩换家三甲医院开了4块钱药治好

未婚女孩隐私部位脓肿南京明基医院要求住院手术 女孩换家三甲医院开了4块钱药治好

坠入二次元的海洋
2026-05-15 19:16:40
凌晨1点,CCTV没直播,中国男足逆转沙特=时隔22年进亚洲杯半决赛

凌晨1点,CCTV没直播,中国男足逆转沙特=时隔22年进亚洲杯半决赛

俯身冲顶
2026-05-16 03:29:20
买下之后迅速卖出!33岁老射手无人信任,双逆足难题仍存在

买下之后迅速卖出!33岁老射手无人信任,双逆足难题仍存在

里芃芃体育
2026-05-16 00:15:06
全世界都在看这场大活动,唯独这个小男孩成了最大惊喜

全世界都在看这场大活动,唯独这个小男孩成了最大惊喜

妙知
2026-05-15 10:09:34
让学术能力很强的博士退学的后果是:学术圈的“杰青”保不住了

让学术能力很强的博士退学的后果是:学术圈的“杰青”保不住了

必记本
2026-05-15 12:08:25
重磅:曝德国计划用乌克兰“火烈鸟”导弹替代战斧!

重磅:曝德国计划用乌克兰“火烈鸟”导弹替代战斧!

项鹏飞
2026-05-15 18:33:53
热议U17晋级四强:沙特是中国足球的新福地;报了U20的仇!

热议U17晋级四强:沙特是中国足球的新福地;报了U20的仇!

懂球帝
2026-05-16 03:14:15
日媒披露高市正筹备访华,或主动承认错误求和,而且她笃定一件事

日媒披露高市正筹备访华,或主动承认错误求和,而且她笃定一件事

南宗历史
2026-05-15 20:14:24
活塞骑士伤病出炉!骑士两位核心遭流感!活塞三人受伤!射手缺席

活塞骑士伤病出炉!骑士两位核心遭流感!活塞三人受伤!射手缺席

画夕
2026-05-15 11:33:38
8个月10万辆:这款10万元电车靠半固态电池杀疯了

8个月10万辆:这款10万元电车靠半固态电池杀疯了

我是一个粉刷匠2
2026-05-15 02:34:58
乌克兰低成本武器多由手工焊接或胶带缠绕 防长:都是消耗品,随时会被击落或炸毁

乌克兰低成本武器多由手工焊接或胶带缠绕 防长:都是消耗品,随时会被击落或炸毁

红星新闻
2026-05-15 18:47:49
上市不足一月股价涨超8倍!盛合晶微再次提示风险:公司营收规模与大型封测企业相比仍较小

上市不足一月股价涨超8倍!盛合晶微再次提示风险:公司营收规模与大型封测企业相比仍较小

澎湃新闻
2026-05-15 21:38:27
超级大反转!美方批准向中企出售H200,阿里腾讯却“拒收”了?

超级大反转!美方批准向中企出售H200,阿里腾讯却“拒收”了?

知鹤
2026-05-15 21:55:03
第一次感受到“荔枝核的威力”,泡水里20天,长成“粉盆栽”

第一次感受到“荔枝核的威力”,泡水里20天,长成“粉盆栽”

美家指南
2026-05-15 15:27:43
中美谈判桌炸出4颗深水炸弹:特朗普千亿订单被中国反手撕碎?

中美谈判桌炸出4颗深水炸弹:特朗普千亿订单被中国反手撕碎?

小莜读史
2026-05-14 13:43:45
成人片女星许诺萨福诺夫夺欧冠将共度良宵,球员妻子爆粗回应

成人片女星许诺萨福诺夫夺欧冠将共度良宵,球员妻子爆粗回应

懂球帝
2026-05-14 15:58:14
2026-05-16 04:19:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
3084文章数 10497关注度
往期回顾 全部

科技要闻

直降千元起步!苹果华为率先开启618让利

头条要闻

黄仁勋在北京喝豆汁痛苦皱眉 问“这是什么东西”

头条要闻

黄仁勋在北京喝豆汁痛苦皱眉 问“这是什么东西”

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

腾讯掉队,马化腾戳破真相

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

房产
教育
艺术
亲子
军事航空

房产要闻

老黄埔热销之下,珠江春,为何去化仅3成?

教育要闻

儿子不让用水刷鞋,无知家长被嘲:非要孩子考不上大学,你才高兴

艺术要闻

1008米!沙特“世界第一高楼”项目,为何极有可能建成?

亲子要闻

孕妇补钙怕刺激怎么选?液体钙无添加配方实测,蓝帽认证更靠谱

军事要闻

乌克兰首都基辅遭空袭 死亡人数增至12人

无障碍浏览 进入关怀版