蒸馏这事，美国人自己天天干，为啥到了DeepSeek就成“工业化窃取了”？|华盛顿|混合物|deepseek

分享至

No.0287

Science Partner

Bring you to the side of science

导读

这两天，美国白宫发了一份备忘录、国务院向全球使馆发了外交电报、众议院专门开了听证会，一套完整的行政+立法+外交组合拳，矛头指向中国AI公司，尤其是DeepSeek，说他们在“工业规模地窃取美国AI技术”。

美伊以战争才消停几天呀...而且，罪名和内容可都太奇怪了。

“工业规模窃取”，这词听着很严重，就好像梁文峰带着DeepSeek大半夜翻墙入室偷走了OpenAI的硬盘。

但仔细看指控内容，核心指控是：DeepSeek用了一种叫“蒸馏”的技术。

蒸馏？

这不就是AI圈里每个人都在用的标准技术方法吗？Meta用过，谷歌用过，微软用过，就连美国开山鼻祖公司OpenAI自己也用过。

那怎么到DeepSeek这儿，就变成“窃取”了？

这就是科学伙伴今天想认真聊的事。这件事不是一个简单的对错之争，背后是一场关于谁来定义AI时代的规则的深层博弈。

走，跟伙伴君来！

今日主笔 | 晶恒

蒸馏这事，美国人自己天天干，为啥到了DeepSeek就成“工业化窃取了”？

01. 先说清楚蒸馏是什么

“蒸馏”这个词起源于化学，把混合物加热，让某种成分挥发再凝结，最终得到纯净物。

AI里的“知识蒸馏”（Knowledge Distillation），道理类似：用一个大模型来“教”一个小模型。

具体怎么教？

可以把大模型想象成一位知识渊博但“很重”的老师：能力强，但运行成本高，需要云端大型算力支持。模型蒸馏要做的事，就是让一个更小的“学生模型”去学习这位老师的解题方式。学生模型不一定拥有老师全部的知识和能力，但它可以学到很多关键模式，从而变得更轻、更快、更便宜，甚至有机会在本地电脑上运行。

传统方法是让学生模型直接对着大量数据从头学，但这样成本高、数据量要求大。蒸馏的思路是：让学生去学教师的“输出分布”，而不仅仅是原始数据标签。

更直白地说：教师模型看到一张猫的图片，它不仅告诉学生“这是猫”，还告诉学生“这有98%像猫、1.5%像狸猫、0.5%像老虎”。这个概率分布，包含了教师模型对世界的“软理解”，比一个冷冰冰的”猫“标签丰富得多。学生模型通过学习这种软标签，往往能用更小的体量达到更好的效果。

这个技术，2015年Hinton、Vinyals和Dean在谷歌联合发表论文正式提出，至今已经是AI领域的基础工具。没有哪家顶级AI公司没用过这个方法。

Meta的LLaMA系列用蒸馏做的。谷歌Gemini Nano用蒸馏压缩的。苹果为了让AI跑在iPhone上，背后大量使用蒸馏技术。OpenAI的GPT-4o mini，也是从更大模型蒸馏而来的。

这是AI工业界的基本操作，就像做菜要用锅碗瓢盆一样正常。

02. 那问题到底出在哪儿

好，现在问题来了。

蒸馏是中性工具，但用谁来当教师，这里面有文章。

如果你自己训了一个大模型，然后用它来蒸馏一个小模型，完全没问题，这是你的资产，爱怎么用怎么用。

如果你用开源模型（比如Meta的LLaMA）来做教师，也没问题，人家已经明确允许了。

但如果你大量调用OpenAI或Anthropic这类闭源商业模型的API，获取它们对海量问题的输出，然后用这些输出数据来训练自己的模型，这就进入了灰色地带。

这有点像一个学生花钱报了名师的课，把老师讲题的思路、解题步骤、常见题型和答题套路都认真记下来，回去反复练，最后自己也开了一门类似的课。严格说，老师卖给你的是听课资格，不是让你复制一套课程体系；但现实中，这个学生能力确实强，他通过学习、模仿、整理、再表达，形成了一门比之前名师还棒的课，本来就是培训行业里再常见不过的事。只要不直接搬课件、不冒用品牌，大家通常不会较真。真正让人坐不住的，不是你学了，而是你学得太快、做得太好，甚至比老师还好，开始有了大量生源了。

所以直到2025年初，这件事都只是“行业潜规则”，没人公开撕破脸。

直到DeepSeek R1出来了。

03. DeepSeek R1把捅破这层窗户纸的那一刀

2025年春节前后，DeepSeek发布了R1推理模型。

这件事在全球引起的反应可以用震撼来形容，不过分，匹敌GPT的能力本身，超高性价比，还居然是中国公司。

OpenAI为训练GPT-4花了据估计超过1亿美元，而DeepSeek R1的训练成本，根据官方数据，只有约600万美元。但R1在很多推理基准测试上的表现，与GPT-4o和Claude 3.5几乎持平，某些任务上甚至超过。

硅谷当时的反应，可以用心理崩塌来描述。英伟达股价单日暴跌近17%，市值蒸发近6000亿美元。华尔街的理解是：如果用这么少的算力就能达到顶级效果，那对英伟达昂贵GPU的需求就没那么大了。

OpenAI随后内部调查并公开表示：R1的训练数据，很可能包含大量从OpenAI API提取的输出。他们的依据包括：R1的某些回答风格、特定错误模式，与ChatGPT高度相似，而这些特征不太可能是巧合。

这个时候，OpenAI把这件事上升为知识产权侵犯，并向监管机构反映。

但实际上，如果你仔细读DeepSeek的技术报告，他们并没有隐瞒这件事。R1用了监督微调数据，其中包括从多个模型，包括他们自己的早期模型，提炼出来的“蒸馏数据”。这是公开的。

这就有意思了：DeepSeek作为一个诚实的公司，公开写在论文里说自己用了蒸馏技术；DeepSeek作为一个中国公司被美国公司，被指控窃取。

04. DeepSeek V4公开“自证其罪”

2026年4月24日，DeepSeek发布了V4预览版。

参数规模：1.6万亿（混合专家架构，实际激活参数少得多）。上下文窗口：100万Token。能力：在多项评测上被外界评价为接近GPT-4.5和Claude 3.7的水平。

但这次引爆争议的，不是模型有多强，而是那份近60页的技术报告。

报告里，DeepSeek团队详细描述了V4的训练方法，其中明确包含两个关键技术：

第一，多教师知识蒸馏（Multi-Teacher Distillation）使用多个教师模型的输出来训练V4，让它同时向多个方向学习，如R1时候一样。

第二，On-Policy Distillation（OPD）一种更进阶的蒸馏方法，让学生模型先生成自己的回答，再用教师模型的反馈来校正，类似老师给学生作业批注红字。

这两种技术，在AI学术界都是公开发表、公开讨论、公开使用的方法。DeepSeek公开写在论文里，完全符合学术规范。

这次不再是OpenAI。美国国会和白宫看到这份报告之后的反应是：他们自己承认了！！

白宫科技政策办公室在V4发布后两天内发出备忘录，美国国务院向全球使馆发出外交电报，措辞就是：中国公司通过工业规模的蒸馏攻击（industrial-scale distillation attacks）在窃取美国AI模型的能力。

DeepSeek赫然被点名为核心例证。

05. V4的第二个炸弹：它跑在华为芯片上

但如果你只读关于蒸馏的争议，你还没看到V4真正让华盛顿睡不着觉的地方。

V4的技术报告里还有另一个细节：这个模型专门针对华为Ascend 910系列AI芯片做了优化，部分训练在华为芯片上完成。

这才是真正的战略爆炸点。

美国过去几年出口管制的核心逻辑是：把英伟达的H系列高端GPU限制出口给中国，掐断中国在算力上的来源，让中国AI公司因为没有好的芯片而发展放缓。

这套逻辑有一个根本假设：没有英伟达的芯片，就做不出顶级的AI模型。

DeepSeek V4用实际结果打了这个假设的脸：他们在华为昇腾芯片上，训练出了一个准前沿级别的大模型。

这意味着什么？意味着美国花了几年时间精心设计的算力封锁策略，其效果远比预想的要短命。中国并没有因为没有英伟达的芯片就停步不前，反而逼出来了一条“国产芯片+自主模型”的完整自主技术路线。

所以这件事，对美国的冲击是双重的：1. 中国的AI能力在持续追近；2. 封锁芯片这条路，可能正在失效。

06. 美国的三层反击：报告、备忘录、外交电报

理解了这个背景，再看美国的一系列动作，就能看清楚它们是一套协调好的组合拳，而不是几个孤立事件。

第一层：国会提供总叙事和立法武器

4月中旬，众议院中国问题特别委员会发布了一份报告，标题就叫《买得到就买，买不到就偷：中方获取前沿AI能力的运动》（Buy What It Can, Steal What It Must）。

这个标题本身就是一种政治操作：通过一句朗朗上口的话，把中国的整个AI发展路径定性为合法采购和非法窃取的二元组合。报告详细分析了中国通过三条路径扩大AI能力：合法采购高端芯片、通过第三国和壳公司绕过管制、以及蒸馏攻击式的能力提取。

更重要的是，报告提出了一揽子具体立法建议，包括：

MATCH法案：堵上通过第三国向中国转运高端AI芯片的漏洞；
AI OVERWATCH法案：建立对中国AI能力进展的持续监控机制；
SCALE法案：扩大云算力访问限制的范围，不只管芯片本身，还要管通过云服务间接使用美国算力的行为；
Remote Access Security Act：针对远程API访问加强管控，让蒸馏攻击在法律上无处可做。

这套法案，是要把卡住中国AI从行政命令层面，变成写进法典的长期制度安排。

第二层：行政部门把叙事转为政策

白宫科技政策办公室（OSTP）发出备忘录，把工业规模蒸馏定义为对美国创新和国家安全的系统性威胁，要求美国AI企业提高安全意识，并指出政府正在研究相应的追责机制。

备忘录里有一个细节值得注意：它特别强调，被蒸馏的模型往往丢失了原有的安全机制。也就是说，即便DeepSeek真的从OpenAI的输出中学到了能力，它学到的是“能做什么”，但没有学到“不应该做什么”，那些针对仇恨言论、武器信息、操控行为的安全护栏。

这个论点聪明在哪儿？它把蒸馏争议从知识产权升级到了全球AI安全。后者是更容易获得国际共鸣的框架。毕竟，谁也不想说自己在反对知识产权保护，但维护AI安全的立场，任何国家政府都很难公开反对。

第三层：外交部门负责“全球动员”

国务院的外交电报，是把上述定性出口到全球的关键动作。

电报要求美国外交官向所在国政府传达：某些中国AI公司（点DeepSeek名）正在以系统性方式提取美国AI能力，各国在与这些公司合作或引进其产品时，应了解其中的安全风险。

翻译成直白的话就是：美国在努力让盟友接受同一套威胁定义，把这些中国公司标记为有问题的合作对象。

一旦这套标签被更多国家政府接受，后续的跨国限制、行业准入审查、多边制裁就有了政治基础，不只是美国在打压中国，而是国际社会共同应对AI安全风险。

这就美国的认知战，也是其后面更大的一个话术“科技安全宪章的”雏形：通过输出威胁定义，在制度还没建立之前，先把共识建立起来。

现在回到最初的问题：美国公司之间也在互相蒸馏，为什么单独针对中国。你是不是有答案了伙伴？

表面上，答案是中国公司用的是美国闭源模型的输出，违反了使用条款。

但这个理由站不住脚，原因有三：

第一，美国公司之间也在做同样的事，但没人被起诉。

微软、谷歌、Meta这几年互相参考对方模型的能力，小型初创公司靠着调用OpenAI API来微调自己的产品，这在硅谷是公开的秘密。OpenAI并没有因此向这些公司发律师函，更没有推动国会立法来封堵这些做法。

第二，蒸馏行为本身很难被法律清晰界定。

你很难证明一家公司的训练数据来自某个特定模型的输出，特别是当对方同时使用了大量其他数据源的时候。如果这个问题真的是知识产权问题，那也应该走法院诉讼途径，而不是直接跳到外交电报和出口管制。

第三，推进这件事的政治利益主体，比知识产权问题大得多。

国会中国问题特别委员会的存在本身，就不是为了解决一个技术法律争议。它的设立目的，是系统性地研究和应对中国挑战。DeepSeek V4提供了一个完美的时机和案例，让这个委员会可以把之前积累的立法建议推向实际操作阶段。

所以，更接近真相的答案是这样的：

对于美国公司之间的蒸馏，这是竞争；对于中国公司的蒸馏，这是威胁。这不是法律逻辑，而是地缘政治逻辑。

这件事的核心，从来都不只是谁偷了谁的代码。核心问题是：在AI能力已经开始成为国家战略资产的时代，谁来决定哪些国家、哪些公司有权获得前沿AI能力？通过什么方式获取是合法的？

美国现在给出的答案是：我们来决定。我们通过出口管制、访问限制和国际共识，来塑造合法访问AI能力的边界。

DeepSeek V4的出现，把这个答案的试验性，变成了紧迫性。

07. 最后说一件有点哲学

你知道ChatGPT本身是怎么训练出来的吗？

它用了人类在互联网上写的几乎所有文字，包括无数作家、记者、学者、工程师不经授权就被爬取的作品。那些人从来没同意过把自己的写作用来训练AI，他们的智识劳动，免费喂养了价值千亿美元的商业产品。

从这个角度看，OpenAI指控DeepSeek“未经授权提取模型能力”，有一种历史的讽刺意味。

当然，这不是说两件事在法律上等同。商业服务条款、知识产权保护和互联网上的公开内容，是三套不同的法律框架。

但这件事提醒我们：当我们争论谁在窃取谁的AI能力时，很值得先问一句：这个能力本身，当初是怎么来的？

本文仅作科普分享使用，欢迎小伙伴们点、收藏、关注，以备不时之需，当然更欢迎您把介绍给周边可能需要的更多伙伴们呀。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.