网易首页 > 网易号 > 正文 申请入驻

蒸馏这事,美国人自己天天干,为啥到了DeepSeek就成“工业化窃取了”?

0
分享至

No.0287

Science Partner

Bring you to the side of science


导 读

这两天,美国白宫发了一份备忘录、国务院向全球使馆发了外交电报、众议院专门开了听证会,一套完整的行政+立法+外交组合拳,矛头指向中国AI公司,尤其是DeepSeek,说他们在“工业规模地窃取美国AI技术”。

美伊以战争才消停几天呀...而且,罪名和内容可都太奇怪了。

“工业规模窃取”,这词听着很严重,就好像梁文峰带着DeepSeek大半夜翻墙入室偷走了OpenAI的硬盘。

但仔细看指控内容,核心指控是:DeepSeek用了一种叫“蒸馏”的技术。

蒸馏?

这不就是AI圈里每个人都在用的标准技术方法吗?Meta用过,谷歌用过,微软用过,就连美国开山鼻祖公司OpenAI自己也用过。

那怎么到DeepSeek这儿,就变成“窃取”了?

这就是科学伙伴今天想认真聊的事。这件事不是一个简单的对错之争,背后是一场关于谁来定义AI时代的规则的深层博弈。

走,跟伙伴君来!


今日主笔 | 晶恒

蒸馏这事,美国人自己天天干,为啥到了DeepSeek就成“工业化窃取了”?

01. 先说清楚蒸馏是什么

“蒸馏”这个词起源于化学,把混合物加热,让某种成分挥发再凝结,最终得到纯净物。

AI里的“知识蒸馏”(Knowledge Distillation),道理类似:用一个大模型来“教”一个小模型。

具体怎么教?

可以把大模型想象成一位知识渊博但“很重”的老师:能力强,但运行成本高,需要云端大型算力支持。模型蒸馏要做的事,就是让一个更小的“学生模型”去学习这位老师的解题方式。学生模型不一定拥有老师全部的知识和能力,但它可以学到很多关键模式,从而变得更轻、更快、更便宜,甚至有机会在本地电脑上运行。

传统方法是让学生模型直接对着大量数据从头学,但这样成本高、数据量要求大。蒸馏的思路是:让学生去学教师的“输出分布”,而不仅仅是原始数据标签。

更直白地说:教师模型看到一张猫的图片,它不仅告诉学生“这是猫”,还告诉学生“这有98%像猫、1.5%像狸猫、0.5%像老虎”。这个概率分布,包含了教师模型对世界的“软理解”,比一个冷冰冰的”猫“标签丰富得多。学生模型通过学习这种软标签,往往能用更小的体量达到更好的效果。

这个技术,2015年Hinton、Vinyals和Dean在谷歌联合发表论文正式提出,至今已经是AI领域的基础工具。没有哪家顶级AI公司没用过这个方法。

Meta的LLaMA系列用蒸馏做的。谷歌Gemini Nano用蒸馏压缩的。苹果为了让AI跑在iPhone上,背后大量使用蒸馏技术。OpenAI的GPT-4o mini,也是从更大模型蒸馏而来的。

这是AI工业界的基本操作,就像做菜要用锅碗瓢盆一样正常。

02. 那问题到底出在哪儿

好,现在问题来了。

蒸馏是中性工具,但用谁来当教师,这里面有文章。

如果你自己训了一个大模型,然后用它来蒸馏一个小模型,完全没问题,这是你的资产,爱怎么用怎么用。

如果你用开源模型(比如Meta的LLaMA)来做教师,也没问题,人家已经明确允许了。

但如果你大量调用OpenAI或Anthropic这类闭源商业模型的API,获取它们对海量问题的输出,然后用这些输出数据来训练自己的模型,这就进入了灰色地带。

这有点像一个学生花钱报了名师的课,把老师讲题的思路、解题步骤、常见题型和答题套路都认真记下来,回去反复练,最后自己也开了一门类似的课。严格说,老师卖给你的是听课资格,不是让你复制一套课程体系;但现实中,这个学生能力确实强,他通过学习、模仿、整理、再表达,形成了一门比之前名师还棒的课,本来就是培训行业里再常见不过的事。只要不直接搬课件、不冒用品牌,大家通常不会较真。真正让人坐不住的,不是你学了,而是你学得太快、做得太好,甚至比老师还好,开始有了大量生源了。

所以直到2025年初,这件事都只是“行业潜规则”,没人公开撕破脸。

直到DeepSeek R1出来了。

03. DeepSeek R1把捅破这层窗户纸的那一刀

2025年春节前后,DeepSeek发布了R1推理模型。

这件事在全球引起的反应可以用震撼来形容,不过分,匹敌GPT的能力本身,超高性价比,还居然是中国公司。

OpenAI为训练GPT-4花了据估计超过1亿美元,而DeepSeek R1的训练成本,根据官方数据,只有约600万美元。但R1在很多推理基准测试上的表现,与GPT-4o和Claude 3.5几乎持平,某些任务上甚至超过。

硅谷当时的反应,可以用心理崩塌来描述。英伟达股价单日暴跌近17%,市值蒸发近6000亿美元。华尔街的理解是:如果用这么少的算力就能达到顶级效果,那对英伟达昂贵GPU的需求就没那么大了。

OpenAI随后内部调查并公开表示:R1的训练数据,很可能包含大量从OpenAI API提取的输出。他们的依据包括:R1的某些回答风格、特定错误模式,与ChatGPT高度相似,而这些特征不太可能是巧合。

这个时候,OpenAI把这件事上升为知识产权侵犯,并向监管机构反映。

但实际上,如果你仔细读DeepSeek的技术报告,他们并没有隐瞒这件事。R1用了监督微调数据,其中包括从多个模型,包括他们自己的早期模型,提炼出来的“蒸馏数据”。这是公开的。

这就有意思了:DeepSeek作为一个诚实的公司,公开写在论文里说自己用了蒸馏技术;DeepSeek作为一个中国公司被美国公司,被指控窃取。

04. DeepSeek V4公开“自证其罪”

2026年4月24日,DeepSeek发布了V4预览版。

参数规模:1.6万亿(混合专家架构,实际激活参数少得多)。上下文窗口:100万Token。能力:在多项评测上被外界评价为接近GPT-4.5和Claude 3.7的水平。

但这次引爆争议的,不是模型有多强,而是那份近60页的技术报告

报告里,DeepSeek团队详细描述了V4的训练方法,其中明确包含两个关键技术:

第一,多教师知识蒸馏(Multi-Teacher Distillation)使用多个教师模型的输出来训练V4,让它同时向多个方向学习,如R1时候一样。

第二,On-Policy Distillation(OPD)一种更进阶的蒸馏方法,让学生模型先生成自己的回答,再用教师模型的反馈来校正,类似老师给学生作业批注红字。

这两种技术,在AI学术界都是公开发表、公开讨论、公开使用的方法。DeepSeek公开写在论文里,完全符合学术规范。

这次不再是OpenAI。美国国会和白宫看到这份报告之后的反应是:他们自己承认了!!

白宫科技政策办公室在V4发布后两天内发出备忘录,美国国务院向全球使馆发出外交电报,措辞就是:中国公司通过工业规模的蒸馏攻击(industrial-scale distillation attacks)在窃取美国AI模型的能力。

DeepSeek赫然被点名为核心例证。

05. V4的第二个炸弹:它跑在华为芯片上

但如果你只读关于蒸馏的争议,你还没看到V4真正让华盛顿睡不着觉的地方。

V4的技术报告里还有另一个细节:这个模型专门针对华为Ascend 910系列AI芯片做了优化,部分训练在华为芯片上完成。

这才是真正的战略爆炸点。

美国过去几年出口管制的核心逻辑是:把英伟达的H系列高端GPU限制出口给中国,掐断中国在算力上的来源,让中国AI公司因为没有好的芯片而发展放缓。

这套逻辑有一个根本假设:没有英伟达的芯片,就做不出顶级的AI模型。

DeepSeek V4用实际结果打了这个假设的脸:他们在华为昇腾芯片上,训练出了一个准前沿级别的大模型。

这意味着什么?意味着美国花了几年时间精心设计的算力封锁策略,其效果远比预想的要短命。中国并没有因为没有英伟达的芯片就停步不前,反而逼出来了一条“国产芯片+自主模型”的完整自主技术路线。

所以这件事,对美国的冲击是双重的:1. 中国的AI能力在持续追近;2. 封锁芯片这条路,可能正在失效。

06. 美国的三层反击:报告、备忘录、外交电报

理解了这个背景,再看美国的一系列动作,就能看清楚它们是一套协调好的组合拳,而不是几个孤立事件。

第一层:国会提供总叙事和立法武器

4月中旬,众议院中国问题特别委员会发布了一份报告,标题就叫《买得到就买,买不到就偷:中方获取前沿AI能力的运动》(Buy What It Can, Steal What It Must)。

这个标题本身就是一种政治操作:通过一句朗朗上口的话,把中国的整个AI发展路径定性为合法采购和非法窃取的二元组合。报告详细分析了中国通过三条路径扩大AI能力:合法采购高端芯片、通过第三国和壳公司绕过管制、以及蒸馏攻击式的能力提取。

更重要的是,报告提出了一揽子具体立法建议,包括:

  • MATCH法案:堵上通过第三国向中国转运高端AI芯片的漏洞;

  • AI OVERWATCH法案:建立对中国AI能力进展的持续监控机制;

  • SCALE法案:扩大云算力访问限制的范围,不只管芯片本身,还要管通过云服务间接使用美国算力的行为;

  • Remote Access Security Act:针对远程API访问加强管控,让蒸馏攻击在法律上无处可做。

这套法案,是要把卡住中国AI从行政命令层面,变成写进法典的长期制度安排。

第二层:行政部门把叙事转为政策

白宫科技政策办公室(OSTP)发出备忘录,把工业规模蒸馏定义为对美国创新和国家安全的系统性威胁,要求美国AI企业提高安全意识,并指出政府正在研究相应的追责机制。

备忘录里有一个细节值得注意:它特别强调,被蒸馏的模型往往丢失了原有的安全机制。也就是说,即便DeepSeek真的从OpenAI的输出中学到了能力,它学到的是“能做什么”,但没有学到“不应该做什么”,那些针对仇恨言论、武器信息、操控行为的安全护栏。

这个论点聪明在哪儿?它把蒸馏争议从知识产权升级到了全球AI安全。后者是更容易获得国际共鸣的框架。毕竟,谁也不想说自己在反对知识产权保护,但维护AI安全的立场,任何国家政府都很难公开反对。

第三层:外交部门负责“全球动员”

国务院的外交电报,是把上述定性出口到全球的关键动作。

电报要求美国外交官向所在国政府传达:某些中国AI公司(点DeepSeek名)正在以系统性方式提取美国AI能力,各国在与这些公司合作或引进其产品时,应了解其中的安全风险。

翻译成直白的话就是:美国在努力让盟友接受同一套威胁定义,把这些中国公司标记为有问题的合作对象

一旦这套标签被更多国家政府接受,后续的跨国限制、行业准入审查、多边制裁就有了政治基础,不只是美国在打压中国,而是国际社会共同应对AI安全风险。

这就美国的认知战,也是其后面更大的一个话术“科技安全宪章的”雏形:通过输出威胁定义,在制度还没建立之前,先把共识建立起来。

现在回到最初的问题:美国公司之间也在互相蒸馏,为什么单独针对中国。你是不是有答案了伙伴?

表面上,答案是中国公司用的是美国闭源模型的输出,违反了使用条款。

但这个理由站不住脚,原因有三:

第一,美国公司之间也在做同样的事,但没人被起诉。

微软、谷歌、Meta这几年互相参考对方模型的能力,小型初创公司靠着调用OpenAI API来微调自己的产品,这在硅谷是公开的秘密。OpenAI并没有因此向这些公司发律师函,更没有推动国会立法来封堵这些做法。

第二,蒸馏行为本身很难被法律清晰界定。

你很难证明一家公司的训练数据来自某个特定模型的输出,特别是当对方同时使用了大量其他数据源的时候。如果这个问题真的是知识产权问题,那也应该走法院诉讼途径,而不是直接跳到外交电报和出口管制。

第三,推进这件事的政治利益主体,比知识产权问题大得多。

国会中国问题特别委员会的存在本身,就不是为了解决一个技术法律争议。它的设立目的,是系统性地研究和应对中国挑战。DeepSeek V4提供了一个完美的时机和案例,让这个委员会可以把之前积累的立法建议推向实际操作阶段。

所以,更接近真相的答案是这样的:

对于美国公司之间的蒸馏,这是竞争;对于中国公司的蒸馏,这是威胁。这不是法律逻辑,而是地缘政治逻辑。

这件事的核心,从来都不只是谁偷了谁的代码。核心问题是:在AI能力已经开始成为国家战略资产的时代,谁来决定哪些国家、哪些公司有权获得前沿AI能力?通过什么方式获取是合法的?

美国现在给出的答案是:我们来决定。我们通过出口管制、访问限制和国际共识,来塑造合法访问AI能力的边界。

DeepSeek V4的出现,把这个答案的试验性,变成了紧迫性。

07. 最后说一件有点哲学

你知道ChatGPT本身是怎么训练出来的吗?

它用了人类在互联网上写的几乎所有文字,包括无数作家、记者、学者、工程师不经授权就被爬取的作品。那些人从来没同意过把自己的写作用来训练AI,他们的智识劳动,免费喂养了价值千亿美元的商业产品。

从这个角度看,OpenAI指控DeepSeek“未经授权提取模型能力”,有一种历史的讽刺意味。

当然,这不是说两件事在法律上等同。商业服务条款、知识产权保护和互联网上的公开内容,是三套不同的法律框架。

但这件事提醒我们:当我们争论谁在窃取谁的AI能力时,很值得先问一句:这个能力本身,当初是怎么来的?

本文仅作科普分享使用,欢迎小伙伴们点、收藏、关注,以备不时之需,当然更欢迎您把 介绍给周边可能需要的更多伙伴们呀。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杭州发布户口新政,5月1日起实施

杭州发布户口新政,5月1日起实施

都市快报橙柿互动
2026-04-29 15:45:26
“骨盆前倾成这样,还不去医院?”家长晒一年级女儿体态,被群嘲

“骨盆前倾成这样,还不去医院?”家长晒一年级女儿体态,被群嘲

妍妍教育日记
2026-04-24 11:15:25
当你见过的婚姻越多,就会发现:一个家庭,如果爸爸挣不了大钱,只要妈妈不和爸爸闹,爸爸不偷不赌不懒,对家庭和孩子负责,日子就不会差

当你见过的婚姻越多,就会发现:一个家庭,如果爸爸挣不了大钱,只要妈妈不和爸爸闹,爸爸不偷不赌不懒,对家庭和孩子负责,日子就不会差

大爱三湘
2026-04-24 20:49:17
5月新规正式落地!转账严查全面开启,普通人日常转账一定要留心

5月新规正式落地!转账严查全面开启,普通人日常转账一定要留心

老特有话说
2026-04-29 15:03:03
绝了!霍福德娶环球小姐冠军!生6个孩子!网友:这才是人生赢家

绝了!霍福德娶环球小姐冠军!生6个孩子!网友:这才是人生赢家

罗氏八卦
2026-04-29 18:10:03
俄高层摊牌了,提议恢复苏联旧制,向全国交底:必须重返战时轨道

俄高层摊牌了,提议恢复苏联旧制,向全国交底:必须重返战时轨道

潮鹿逐梦
2026-04-29 01:17:49
莫氏鸡煲佛山第一家分店试营业,不少顾客冒雨捧场,负责人称叫号小哥忙到崩溃

莫氏鸡煲佛山第一家分店试营业,不少顾客冒雨捧场,负责人称叫号小哥忙到崩溃

极目新闻
2026-04-29 22:21:23
缅北电诈分子找到新据点:带水上乐园、人造沙滩的高端楼盘

缅北电诈分子找到新据点:带水上乐园、人造沙滩的高端楼盘

红星新闻
2026-04-29 18:19:15
5月1日起严查!饭局、私下转账全被盯上

5月1日起严查!饭局、私下转账全被盯上

观星赏月
2026-04-29 19:35:29
巴黎5-4拜仁!金球先生2射1传 9000万飞翼双响 单场9球创欧冠纪录

巴黎5-4拜仁!金球先生2射1传 9000万飞翼双响 单场9球创欧冠纪录

我爱英超
2026-04-29 04:59:25
一个67岁歌手凭什么让巡演日历排到2026年底?

一个67岁歌手凭什么让巡演日历排到2026年底?

影视情报室
2026-04-28 02:43:44
杨洋王楚然分手的真相!

杨洋王楚然分手的真相!

八卦疯叔
2026-04-29 11:27:15
农业农村部两年两次“换帅”,官网“部领导”生变

农业农村部两年两次“换帅”,官网“部领导”生变

深度财线
2026-04-29 15:03:42
特朗普:美国准备长期封锁伊朗

特朗普:美国准备长期封锁伊朗

新华社
2026-04-29 09:13:29
警惕!境外势力花钱养"躺平网红",给中国青年洗脑,全网炸了

警惕!境外势力花钱养"躺平网红",给中国青年洗脑,全网炸了

派大星纪录片
2026-04-29 13:49:32
从奥运冠军到接受调查!张军,你怎么走到的这一步?

从奥运冠军到接受调查!张军,你怎么走到的这一步?

曹老师评球
2026-04-29 17:31:45
痛心!家长驾三轮车接两名孩子放学归来时掉水中 四川屏山县:3人全部找到,均无生命体征

痛心!家长驾三轮车接两名孩子放学归来时掉水中 四川屏山县:3人全部找到,均无生命体征

大风新闻
2026-04-29 14:20:10
32核处理器跑巫师3仅30帧:俄中芯片合作的尴尬现实

32核处理器跑巫师3仅30帧:俄中芯片合作的尴尬现实

碳基打工人
2026-04-28 02:44:30
不到3天,俞敏洪又迎两大噩耗,头部主播集体辞职只是“开胃菜”

不到3天,俞敏洪又迎两大噩耗,头部主播集体辞职只是“开胃菜”

离离言几许
2026-04-28 21:54:25
男子将24岁女孩撞成高位截瘫,得知要赔200万,灵机一动将名下2套房过户给女儿,女孩去要钱,男子:要钱没有,要命一条!

男子将24岁女孩撞成高位截瘫,得知要赔200万,灵机一动将名下2套房过户给女儿,女孩去要钱,男子:要钱没有,要命一条!

大爱三湘
2026-04-28 19:39:24
2026-04-30 00:04:49
科学伙伴 incentive-icons
科学伙伴
把科学用通俗易懂的方式带到您身边
222文章数 46关注度
往期回顾 全部

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

头条要闻

补壹刀:解放军两支舰队同时行动 信息量非常大

头条要闻

补壹刀:解放军两支舰队同时行动 信息量非常大

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

苏州,率先进入牛市

汽车要闻

技术天花板再摸高 全能型的奕境X9首秀

态度原创

亲子
家居
教育
健康
公开课

亲子要闻

觉得孩子小就会忘记伤害,这个误区宝妈不要再犯!

家居要闻

寂然无界 简洁风格

教育要闻

明确!中科院东莞材料研究所首年依托中科大招收博士研究生

干细胞治烧烫伤能用了么?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版