【作者】詹韫如(上海交通大学凯原法学院博士研究生)
【来源】北大法宝法学期刊库《知识产权》2025年第11期(文末附本期期刊目录)。因篇幅较长,已略去原文注释。
![]()
内容提要:随着知识蒸馏技术在人工智能领域的广泛应用,关于知识蒸馏合法性的探讨日益增多。知识蒸馏即通过训练更轻量的学生模型以充分接近参数规模较大的、高性能的教师模型。“知识”虽包含部分表达属性,但其并非具备表现形式的人类智力成果,系著作权法未覆盖的商业成果,故反不正当竞争法得以有限介入。对于知识蒸馏涉嫌侵犯具备类似绝对权利的商业秘密的情形,可通过修正的“权益—损害”范式予以规制。以不正当手段对已采取合理保密措施的模型进行蒸馏涉嫌侵犯商业秘密,但当行为人对“知识”的载体具备合法处分权,且蒸馏属于替代成本较低的反向工程时将阻却违法性。对于存在搭便车嫌疑的知识蒸馏行为,依行为中心主义分析思路可知,其虽属搭便车行为,但未扭曲优胜劣汰的市场竞争机制,无法证成行为违法性。基于此,辨明知识蒸馏的不正当竞争违法性认定边界,以促进实现技术创新进步与市场公平竞争的双赢。
关键词:知识蒸馏;商业秘密保护;反向工程;搭便车;反不正当竞争法
目次 一、问题的提出 二、知识蒸馏的反不正当竞争法规制前提 三、知识蒸馏侵犯商业秘密的违法性认定 四、知识蒸馏构成搭便车的违法性认定 结语
一
问题的提出
2025年1月20日,杭州深度求索人工智能基础技术研究有限公司(以下简称DeepSeek)发布开源模型DeepSeek-R1,凭借低训练成本、高性能的优势在全球范围内掀起了一场人工智能风暴,而这一颠覆性表现的核心驱动力是其对“知识蒸馏”(knowledge distillation)技术的应用。1月29日,OpenAI公司通过《金融时报》等媒体指控DeepSeek未经许可采取蒸馏技术从OpenAI的专有模型中提取“知识”进行模型训练,违反了OpenAI服务协议中关于“禁止复制其任何服务”和“利用其模型输出开发竞争模型”的规定,并涉嫌知识产权侵权。OpenAI目前虽然没有启动进一步的法律诉讼程序,但表示未来会采取更加积极主动的策略保护其技术。2025年8月,Mistral公司的Mistral-small-3.2模型被质疑直接蒸馏自DeepSeek-v3模型,且未披露模型蒸馏的事实、刻意歪曲基准测试结果。截至目前,Mistral公司还未对蒸馏一事作出回应。
上述事件引发了国内外学者对于知识蒸馏技术在著作权法和反不正当竞争法层面的合法性探讨。在著作权法层面,持肯定论的学者从著作权法保护客体的范畴、“三步检验法”和“转换性使用”等角度论证了蒸馏技术的法律正当性,持否定论的学者则认为基于数据核心集的蒸馏行为侵害了单个数据所有者的著作权。在反不正当竞争法层面,有学者认为知识蒸馏技术降低了模型的再训练成本,涉嫌“搭便车”(free-riding)行为,面临构成不正当竞争的风险。也有学者提出若知识蒸馏未侵犯知识产权、未导致消费者混淆且未实质性替代教师模型(teacher model),该行为则不应被反不正当竞争法规制。
学者对知识蒸馏技术合法性的探讨,促使对争议根源进行检视。首先,学者对知识蒸馏的技术逻辑存在认知模糊,导致部分风险推断结论出现偏差。例如,对于蒸馏的对象是模型参数还是“知识”、蒸馏是否必然利用教师模型、蒸馏是否需要访问原始数据等问题,均存在不同认识。其次,研究中存在将著作权法和反不正当竞争法割裂分析的倾向,导致对知识蒸馏合法性的探讨呈碎片化、孤立化特征。这些争议实则并非全然相互独立——知识产权专门法和反不正当竞争法在维护竞争秩序目标上的互动关系,影响对知识蒸馏合法性的认定。针对既有研究存在的问题,本研究将充分拆解知识蒸馏的底层技术逻辑,在此基础上审视技术的法律风险。从商品与销售方式二分思路出发,知识蒸馏既涉嫌侵犯商业秘密行为,也存在是否构成阻碍教师模型提供服务的“搭便车”行为的争议,可分别采取修正的“权益—损害”范式和行为中心主义分析框架,对知识蒸馏的违法性边界予以认定。
二
知识蒸馏的反不正当竞争法规制前提
规制的选择需要以对技术和法律关系的充分认识为基础。在对知识蒸馏的法律规制进行探讨前,须澄清知识蒸馏的技术逻辑和规制思路等基础问题,知识蒸馏技术的合法性争议均与对上述问题的认识相关。
(一)知识蒸馏的技术逻辑
知识蒸馏作为一种新型模型压缩与知识迁移技术,与权重剪枝、量化、低秩分解等传统压缩技术相比,具有显著降低计算负载且维持模型性能的优势。蒸馏的核心逻辑既包含对不同类型“知识”的处理和传递,也涉及多元的蒸馏方式。基于此,从技术本质、“知识”分类、蒸馏方式三个层次解析知识蒸馏的技术逻辑,有助于在充分理解知识蒸馏技术的基础上展开进一步的法律分析。
1. 知识蒸馏的本质
从卷积网络到深层宽层网络和大型预训练模型,高性能模型的发展面临着如何在有限计算资源和储存空间里解决庞大参数量和计算需求的问题,因此模型的复杂设计与轻量化模型部署之间的矛盾不断深化。2006年,为缓解该问题,克里斯蒂安·布奇卢阿(Cristian Buciluǎ)等提出了模型压缩技术,即利用复杂模型大规模标注伪数据(pseudo data),并在此数据集的基础上训练轻量级替代模型,使小模型的输出函数接近复杂模型的映射关系。2015年,杰弗里·辛顿(Geoffrey Hinton)等持续拓展模型压缩和迁移方法,正式提出“知识蒸馏”概念。其逻辑在于,开发者向教师模型输入数据样本后,该模型的隐藏层生成概率分布形成软标签(soft targets),并将该输入样本给学生模型(student model)生成软性预测值(soft prediction),将教师模型的软标签作为假定的真实值设置损失函数,通过调整温度参数、损失权重等超参数优化学生模型,直至其预测分布与软标签的差异收敛至预设阈值。概言之,知识蒸馏的本质即通过训练更小、更轻量的学生模型以充分接近参数规模较大的、高性能的教师模型。
2. “知识”的分类
通过知识蒸馏技术,学生模型学习的内容是“知识”而非模型参数,这意味着知识蒸馏并不会将教师模型的参数直接复制至学生模型中,而是利用教师模型在推理过程中产生的输出特征、中间特征或关系来引导学生模型学习。“知识”本质上是一种函数映射关系,主要包括三种类型。第一,基于输出特征的“知识”,即利用教师模型最后一层神经元的输出指导学生模型训练,经过softmax层激活的“知识”是概率分布输出,未经过softmax层激活的“知识”为Logits输出。其关注的是类别层面的预测概率分布,结构简单,便于学生模型学习,最经典的方法便是杰弗里·辛顿在2015年提出的软标签式蒸馏。第二,基于中间特征的“知识”,即利用神经网络中间层特征图中的“知识”指导学生模型训练。该类型更为丰富,关注到模型内部的表征能力,而不仅仅是最终预测结果,但可能存在维度和语义不匹配的问题。第三,基于关系的“知识”,其关注样本之间或者特征之间的关联关系,而不是单个输出或单个特征值。这些关系内容有助于学生模型在模仿教师模型输出的同时,理解其内部的推理逻辑,但同时伴随着实现复杂、计算量大的问题。简言之,学生模型旨在学习的并非教师模型的输出结论,而是其生成结论所依据的“推理过程”和“思维范式”。
3. 知识蒸馏的学习方式
知识蒸馏的学习方式通常可以分为离线蒸馏(offline distillation)、在线蒸馏(online distillation)、自蒸馏(self-distillation)、无数据蒸馏(data-free distillation)、多教师蒸馏(multi-teacher distillation)和助理蒸馏(assistant distillation)。离线蒸馏是在完成对教师模型预训练的基础上,从该模型中提取“知识”以指导学生模型的训练,近年来发展出标准蒸馏和跨任务跨模态蒸馏等方式。该训练流程较为简单,师生模型可分别进行离线训练。在线蒸馏能够同时训练师生模型,训练过程动态更新,从而提升模型适配性。自蒸馏通过模型内部不同层之间的互相蒸馏(layer-to-layer distillation),实现模型性能的自我提升,并降低计算和存储负担,但其蒸馏效果取决于模型本身的潜力。无数据蒸馏可以在不访问原始数据的情况下,通过生成数据或其他辅助数据进行蒸馏,常适用于数据隐私敏感场景。多教师蒸馏即学生模型可以从多个教师模型中学习“知识”,提升适配和泛化能力。助理蒸馏指的是在教师与学生模型之间引入一个或多个助理模型(assistant model),由该模型逐步将“知识”从教师模型传递至学生模型,类似于“多级压缩”。
由此可见,一方面,并非所有的知识蒸馏都涉及对教师模型的利用。例如,自蒸馏并不借助外部教师模型,而是通过模型自身不同层次之间的内部迁移实现知识传递。另一方面,并非所有的知识蒸馏均须依赖原始训练数据。无数据蒸馏通过生成或合成数据的方式,降低了对原始数据的依赖。关于知识蒸馏的违法性争议多现于离线蒸馏、在线蒸馏、多教师蒸馏和助理蒸馏的方式。
(二)“知识”是著作权法未覆盖的商业成果
在探讨知识蒸馏在著作权法上的合法性问题之前,应先判断“知识”是否落入著作权法的覆盖范畴和保护范围,进而考量其是否达到保护条件。根据我国《著作权法》第3条的规定,著作权法所称的作品是文学、艺术和科学领域内具有独创性并能以一定形式表现的智力成果。然而,“知识”中虽然包含部分表达的属性,但其并非具备表现形式的人类智力成果,“知识”是著作权法未覆盖的商业成果。
1. “知识”中思想和表达共存
著作权法的保护范围为表达而非思想,这是现代著作权法的核心原则。虽然学者将想法、涵义、抽象内容等明确划入思想的范畴,但思想和表达本身难以被抽象概括和区分。目前,著作权法理论和实践中常用“抽象—过滤—对比法”界分思想与表达,即承认思想和表达在作品的不同抽象层次中处于混合状态,进而根据抽象程度的不同,逐级排除各种涵义的思想。抽象过滤步骤需要回溯知识蒸馏的整体过程,思想与表达共同存在于“知识”中不同抽象程度的层次中。
首先,作为抽象过程之终点的数值输出(包括概率分布、特征表示等)可以被直接排除,这是与表达完全无涉的事物,属于思想的范畴。利用思想而非表达的技术性使用在司法实践中已有较为丰富的体现。1992年,法院在“世嘉诉雅可莱德案”(Sega v. Accolade)中首次提出非表达性使用(non-expressive use)。在该案中,被告雅可莱德公司通过反向工程手段将世嘉公司的程序代码复制到计算机内存里进行反编译,从而使其游戏能够兼容世嘉公司的主机。法院认为,雅可莱德实施反编译的目的并非照搬世嘉的表达性创作,而是为进行非表达性使用。非表达性使用未破坏作品的原始价值,也未以再现训练作品的独创性表达为目的,因此不具备侵权可能性。学生模型对教师模型的概率分布、特征表示的蒸馏仅利用了教师模型的思想而未利用其表达,同样是一种非表达性使用,其蒸馏过程不会再现或复制教师模型的原创性表达,而是传递模型的决策模式,以便在更轻量的模型中保留性能,因而这部分“知识”属于思想的范畴。
其次,激活函数(如softmax输出)将教师模型输出向量转换为概率分布,该生成过程依赖于教师模型的具体参数排列和输入数据,是一种具体的计算表达。换言之,给定教师模型参数与输入样本,softmax的输出结果具有确定性和可再现性,那么学生模型在学习后可能会输出与教师模型相似的表达结果。这部分“知识”属于足够具体的结构层级而应纳入表达的范围。
2. “知识”不是具备表现形式的人类智力成果
即便认可“知识”中包含有表达的属性,其也不属于著作权法意义上“作品”的范畴。首先,知识蒸馏中的“知识”不是人类智力成果。创作作品的自然人是作者,毋庸置疑系该作品的著作权人。但是,大模型输出内容是否是人类智力成果颇具争议。部分学者主张人工智能生成内容是人类智力活动的产物,其在外在表现形式上能够达到独创性要求,应给予著作权法层面的保护,以促进人工智能产业发展。但有更多学者认为人工智能生成内容并非由人类以人工智能为工具创作的作品,虽然其输出内容在很大程度上依赖于使用者的输入指令,但人工智能研发者和使用者都无法直接决定人工智能生成的具体内容,输出内容难以具备独创性,故其无法受到我国著作权法的保护。从比较法视野来看,美国版权局于2025年1月29日发布《版权与人工智能 第二部分:可版权性》报告,强调版权保护必须建立在人类创作的基础上,意即只有人类创作的作品才能获得版权法的保护,而纯粹由人工智能生成的内容无法受到法律保护。在我国“菲林案”中,法院认为自然人创作应是著作权法上作品成立的必要条件之一,即便人工智能生成作品在内容、形态等方面都无限接近于自然人创作的作品,亦不能构成著作权法意义上的作品。知识蒸馏通过教师模型的输出来训练学生模型,人类的智力活动体现于设计蒸馏程序、设定超参数等技术性操作中,而蒸馏所提取的“知识”并非由人类直接创作产生,而是模型生成的结果。因此,知识蒸馏中的“知识”并非人类的智力成果。
其次,“知识”不具备著作权法意义上的表现形式。著作权法意义上的表现形式通常为文字、图像、音乐等可被感知的形态,从这一点出发,如果人工智能生成内容是能够被人类客观理解的外在表达,即在表达方式、叙事框架、表述结构等形式上高度类似人类创作的文本、图像或音视频,则构成具备表现形式的智力成果。在“AI文生图第一案”中,北京互联网法院将人工智能生成图片认定为作品的前提条件之一即该图片是由线条、色彩构成的具有审美意义的视觉呈现。但是,知识蒸馏中的“知识”常表现为概率分布、软标签、特征图等,并非一般意义上可以被人类理解的表达方式,因此“知识”不具备著作权法意义上的表现形式。
(三)知识蒸馏的反不正当竞争法规制思路
知识蒸馏在著作权法上的规制困境,促使学者将规制视角转向反不正当竞争法。知识产权专门法与反不正当竞争法之间发展出了“冰山”与“海水”、兜底保护与有限的补充保护三种主流关系。“冰山”与“海水”的关系曾广为流传,即知识产权专门法被视为海面上的“冰山”,反不正当竞争法则被视为“冰山”下的“海水”以弥补专门法之“漏”。由“冰山”与“海水”关系延伸出了“兜底保护说”,其认为反不正当竞争法是知识产权专门法的兜底法,当出现知识产权单行法无法保护的客体时,由反不正当竞争法提供兜底保护。该说在司法实践中影响深远,然而其不适当地扩张了知识产权的保护范围。
为避免对知识产权保护的泛化,司法政策逐渐转向强调“有限补充保护说”,即反不正当竞争法对知识产权专门法仅发挥有限的补充作用,而非承担宽泛的兜底功能。目前,“有限补充保护说”在理论和实务界占据较为主流的地位,原因在于该说认可知识产权法维系权利保护和自由竞争功能的独立性,在不抵触知识产权专门立法的同时,避免过度侵占公有领域,使知识产权权利保护和激励增量创新之间实现尽可能的平衡。在“有限补充保护说”下,反不正当竞争法保护知识产权的边界为:对于落入知识产权专门法保护范围且符合保护条件的对象,反不正当竞争法不再予以考虑;对于落入专门法保护范围而不符合保护条件的,也不再以反不正当竞争法进行补充保护;而对于专门法未覆盖的商业成果,则可以借助反不正当竞争法进行保护,但需要侧重考察行为是否落入反不正当竞争法的规制范围且符合其规制逻辑。近年来,在科技发展催生的新型法益领域,常通过全新的利益衡量,以反不正当竞争法实施过渡性保护。
根据前述,由于知识蒸馏的“知识”是著作权法未覆盖的商业成果,这为反不正当竞争法的有限介入提供了契机。然而,目前对不正当竞争行为的认定缺乏能够弥合抽象与具体的共识性框架。我国反不正当竞争法采取“具体列举+一般条款”的立法结构,立法本意在于通过列举类型和弹性兜底的结合,在降低法条适用成本的同时也能应对复杂多变的市场环境,从而构建起对反不正当竞争行为的全面规制。但是,由于各具体条款的分析要件不通约、缺乏价值指引,一般条款的适用也未形成共性的分析框架,导致法官在司法实践中要么机械套用具体条款的构成要件、要么宽泛适用一般条款。以此为背景,学者致力于构建反不正当竞争法的一般性分析框架。
反不正当竞争法的分析路径从对“权益—损害”范式的广泛批判,到近年来涌现出行为中心主义范式、修正的构成要件范式、综合评估模式等多种分析框架,但并未达成共识性结论。商品与销售方式二分视角为反不正当竞争法的一般性分析提供了新的思路,司法实践中广泛适用的“法益说”能够较好地解释技术成果的商业秘密保护、未注册知名商标的反混淆保护等趋近绝对权保护的行为,故采取原则保护、公益例外不保护的态度;而对于特定的虚假宣传、商业贿赂等销售型行为,遵循原则允许、公益例外禁止的态度。
因此,从商品与销售方式二分视角审视知识蒸馏行为,可以发现其既涉嫌侵犯类似绝对权利的商业秘密,也深陷蒸馏是否阻碍教师模型提供服务的搭便车行为争议。前者是反不正当竞争法补充保护的趋近绝对权利的传统型知识产权法益,强调对商品或服务本身价值的保护。对于这类法益,可以采取修正式的“权益—损害”范式提供较高标准的保护。后者不必然造成教师模型的产品价值无法实现,须以行为中心主义思路对特定搭便车行为的违法性作进一步认定。
三
知识蒸馏侵犯商业秘密的违法性认定
在厘清知识蒸馏的反不正当竞争法规制前提和思路后,可进入对知识蒸馏违法性认定边界的讨论。目前对该问题的探讨聚焦于其是否构成侵犯商业秘密的不正当竞争行为。以不正当手段侵犯商业秘密属于反不正当竞争法规制的法定形态,对于符合行为要件的基本可以认定为不正当行为。延续传统“权益—损害”范式的可取之处在于其蕴含着诸多司法经验,但该范式往往忽视对违法阻却事由的考虑。因此,在知识蒸馏中,首先须分析“知识”作为商业秘密的边界,以及学生模型在蒸馏过程中是否以不正当手段获取或使用了教师模型中的商业秘密;其次,探讨是否存在形式上符合侵犯商业秘密行为构成但实质上未造成竞争扭曲的违法阻却机制,这是修正“权益—损害”范式和传统范式的主要差异所在。
(一)“知识”作为商业秘密的边界
知识蒸馏中,“知识”如果满足商业秘密的构成要件,即不为公众所知、具有商业价值、采取相应保密措施、属于技术信息或经营信息等商业信息,那么“知识”属于商业秘密。
1. “知识”的商业价值性
反不正当竞争法中的“商业价值”不仅包含具有明确市场交换价格的经济利益,还涵盖能带来竞争优势、效率提升或市场机会的潜在价值。在知识蒸馏中,“知识”毋庸置疑具备商业价值。在“B612特效模型案”中,法院比对了原被告模型在结构、卷积层数据、分辨率、激活函数等方面的差异,认为模型的结构和参数是经大量人力、物力、财力投入所形成的成果,应属于反不正当竞争法所保护的竞争利益。学生模型从教师模型蒸馏出的“知识”虽然不是直观的模型参数,而是人类不易理解的概率分布、向量和相似度矩阵等内容,但能够让学生模型“站在教师模型的肩膀上”,极大地节约模型研发成本。同时,更轻量化且高性能的学生模型可以在更多终端实现高效部署,拓展更多商业场景,为蒸馏后的模型带来竞争优势。
2. “知识”的秘密性
从教师模型蒸馏出的“知识”具备秘密性。秘密性所指的“信息不为公众所知悉”,强调信息不为所属领域的相关人员普遍知悉且难以以低成本手段获取。换言之,秘密性要求信息不能从公开渠道直接获取,并且所属领域的相关人员要付出较高成本才能取得。一方面,蒸馏的“知识”具有非公开性。模型分为开源模型(open-source model)和闭源模型(closed-source model)两类,开源模型即全部或部分公开模型权重、代码、训练方法等内容,常见协议如MIT、Apache 2.0、GPL等,其规定了用户使用、修改和再分发模型的条件。闭源模型不公开前述信息,通常以API接口或商业许可的方式提供服务,这意味着用户需要通过订阅或购买API调用次数来使用闭源模型。然而,不论是开源还是闭源模型,知识蒸馏的方法和逻辑以及学生模型蒸馏出的概率分布、特征图和关系结构,均为模型内部加工的结果,不会自然进入公共领域。另一方面,知识蒸馏的实现依赖复杂的程序设计、参数设定、高成本的算力资源与资金,即便是所属领域的相关人员,也难以通过低成本手段获取“知识”。因此,从教师模型蒸馏出的“知识”具备秘密性。
3. “知识”的保密性
商业秘密相关法律制度的规范目的在于为商业秘密提供专有保护的同时,保护信息的流动利益,鼓励以合理的替代渠道谨慎分享商业秘密的行为。合理的保密措施应与预期成本平衡,而非要求信息持有人采取超出合理限度的方式维持信息秘密性。因此,一般认为保密措施无需实施至“万无一失”的程度。尽管理论层面对该规范目的已达成基本共识,但实践中对合理保密措施的认定仍有显著分歧。法院通常从主客观两个维度对保密措施的合理性进行认定,要求信息持有人必须有将信息作为商业秘密进行保护的主观意图,且实施了客观的保密措施(如客观上可以被识别、有具体的秘密范围等)。然而,关于客观的保密措施应实施至何种程度,目前并无定论。《最高人民法院关于审理侵犯商业秘密民事案件适用法律若干问题的规定》(法释〔2020〕7号)指出该程度应“与商业秘密的商业价值”相符合,有法院认为保密措施应当达到“严格且全面”的程度或足以抵抗反向工程,也有法院对保密措施的程度采取较宽松的标准。判断教师模型是否采取了合理的保密措施应综合考虑保密成本和主客观目的,并从服务协议和保密技术两个层面进行认定。
其一,教师模型提供者应在服务协议中明确禁止用户实施反向工程等类似行为。目前,部分模型提供者已将“禁止反向工程”写入服务协议。例如,OpenAI公司在其服务协议中规定,用户不得试图或协助他人对服务(包括模型、算法或系统)进行反向工程、反向编译、不得使用ChatGPT的输出内容开发与ChatGPT存在竞争关系的模型等。Kimi模型同样禁止用户对服务进行反向工程。尽管有学者认为,通过服务协议设定保密措施是在模型开放使用与防止数据泄露之间取得平衡的合理选择,可视为已采取合理的保密措施,但本文认为,仅依赖服务协议并不足以达到合理的保密程度。一方面,服务协议只能体现信息持有人保护商业秘密的主观意图。假设模型提供者在服务协议中规定相关限制的同时,仍允许通过API大规模调用模型输出结果,则说明对“知识”缺乏有效的保密措施。另一方面,教师模型的服务协议大多未明确商业秘密的范围。在司法实践中,为避免保密制度被滥用,法院倾向于将宽泛描述商业秘密范围的竞业协议认定为未采取合理保密措施。因此,现有服务协议笼统禁止反向工程的条款易被视为对正常使用的过度限制,进而导致保密措施不符合“合理性”标准。
其二,在技术层面,通常认为高价值数据应当匹配高水平的保密技术,但不应以迫使信息持有人支付高昂的保密措施成本为代价。针对知识蒸馏的保密措施,不要求信息持有方彻底杜绝蒸馏的发生。在盖茨诉坂东案中,法院强调即便部分信息能够通过反向工程获取,也不否认其作为商业秘密的地位。当前,部分教师模型提供者会采取限制每个账户的调用频率、加密模型的权重文件、检测并阻止异常调用等手段,防止用户大规模收集模型输出用于蒸馏。例如,OpenAI公司对模型的RPM(每分钟请求数)和TPM(每分钟tokens数)均有所限制。因此,对于教师模型的合理保密措施的认定,应当同时考虑合同和技术两个层次,即通过服务协议明确禁止蒸馏且明确界定禁止范围,并在技术上采取防止过度调用API等保密措施。
综上,并非所有被蒸馏的“知识”均构成商业秘密。理论上,“知识”具备商业价值性和秘密性,而其是否符合保密性要件须从服务协议和保密技术两个层面进行综合认定。
(二)知识蒸馏构成侵犯商业秘密行为的边界
知识蒸馏被认定为构成侵犯商业秘密行为的主要理由在于其通常采取绕开API调用限制等不正当手段,或违反信息持有人关于保守商业秘密的要求,且蒸馏后的学生模型在性能上无限接近教师模型,从而对教师模型造成实质替代。在阻却违法性上,学生模型开发者将寻求合理的抗辩理由,该理由通常是现实中存在替代成本低的获取诉争商业秘密的路径。因为当存在低成本的替代获取手段时,意味着该商业秘密处于“容易获取的状态”,从而不具备秘密性或采取的保密措施不合理。常见抗辩包括替代信息源、反向工程等。
知识蒸馏本质上是一种反向工程,反向工程即公众通过观察和分析现有产品、技术和信息,反向推导出其背后的工作原理从而获取商业秘密的行为。从全球范围来看,反向工程常被认定为合法获取商业秘密的行为。欧盟《商业秘密保护指令》[Directive (EU) 2016/943]第3条第1项将“反向工程”视为正当获取和使用商业秘密的行为。美国法院也曾明确反向工程的合法性,企业不能通过协议条款禁止反向工程。我国《最高人民法院关于审理侵犯商业秘密民事案件适用法律若干问题的规定》第14条第1款规定,通过反向工程获得被诉侵权信息不属于侵犯商业秘密行为。从各国司法实践来看,唯有当行为人对承载商业秘密的载体有合法处分权,且反向工程替代成本较低时,反向工程才会被视作未扭曲竞争的行为,从而成为合理的抗辩理由。
1. 对“知识”载体的合法处分权
行为人实施反向工程的前提是其对承载商业秘密的载体有合法处分权(包括实施观察、测试、分析等行为),这是正当的反向工程与技术盗用的重要区别。但是,对“知识”载体的判断将会影响处分权合法性的认定。
一方面,有学者认为在该语境下,反向工程的载体是人工智能生成物。根据OpenAI、Google等公司的服务协议,训练者通常具备对生成物的处分权(如使用、转让、复制、再训练等),而教师模型在法律上对输出内容不享有任何权利。另一方面,如果认定“知识”的载体是模型,而非数据集,对于开源模型而言,由于模型已开放权重和训练代码,除违反开源协议外不存在处分权障碍,用户可以合法地蒸馏、微调模型。因此,对开源模型进行蒸馏时即便“知识”中含有商业秘密,也属于正当的反向工程。相反,学生模型对闭源教师模型的蒸馏往往因为缺乏合法处分权而导致反向工程缺乏正当性。通常认为,对于非公开数据,一切未经数据保有者同意的数据获取行为均构成不正当竞争。司法实践常将破坏协议抓取数据、攻击API接口等具有攻击性的技术手段认定为不正当的获取行为。闭源模型未公开代码、训练文档等信息,而以API接口的方式为用户提供服务。在知识蒸馏中,学生模型往往会绕过闭源教师模型的API调用限制,大规模爬取输出结果,这属于未经同意获取“知识”,系不正当获取行为。因此,对闭源模型进行反向工程的前提是应获得许可(包括通过谈判协商、签订合同等方式分享商业秘密);在具备对模型的合法处分权后,“禁止反向工程”条款将不再束缚训练者。
2. 知识蒸馏的替代成本
不同反向工程措施之间具有较大的成本差异。仅需简单分析即可拆解的、低成本且不费时费力的反向工程被视为合理的侵权抗辩。我国目前对反向工程的认定多现于观察、测试等人工方式,而尚未对通过人工智能技术反向提取数据的手段进行定性。但是,这并不意味着对该类手段的否认。反向工程的认定不取决于人工或自动化手段本身的区别,而在于实质性成本的高低。在大模型领域,教师模型通常包含数十亿甚至上千亿数据,数据数量和复杂性远超传统技术产品,人工手段难以实现对其决策逻辑的推导。如果坚持反向工程必须采取人工手段,则近乎否认反向工程在大模型领域中的可能性,这与数字经济时代技术创新和数据流通的实际需求相悖。知识蒸馏实质上是学生模型通过学习教师模型的输入输出关系,模仿其决策过程,而非直接复制其参数或训练数据,这与传统反向工程逻辑一致。
然而,理论和实务界对如何判断替代成本的实质性高低尚未形成统一的标准,仍存在较大争议。在部分案件中,知识蒸馏等自动化数据提取手段被认定为成本较低的替代性手段。例如在康普莱夫软件公司诉纽曼案中,被告指使第三方使用爬虫机器人在网站上获取数千万条报价信息,法院认为即便信息源自公开渠道,爬虫抓取行为获取数据的规模和效率远超人力。因此,不论是针对开源还是闭源的教师模型,知识蒸馏作为效率和能力远超人力的反向工程似乎并不属于成本较高的反向工程。尤其与重新训练一个教师模型相比,知识蒸馏能够以较低成本获得性能近似教师模型的轻量模型,这亦是知识蒸馏本身最大的优势。
与此相反,也有学者认为知识蒸馏属于高成本的反向工程手段。第一,算力成本高。知识蒸馏通常需要上百万次甚至更多次数地大规模调用教师模型,且对学生模型进行多轮训练,其算力消耗远高于传统的反汇编技术。第二,资金成本高。学生模型需要获取教师模型中基于输出特征、中间特征和关系的“知识”,如果教师模型设置了API调用限额,那么“知识”的获取将耗费巨额成本。第三,蒸馏的技术难度高。蒸馏的过程涉及选择匹配的教师模型、准备高质量数据集、训练学生模型、评估调优、部署等步骤,难度远高于传统的反向工程。例如,DeepSeek在技术报告中指出其研究团队整理了80万个样本,并对开源模型如Qwen和Llama进行不断微调以提升小模型的推理能力。故知识蒸馏属于替代成本较高的获取信息手段。对知识蒸馏成本的判断影响其能否构成合理抗辩的认定,而这需要结合个案具体情况、行业实践等因素综合考虑。只有当知识蒸馏被认定为成本较低的替代获取手段时,方能抗辩知识蒸馏构成侵犯商业秘密行为。
因此,在修正的“权益—损害”范式下,对已采取合理保密措施的教师模型进行蒸馏可能会构成侵犯商业秘密的不正当行为,但当学生模型开发者对“知识”载体具备合法处分权且蒸馏属于替代成本较低的反向工程时,知识蒸馏将不构成侵犯商业秘密的不正当行为。
四
知识蒸馏构成搭便车的违法性认定
知识蒸馏也深陷对教师模型搭便车而以轻量化、高性能优势进入市场的不正当性争议。从方法角度看,行为中心主义范式下的反不正当竞争法分析大致需要经过以下步骤:首先须判断知识蒸馏是否构成搭便车行为,若构成则进一步探讨该行为的违法性。行为中心主义范式强调损害并不是违法性的主要构成要件,而须从根本上判断知识蒸馏是否扭曲市场竞争机制。若能够证成违法性,则进一步从过错、损害和因果关系等角度判断行为人是否应当承担法律责任。
(一)知识蒸馏构成搭便车行为
在对知识蒸馏行为进行违法性判定前,须先澄清搭便车行为在我国反不正当竞争法中作为竞争行为正当性判断标准的定位,进而判断知识蒸馏是否构成反不正当竞争法意义上的搭便车行为。
1. 搭便车行为在我国反不正当竞争法中的定位
“搭便车”一词源于奥尔森于1965年出版的《集体行动的逻辑》一书。由于公共物品具有非排他性和非竞争性,社会成员无论是否对获取公共物品作出过贡献,都能选择不付费而享受公共物品带来的好处,且成员都不愿付出代价。可见,经济学上的“搭便车”源自市场机制的自然缺陷和公共物品的属性。搭便车行为在竞争法中有独特的内涵,其并非严格意义上的法律概念;学理上对其有多种解读,但均认为反不正当竞争法上搭便车的本质是行为人自身不投入或以较低成本投入资源开展经营活动,而依附其他经营者积累的技术、智力或商业成果进而取得竞争优势。在竞争法语境下,搭便车行为不是由公共物品属性所引发的,而是对特定市场主体商业成果的寄生和利用。受不同竞争观影响,搭便车包含中性和负面评价两种含义:持效率竞争观者认为搭便车是不含价值判断的中性概念,搭便车符合模仿自由、竞争自由原则,只在极端情况下构成不正当竞争;而负面意义上的搭便车则泛指一切不正当利用他人商业成果的行为,因为其受伦理性竞争观的影响,认为该行为违背了先来后到、不劳而获的传统商业伦理。
搭便车行为在反不正当竞争法中的定位涉及两类:其一,将搭便车行为认定为具体的不正当竞争行为类型;其二,将其视为竞争行为正当性的判断标准。前者的典型代表为瑞士《反不正当竞争法》第5条第(3)项和西班牙《反不正当竞争法》第11条第(2)项,二者均将未经努力而利用他人成果的行为规定为不正当竞争行为。将搭便车认定为竞争行为正当性判断标准的国家包括中国、德国、美国等。例如,在国际新闻社诉美联社案中,美国法院认为新闻事实虽不受版权保护,但新闻机构为收集新闻付出投入形成时效性成果,因此国际新闻社未经投入、直接利用美联社的劳动成果谋取竞争优势属于不正当的行为。我国未在《反不正当竞争法》中明确规定搭便车行为,但司法实践常在适用一般条款和反假冒条款时将其作为行为不正当性的说理标准,例如认定新产品实质替代原商业成果、商标或字号攀附商誉等,进而结合被告动机、客观行为、行业实践等因素,论证搭便车行为属于违背诚实信用原则的不正当竞争行为。
2. 知识蒸馏构成反不正当竞争法上的搭便车行为
知识蒸馏符合利用他人投入的搭便车行为表现。搭便车理论最初适用于保护商标、字号知名度免于被利用的情形,后延伸至避免他人经努力而生成的成果被寄生或利用。我国法院对“他人投入”的认定门槛较低且具有较强的弹性,只要他人对该成果有投入且成果本身具备一定市场价值,即可被认定为被搭便车的对象。司法实践中如文学作品中的人物名称等元素、电子游戏玩法、商户点评信息等均被认定为被搭便车的对象。在知识蒸馏中,模型训练者通过学习教师模型的输出蒸馏“知识”,不必投入同样规模的算力和研发成本即可获得性能接近教师模型的轻量化模型,属于利用教师模型的成果而非从零投入的搭便车行为。知识蒸馏涉嫌搭便车行为的正当性判断须适用反不正当竞争法的一般条款。
(二)知识蒸馏未扭曲市场竞争机制
行为中心主义范式与“权益—损害”范式的最大区别在于对“损害”的态度不同。传统上,不正当竞争行为被认为是特殊的“背俗侵权”,故将违背商业道德和诚实信用造成损害的行为界定为不正当。“权益—损害”范式延续了侵权法上“不法推定”的认定,只要损害竞争利益,即可证成行为的不正当性。行为中心主义则区分事实上的损害与法律意义上的损害,认为在具有强烈对抗性和复杂交织性的市场竞争中,存在事实上的损害难以避免,无法仅依据事实上的损害认定行为的不正当性,应被规制的是以不正当手段扭曲市场竞争导致损害的行为。因此,判断行为违法性应以是否扭曲市场竞争机制作为判断不正当的标准。
市场经济需要市场竞争。一方面,通过价格机制调节市场供需引导资源流动,实现要素从低效企业向高效企业转移,从而优化资源配置效率;另一方面,竞争压力驱动企业创新并改进管理,提升企业的生产效率。我国反不正当竞争法的目标在于保护竞争机制不被扭曲,如果某行为阻碍效率信号传递或干扰资源要素合理流动,则意味着行为扭曲了优胜劣汰的市场机制,进而构成不正当竞争行为。非效能竞争理论中的“阻碍竞争对手标准”,是判断某行为是否扭曲市场竞争机制的重要标准。在竞争者之间,这主要表现为通过行为干扰、排挤或操纵竞争对手等方式,阻碍竞争对手在公平条件下依据效能存续或退出。易言之,如果竞争者的行为并非依据效能,而是通过设置障碍、排挤或恶意干扰对手参与竞争,则构成对市场优胜劣汰机制的扭曲。在德国法实务中,其通常需要满足存在竞争关系、属于商业行为、对象针对性、阻碍程度达到实质妨碍、手段相称性以及行为和阻碍结果之间具备因果关系等条件。如果行为介于效能和非效能之间,则需借助“动态竞争分析”来判断行为的违法性。
对搭便车行为的多种评价态度决定了其在违法性判定上无法一概而论,持模仿自由立场者倾向于将搭便车认定为效能竞争或具备介于效能竞争与非效能竞争之间的性质,而持负面评价者则将其归为非效能竞争的范畴。由实践观之,知识蒸馏行为属于未扭曲市场竞争机制的效能竞争。
首先,知识蒸馏不满足“阻碍竞争对手标准”。一方面,知识蒸馏本质上是一种模仿学习行为,通过训练更轻量的学生模型充分接近高性能的教师模型,蒸馏过程中并不会直接阻碍或干扰教师模型独立运行。蒸馏得到的学生模型如果能以更低算力、更高性能满足市场需求,即便其有损于教师模型的在先利益,但因其在“效能”维度上具备竞争优势,符合优胜劣汰逻辑,故不构成不正当竞争行为。事实上,OpenAI作为闭源模型代表者也并未完全排斥知识蒸馏技术;相反,其认为蒸馏是个多步骤、容易出错的过程,并主动为用户提供使用GPT-4o等教师模型合成的训练数据帮助学生模型创建数据集的方法,为其他训练者进行知识蒸馏创设支持性环境。另一方面,知识蒸馏在推动市场竞争的同时有效降低模型训练成本,而由此节约的成本可以用于投入模型压缩技术的迭代优化。长期观之,增量的利益最终会向消费者一端转移。基于此,知识蒸馏本身并不会扭曲优胜劣汰的市场机制。
其次,知识蒸馏凭借相对低成本、轻量化和高性能的优势,已逐渐成为人工智能领域常见的模型压缩和知识迁移技术,其正当性也得到行业惯例的支持,产生创新激励效果,而非单纯的学术想象。目前,知识蒸馏已广泛应用于模型压缩与轻量化、计算机视觉(主要为视觉检测和视觉分类)、自然语言处理(natural language process, 简称NLP)、推荐系统(recommender system, 简称RS)等领域。例如,微软旗下的Phi系列模型蒸馏自GPT-4教师模型,以更小的参数规模获取极强的数学推理能力。阿里云研发的通义千问-7B(Qwen-7B)以DeepSeek-R1为教师模型,专注于中文场景的优化。再如,BERT模型作为自然语言处理领域的热门模型,其具备强大的编码表示能力但参数量巨大,近年来蒸馏自BERT模型生成的Distilled BiLSTM、BERT-PKD等模型,在有效减少模型尺寸的同时基本保留了教师模型的语言理解能力,并显著提升运行速度。因此,知识蒸馏不仅有助于平衡模型性能表现与资源消耗之间的矛盾,还能推动人工智能技术的普及应用和生态构建,具备显著的适用性与延展潜力。
最后,知识蒸馏符合公平非歧视原则,契合消除数字鸿沟的全球时代命题。一方面,知识蒸馏帮助促进资源公平。教师模型通常因规模大导致运行成本高,仅少数具备先进算力资源的头部企业和技术先发国家能直接部署。知识蒸馏通过压缩模型降低了计算资源和存储需求,使更多主体能够以较低成本使用高性能的模型,为算力资源短缺地区输送了普惠性的技术红利。另一方面,知识蒸馏能够提升资源运用效率。与从零开始的重复性模型训练相比,知识蒸馏高效迁移教师模型的“知识”,减少消耗重复算力,促进实现公平利用有限资源的可持续发展目标。
在激烈的市场竞争中,竞争损害极为普遍,而市场具备强大的自我修复能力,法律为化解市场失灵的干预应当保持谦抑。从行为中心主义范式出发,作为搭便车行为的知识蒸馏技术未扭曲市场竞争机制,行为违法性难以证成。唯有从商品视角考量的,对已采取合理保密措施的教师模型进行蒸馏的行为,会涉及侵犯商业秘密,进而应予以规制。
结语
中国人工智能法治以“发展”和“治理”为核心支点,旨在为我国在全球科技竞争格局中赢得战略主动。知识蒸馏技术折射出人工智能时代创新激励与竞争秩序维护之间的张力,其作为人工智能领域中普遍采用的模型压缩与知识迁移技术,是影响全球数字竞争格局的关键节点,如何妥善认定并处理其违法性问题关系到行业发展的重大利益。因此,在知识蒸馏违法性认定上应秉持包容审慎的态度,辨明其不正当竞争违法性的认定边界。一方面,在涉嫌侵犯商业秘密行为的认定上,须着重辨明“知识”作为商业秘密的边界,以及合理的反向工程这一违法阻却因素;另一方面,在对教师模型搭便车的不正当性争议上,应将行为是否扭曲优胜劣汰的市场竞争机制作为判断违法性的标准。据此,在厘清知识蒸馏的不正当竞争违法性边界的基础上推动实现创新激励、技术保护和普惠应用的多元价值目标。
-向上滑动,查看完整目录-
《知识产权》2025年第11期目录
【专题评述】
1.试论生成式人工智能服务提供者的合理注意义务
吴汉东、樊赛尔
2.人工智能算法专利保护的制度机理与实现进路
宁立志、杨莹莹
3.纯指令类人工智能生成内容的竞争法保护
胡开忠、江璐迪
4.转介视域下生成式人工智能服务提供者版权注意义务的教义学展开
吕炳斌、李隽姝
【实践探讨】
5.反不正当竞争法下知识蒸馏违法性的认定
詹韫如
6.从备案回归公开:集成电路布图设计权登记取得制逻辑反思
潘柏华
《知识产权》是由国家知识产权局主管,中国知识产权研究会主办的学术期刊,是中国中文法律类核心期刊、中文社会科学引文索引(CSSCI)扩展版来源期刊和AMI综合评价(A刊)扩展期刊。
点击进入下方小程序
获取专属解决方案~
责任编辑 | 郭晴晴
审核人员 | 张文硕 韩爽
本文声明 | 本文章仅限学习交流使用,如遇侵权,我们会及时删除。本文章不代表北大法律信息网(北大法宝)和北京北大英华科技有限公司的法律意见或对相关法规/案件/事件等的解读。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.