Anthropic称月之暗面、Minimax和 DeepSeek“工业级蒸馏”其AI模型|编程|deepseek|anthropic

Anthropic称月之暗面、Minimax和 DeepSeek“工业级蒸馏”其AI模型

2026-02-24 08:48:24　来源: AI先锋官

北京举报

分享至

2月23日，Anthropic发布了一份声明，称三家AI 公司——DeepSeek、月之暗面和MiniMax，对其发起了“工业级的蒸馏”，通过大规模调用Claude模型的方式，为自家模型训练收集数据。

声明称，这些行动总计产生了超过1600万次对话请求，来自约2.4万个被认定为欺诈的账户，违反了平台服务条款以及区域访问限制。

Anthropic认为，这些请求并非正常使用，而是围绕特定能力进行高密度、结构化的数据采集，其目标是通过“模型蒸馏”的方式，快速复制前沿模型的关键能力。

所谓“蒸馏”，是指用更强模型的输出结果来训练较弱模型。

这在行业内部本是一种常见且合法的方法，许多公司都会用它来压缩模型规模、降低成本。

Anthropic 披露，这些行动具有明显的工业化特征：请求集中在少数关键能力上，如复杂推理、工具调用、代理执行和编程；提示结构高度重复；不同账户之间流量同步，甚至共享支付方式与访问路径。其模式更像数据生产流水线，而非真实用户行为。

其中，月之暗面的请求规模超过340万次，重点围绕代理推理、编程与计算机使用能力。

MiniMax规模最大，超过1300万次，主要针对工具编排与代理编码。

DeepSeek规模相对较小，但其请求中包含大量用于强化学习评分的数据生成任务，以及要求模型逐步写出内部推理过程的提示，这意味着目标是获取可用于训练的“思维链”数据。

Anthropic称，这些行动普遍通过代理服务进行。

相关机构利用所谓的“九头蛇架构”，管理成千上万个账户，将流量分散到不同入口与云平台中，一旦某个账户被封禁，新的账户立即补位。

在一个案例中，单一代理网络同时控制超过2万个账户，并将蒸馏请求与普通商业流量混合，以降低被识别的风险。

更值得注意的是时间敏感性。声明提到，当Anthropic发布新模型后，MiniMax在24小时内就将近一半流量转向新版本，显示出高度敏捷的能力捕捉策略。

Anthropic在声明也表达了更宏观的担忧。其观点是，前沿模型通常内置了安全机制，用于限制生物武器设计、恶意网络攻击等高风险用途，而通过外部蒸馏得到的模型，往往无法完整继承这些约束。一旦能力被复制而防护被弱化，相关风险可能随能力扩散而放大。

目前，该公司表示已加强多项防御措施，包括行为指纹识别、思维链提取检测、跨账户协同行为分析，以及对教育与初创账号的更严格审核，同时与其他AI公司和云服务商共享相关情报。

但其同时强调，这类问题已经超出单一公司的能力范围，需要行业层面的协作应对。

以下为声明全文

检测与防范蒸馏攻击

2026年2月23日

我们已识别出三家人工智能实验室——DeepSeek、Moonshot 和 MiniMax——发起的工业规模行动，试图通过非法方式提取 Claude 的能力，以提升它们自身的模型。这些实验室通过大约 24,000 个欺诈账户，与 Claude 进行了超过 1600 万次交互，违反了我们的服务条款以及区域访问限制。

这些实验室使用了一种名为“蒸馏”（distillation）的技术，即让一个能力较弱的模型学习更强模型的输出。蒸馏是一种被广泛使用且合法的训练方法。例如，前沿 AI 实验室通常会对自家模型进行蒸馏，以便为客户创建更小、更便宜的版本。但蒸馏也可能被用于非法目的：竞争对手可以用它在远低于自主研发所需时间与成本的情况下，获取强大的能力。

这些行动正在迅速升级，强度和复杂性不断提高。采取行动的窗口期十分有限，这一威胁也早已超出任何单一公司或地区的范畴。解决这一问题需要行业参与者、政策制定者以及全球 AI 社区之间迅速而协调的合作。

为什么蒸馏问题至关重要

通过非法蒸馏得到的模型缺乏必要的安全防护，从而带来重大国家安全风险。Anthropic 及其他美国公司构建的系统，会防止国家或非国家行为体利用 AI 开发生物武器或实施恶意网络活动等。通过非法蒸馏构建的模型，很可能无法保留这些安全防护措施，这意味着危险能力可能在大量安全机制被剥离的情况下扩散。

对美国模型进行蒸馏的外国实验室，随后可能将这些缺乏防护的能力输入到军事、情报和监控系统中——使他国政府能够将前沿 AI 用于进攻性网络行动、虚假信息宣传和大规模监控。如果蒸馏模型被开源，这种风险将成倍放大，因为这些能力会在任何单一政府控制之外自由传播。

蒸馏攻击与出口管制

Anthropic 一直支持出口管制，以帮助维持美国在 AI 领域的领先地位。蒸馏攻击削弱了这些管制措施，因为它允许外国实验室通过其他方式缩小出口管制试图保留的竞争优势。

在缺乏对这些攻击可见性的情况下，这些实验室看似迅速的技术进步，往往被错误解读为出口管制无效、可以通过创新绕过。事实上，这些进步在很大程度上依赖于从美国模型中提取的能力，而要大规模执行这种提取，则需要先进芯片的支持。因此，蒸馏攻击反而强化了出口管制的合理性：限制芯片获取不仅限制直接模型训练，也限制了非法蒸馏的规模。

我们的发现

下文详述的三起蒸馏行动采用了相似的操作模式：使用欺诈账户和代理服务，大规模访问 Claude，同时规避检测。其提示语的规模、结构和集中方向均明显不同于正常使用模式，反映出其目的是刻意提取能力，而非合法使用。

我们通过 IP 地址关联、请求元数据、基础设施指标，以及在某些情况下来自行业合作伙伴的佐证，高置信度地将每次行动归因于特定实验室。这些行动都集中针对 Claude 最具差异化的能力：代理式推理、工具使用和编程。

DeepSeek

规模：超过 15 万次交互

该行动目标包括：

各类任务中的推理能力
基于评分标准（rubric）的打分任务，使 Claude 充当强化学习的奖励模型
生成“审查安全”的敏感问题替代表述

DeepSeek 在多个账户之间生成同步流量。相同的模式、共享支付方式以及协调的时间安排表明其进行了“负载均衡”，以提高吞吐量、增强可靠性并规避检测。

一个显著手法是，提示 Claude 想象并逐步阐述某个已完成回答背后的内部推理过程——实质上是在大规模生成思维链（chain-of-thought）训练数据。我们还观察到任务要求 Claude 为敏感问题生成“审查安全”的替代表述，很可能是为了训练 DeepSeek 自身模型在这些话题上进行回避引导。通过请求元数据分析，我们能够将这些账户追溯到该实验室的具体研究人员。

Moonshot AI

规模：超过 340 万次交互

目标包括：

代理式推理与工具使用
编程与数据分析
计算机使用代理开发
计算机视觉

Moonshot（Kimi 模型）使用了数百个欺诈账户，横跨多种访问路径。多样化的账户类型使该行动更难被识别为协调操作。我们通过请求元数据进行归因，其信息与 Moonshot 高级员工的公开资料相匹配。在后期阶段，Moonshot 采用了更具针对性的方式，试图提取并重建 Claude 的推理轨迹。

MiniMax

规模：超过 1300 万次交互

目标包括：

代理式编程
工具使用与编排

我们通过请求元数据和基础设施指标将该行动归因于 MiniMax，并结合其公开产品路线图验证时间节点。我们在 MiniMax 发布其训练模型之前，就在其行动仍在进行时检测到了该蒸馏行为，这为我们提供了前所未有的视角，观察蒸馏攻击从数据生成到模型发布的完整生命周期。

我们在 MiniMax 行动期间发布新模型时，对方在 24 小时内迅速调整策略，将近一半流量转向捕捉我们最新系统的能力。

蒸馏方如何获取前沿模型

出于国家安全考虑，Anthropic 目前不向中国或其境外子公司提供 Claude 的商业访问。

为绕过这一限制，这些实验室使用商业代理服务，以规模化方式转售 Claude 及其他前沿模型的访问权限。这些服务运行所谓的“九头蛇集群”（hydra cluster）架构：由大量欺诈账户构成的庞大网络，将流量分散到我们的 API 以及第三方云平台。该网络范围广泛，没有单点故障。一个账户被封禁后，新的账户立即顶替。在一个案例中，单一代理网络同时管理超过 20,000 个欺诈账户，并将蒸馏流量与其他正常客户请求混合，以增加检测难度。

一旦获得访问权限，这些实验室就会生成大量精心设计的提示语，以提取特定能力。目标要么是收集高质量回答用于直接模型训练，要么是生成数万条独特任务，用于运行强化学习。

区别蒸馏攻击与正常使用的关键在于模式。例如以下提示语（与我们观察到的大规模重复提示近似）单独看似无害：

“你是一名专家级数据分析师，结合统计严谨性与深厚领域知识。你的目标是提供基于真实数据、具备完整透明推理过程的数据驱动洞察，而非摘要或可视化。”

但当该提示的变体在数百个协调账户间被重复数万次，并集中针对同一狭窄能力时，其模式便显而易见：在少数能力领域集中爆发的巨大流量、高度重复的结构，以及内容与 AI 模型训练核心价值的高度映射——这正是蒸馏攻击的典型特征。

我们的应对措施

我们持续大力投入防御机制，使蒸馏攻击更难实施、更易识别，包括：

检测机制：构建多个分类器与行为指纹系统，用于识别 API 流量中的蒸馏攻击模式，包括识别用于构建推理训练数据的思维链诱导行为，以及跨大量账户的协调活动。
情报共享：与其他 AI 实验室、云服务提供商及相关机构共享技术指标，形成对蒸馏生态的更全面认知。
访问控制：加强对教育账户、安全研究项目及创业组织的验证流程——这些是欺诈账户最常利用的渠道。
反制措施：开发产品级、API 级及模型级防护机制，在不影响合法用户体验的前提下，降低模型输出对非法蒸馏的有效性。

但任何一家公司都无法独自解决这一问题。正如前文所述，这种规模的蒸馏攻击需要 AI 行业、云服务提供商及政策制定者之间的协调响应。我们发布此文，是为了让所有关心这一结果的人都能看到相关证据。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.