盘古大模型陷抄袭风波：站在巨人的肩膀，莫让唯自研论反噬

分享至

2025年7月5日下午，华为盘古大模型团队通过官方渠道（如“昇腾CANN”微信公众号）发布正式声明，回应了近日围绕其开源模型“盘古Pro MoE”是否抄袭阿里“通义千问 Qwen-2.5 14B”模型的争议。声明称，盘古是基于昇腾硬件平台自研训练的混合专家模型，强调了“MoGE架构”创新，并否认抄袭。

而争议的起点则是来自GitHub上名为HonestAGI用户（该用户目前已显示404）发布的“LLM-Fingerprint”分析，该分析指出，盘古Pro MoE与Qwen‑2.5 14B在注意力层参数上显示出平均相关性为0.927，远高于同行模型间的对比范围，暗示可能其通过“升级改造”获得，而非从零训练，并在圈内引发盘古Pro MoE的抄袭质疑。

盘古团队随后在GitHub issue区进行技术回应，否认指控，并指出对比方法“不科学”。声明强调遵守开源许可，部分基础组件参考了开源实践。

“惊人的0.927相关性”：参数高相似度是否等同于抄袭？

众所周知，在模型训练中，即使使用相同的开源数据集和相似的模型架构，由于初始化参数的随机性、训练过程中的随机性（如dropout、数据洗牌顺序等）以及不同的超参数设置，最终训练出的模型参数几乎不可能完全一致，这意味着，相关性达到0.927极不寻常，甚至远远超出了“巧合”可以解释的范畴。

而这种极不寻常，通常只意味着两种可能。一种是增量训练（Continual Pre-training），即一方（例如华为盘古Pro MoE）在另一方已经训练好的模型（例如Qwen-2.5 14B）基础上，使用自己的数据继续进行训练，而这种做法会保留大部分原始模型的参数结构和数值特征，导致高度相似；另外一种则是参数复制或迁移，即华为直接或经过少量修改后，将Qwen-2.5 14B模型的参数用到了自家的盘古Pro MoE模型中。

不过，也有业内对此提出了不同的看法，例如导致参数相关性高的原因很多，类似的训练目标、相近的模型规模，或设计上采用了类似的注意力机制等都可能产生参数的高相关性，尤其是在Transformer架构被广泛共享的背景下。况且，若无明确代码或权重直接复制记录，仅凭统计参数相关性也无法断定抄袭。

此外，上述“LLM-Fingerprint”的技术研究，似乎只关注了QKV参数相关性，缺乏对激活模式、训练流程、数据来源等多维度分析，毕竟专业评估需要多层级、多模型对比、显著统计差异分析，而非单一模型参数相关性的测算。

而华为盘古团队认为对比方法“不科学”的解释中似乎也点明了这点，同时强调了其“分组混合专家模型（MoGE）”架构的独特性和创新性。

事实是，MoE（Mixture ofExperts）模型本身就是一种将大模型拆分成多个“专家”（子网络或者模块）的架构。如果盘古的MoGE架构在专家分组、路由机制等方面有显著创新，那么即便某些基础组件（如每个专家内部的Transformer块）的实现参考了开源代码，也不能完全等同于对整个模型的抄袭。

尽管如此，要想反驳抄袭的质疑，盘古团队还理应透明地解释其MoGE架构与Qwen-2.5的异同，并说明为何在上述架构存在独特性和创新性的前提下，参数相似度还依然如此之高

遗憾的是，这些并未出现在盘古团队的回复中，其也未详细解释“LLM-Fingerprint”的评估方法何以不科学，同时缺乏官方GitHub或其他平台的完整声明，进而导致华为的否认缺乏反证数据支撑，难以形成有力的回应。

化简为繁：用户无法证伪，华为不能证真

如上述，无论是盘古团队回复中提及的“LLM-Fingerprint”分析的不科学，还是业内部分观点认为，判断盘古Pro MoE是否抄袭，需要多层级、多模型对比、显著统计差异分析等的专业评估，都揭示出证伪的系统性和复杂性。

那么问题来了，我们能否仅在“LLM-Fingerprint”的层面（毕竟盘古团队回复中所指出的不科学也仅限于此），即质疑方除了前述HonestAGI用户采用的属于“LLM-Fingerprint”的参数指纹（Parameter Fingerprint），还可以使用同属于“LLM-Fingerprint”的其他验证方式以增加质疑的权重和说服力；而华为也可以借此反驳质疑方的质疑，也是最直接和简单的方法，同级验证中的“一正一反”，质疑至少在同一技术层面的争议中归零。

这里我们需要简单说明的是，HonestAGI提及的“LLM-Fingerprint”指的就是所谓的模型指纹（Model Fingerprinting），简而言之，它是指通过一组可量化的特征或统计量，对一个机器学习模型（特别是大语言模型LLM）建立独一无二的“身份识别”，类似于人类的指纹或设备的序列号，主要用来识别模型来源；检测模型抄袭、篡改或未经授权的衍生；对模型“去匿名化”等，通常包括我们上述第一部分论述的，HonestAGI用户采用的参数指纹外，还有行为指纹、输出指纹、梯度指纹等。

不幸的是，除参数指纹外，对于用户和社区来说，基于动态验证方法的行为指纹、输出指纹、梯度指纹等这些更强、更深层、更具解释力的验证手段都无法进行。

原因很简单，盘古ProMoE既未开放完整模型权重，也没有提供任何在线API、推理或DEMO接口。

注：白盒（White-box）：完全可见模型内部结构与参数，如模型权重

灰盒（Grey-box）：有限开放部分中间结果，如梯度、logits

黑盒（Black-box）：只开放输入输出接口，不公开模型内部结构

例如在华为官方介绍中，盘古大模型主要定位为企业级应用、昇腾硬件加速平台上的基础模型，聚焦政企行业解决方案，相关产品多以集成形式对外提供，未见单独面向开发者或公众的API服务开放；华为云官网虽然提供部分AI服务，但并未列出针对盘古ProMoE的API调用入口或开放平台；华为ModelArts或其它云服务平台未发现有盘古Pro MoE对外API。

而在开源平台与模型库中，尽管盘古Pro MoE的相关代码和训练框架在GitHub开源，但未提供推理API或在线服务Demo；至于相关社区也没有发现公开可用的盘古Pro MoE Web Demo或API，开源爱好者和企业用户均反映无法通过接口直接调用。

最后，据多个国内行业媒体报道，盘古Pro MoE面向昇腾芯片定制，且目前主要作为底层基础模型，不对外提供单独API。

这意味着仅在模型指纹领域，比基于静态验证方法的参数指纹更具说服力的其他基于“动态验证方法”的模型指纹都被华为有意或者无意间所屏蔽，只剩下无需API，只要公开权重，即可对模型权重中特征矩阵的相似度进行静态分析的参数指纹可用。

到此，我们认为，从用户和社区端，想要再添加更有说服力的证据几乎没有可能，那么就如我们前面所述，华为自身能否通过除去其质疑不科学的参数指纹外，用其他模型指纹中的任何一种或几种进行交叉验证，来反驳能，且只能采用参数指纹进行验证的用户的质疑呢？

按理说这对于华为来说再简单不过。

但随之而来的问题是，如果华为真的自己去验证，这种类似于既当运动员，又当裁判员的做法能否服众？也许最客观、公正的做法就是更加开放，例如对外开放自己的API和推理或DEMO接口，接受社区和用户的检验，但这又和我们前述人家华为盘古Pro MoE多以集成形式对外提供服务的商业模式相悖。毕竟选择何种商业模式是厂商的自由。

到这里，业内是否发现，无论是社区和用户对于盘古Pro MoE的进一步证伪，还是华为反驳的自我证真，实际的操作非常简单，但因为我们前述的理由却变得异常复杂，且“合情合理”，而这种化简为繁的操作，极有可能让此次盘古Pro MoE的抄袭风波，成为用户无法证伪，华为不能证真的游戏而不了了之。

站在巨人的肩膀：借鉴应有理有据有节，莫让唯自研论反噬

曾几何时，物理学巨匠艾萨克•牛顿在1675年写给罗伯特•胡克的信中所言的：“如果我看得更远，那是因为我站在巨人的肩膀上”成为科学精神的经典象征，传达出一种谦逊、尊重前人、积累创新的价值观。

而科技发展到今天，特别是在AI领域，完全从零开始构建一切已不现实，因为几乎所有的研究和开发都是基于前人的努力或者成果。

例如Transformer架构（由谷歌2017年提出）已成为几乎所有现代大模型的基础。无论是GPT、BERT、LLaMA、通义千问还是盘古，都是在其之上的继承和发展。而在开源日益流行的大模型领域更是如此。

这让使用开源模型、开源数据集、参考优秀论文等的自我实现，已经成为行业常态。而在这种背景下，创新的核心其实已经从所谓零开始的完全自研，转向是否提供了新的、有价值的东西。

以盘古Pro MoE为例，从其发布的论文看，面向自家的昇腾硬件就是其核心自主创新之一。因为针对特定硬件进行深度优化，本身就是重要的工程创新，可以提升训练和推理效率；又如其MoGE架构，如果此架构确实如其所言，解决了大规模分布式训练的负载均衡难题，无疑也是相当具有价值的架构创新。

但随之而来的疑问是，如果盘古Pro MoE在架构和硬件适配上有如此重要的创新，为何还需要大量借鉴，甚至可能直接使用了Qwen的核心参数（按照HonestAGI用户的参数指纹验证）呢？

结合上述，我们认为，所谓针对昇腾硬件的优化严格来说只能算是“部署优化”，不涉及模型本身的原创性；而MoGE架构也仅是架构创新，所以二者能否支撑“盘古Pro MoE是完全独立训练的大模型”之说，依然值得商榷。

而提及盘古Pro MoE是完全独立训练的大模型，除了上述盘古Pro MoE的论文外，我们不得不再提及华为盘古团队对于质疑的回应。

但问题的关键在于“使用”的程度，其并没有详细说明。

而在我们看来，如果使用仅仅是参考了某个函数的实现方式，或者使用了某些基础库，这在开源社区是完全正常且被鼓励的，但如果是将一个模型的“核心资产”，即人家花费大量算力和数据训练出来的权重参数进行“换皮”式使用，并声称是完全独立训练的大模型，那么即便在代码层面标注了来源，法律上合规，但在道义和学术诚信上也会引发巨大争议，尤其是在开源领域，这种道义和学术诚信上的争议，对于相关企业，乃至中国开源领域都会造成不小的负面影响。

写在最后：俗话说：“欲戴皇冠，必承其重”。当一家企业因为非市场因素的限制，而被部分业内和媒体频频冠以自研，且该企业借此收获大量情绪价值，并能将其转化为实际商业营收和利润之时，该企业难免受到一定的影响。

例如明明某些领域、某些技术的核心来自供应商，该企业充其量是优化或者适配，却被换上个高大上的名字或者艰涩难懂的所谓科技术语，摇身一变成为自研，久而久之，习惯成自然，自研被标签化，仿佛不自研，该企业就不成活。但稍有业内常识的人都清楚，任何产业或者产品的创新和成功，都不可能凭借一家企业的自研之力可为之。

而此次盘古大模型陷抄袭风波足以提醒我们的企业，要么是真的自研，勇于接受市场的质疑和检验；要么在严格遵守相关行业或者产业协议和规则等的前提下，站在巨人的肩膀上去发展。否则，舆论长期停留在“猜测”与“对抗”之间，最终，不仅相关企业会被所谓的自研反噬，还会极大消耗中国科技产业及自主品牌的公信力和竞争力。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.