近日,一项发布于GitHub的研究引发业界热议。该研究的作者认为,华为推出的盘古大模型(Pangu Pro MoE)与阿里巴巴发布的通义千问Qwen-2.5 14B模型在参数结构上存在“惊人一致”。作者通过实证比较,发现Pangu Pro MoE模型与Qwen-2.5 14B模型在注意力参数分布上的平均相关性高达0.927,远超其他模型对比的正常范围。此外,作者还发现了 Alibaba版权信息。
有网友认为,这可能意味着Pangu Pro MoE存在抄袭。盘古大模型团队在GitHub中进行了回应,否认抄袭指控,并且认为该作者的评估方法不科学,并按其方法做了多组不同大模型的对比,“ 注意力参数分布上的平均相关性” 也都是很高的水平。此外,盘古 Pro MoE技术开发团队也在微信公号“诺亚方舟实验室”做了说明。
简单说包括两点:
① 盘古 Pro MoE 开源模型是基于昇腾硬件平台开发、训练的基础大模型, 并非基于其他厂商模型增量训练而来,有多项 关键创新和突破。
②部分基础组件的代码参考了其他公司的开源贡献,涉及其他开源大模型的部分开源代码。严格遵循开源许可证的要求,在开源代码文件中 清晰标注开源代码的版权声明。
从上面的内容可以看到:
①在大模型,全自研很少,各家企业一边在自己做研究,一边也吸取其他公司开源的成果,也将自己的部分成果开源。通信圈这个特征更为明显,一个企业说自己进入了无人区,表明自己在某一方面领先,但在其研发中同样会参考业界已有的成果,包括开源信息、公开论文,也包括专利等。例如头部企业都称自己拥有较多的5G核心专利,但没有一家说5G是自己“全自研”的。
②盘古 Pro MoE 开源模型,清楚标注引用了哪些公司的开源技术,本身也是对知识产权的尊重。虽然有的软件不这么做。
③在技术受限的情况下, 华为盘古 Pro MoE在挖掘训练资源潜力方面有了突破。
④“注意力参数相关性分析”,并非从技术角度判定一致性,而是从输出结果结果角度判定。面向同一个语言体系,不同大模型之间参数相关都会在一个较高水平,能否作为判定是否参数借用的依据,相关性0.9是不是一个好的阈值。另外还有一个可能,参数越多,不同模型之间的参数相关度越高;如果这个推断成立,通过对模型参数蒸馏,减少参数数量,提高应用时的效率,仅会对结果带来很小的影响。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.