网易首页 > 网易号 > 正文 申请入驻

盘古大模型陷抄袭风波:站在巨人的肩膀,莫让唯自研论反噬

0
分享至

2025年7月5日下午,华为盘古大模型团队通过官方渠道(如“昇腾CANN”微信公众号)发布正式声明,回应了近日围绕其开源模型“盘古Pro MoE”是否抄袭阿里“通义千问 Qwen-2.5 14B”模型的争议。声明称,盘古是基于昇腾硬件平台自研训练的混合专家模型,强调了“MoGE架构”创新,并否认抄袭。

而争议的起点则是来自GitHub上名为HonestAGI用户(该用户目前已显示404)发布的“LLM-Fingerprint”分析,该分析指出,盘古Pro MoE与Qwen‑2.5 14B在注意力层参数上显示出平均相关性为0.927,远高于同行模型间的对比范围,暗示可能其通过“升级改造”获得,而非从零训练,并在圈内引发盘古Pro MoE的抄袭质疑。

盘古团队随后在GitHub issue区进行技术回应,否认指控,并指出对比方法“不科学”。声明强调遵守开源许可,部分基础组件参考了开源实践。

“惊人的0.927相关性”:参数高相似度是否等同于抄袭?

众所周知,在模型训练中,即使使用相同的开源数据集和相似的模型架构,由于初始化参数的随机性、训练过程中的随机性(如dropout、数据洗牌顺序等)以及不同的超参数设置,最终训练出的模型参数几乎不可能完全一致,这意味着,相关性达到0.927极不寻常,甚至远远超出了“巧合”可以解释的范畴。

而这种极不寻常,通常只意味着两种可能。一种是增量训练(Continual Pre-training),即一方(例如华为盘古Pro MoE)在另一方已经训练好的模型(例如Qwen-2.5 14B)基础上,使用自己的数据继续进行训练,而这种做法会保留大部分原始模型的参数结构和数值特征,导致高度相似;另外一种则是参数复制或迁移,即华为直接或经过少量修改后,将Qwen-2.5 14B模型的参数用到了自家的盘古Pro MoE模型中。

不过,也有业内对此提出了不同的看法,例如导致参数相关性高的原因很多,类似的训练目标、相近的模型规模,或设计上采用了类似的注意力机制等都可能产生参数的高相关性,尤其是在Transformer架构被广泛共享的背景下。况且,若无明确代码或权重直接复制记录,仅凭统计参数相关性也无法断定抄袭。

此外,上述“LLM-Fingerprint”的技术研究,似乎只关注了QKV参数相关性,缺乏对激活模式、训练流程、数据来源等多维度分析,毕竟专业评估需要多层级、多模型对比、显著统计差异分析,而非单一模型参数相关性的测算。

而华为盘古团队认为对比方法“不科学”的解释中似乎也点明了这点,同时强调了其“分组混合专家模型(MoGE)”架构的独特性和创新性。

事实是,MoE(Mixture ofExperts)模型本身就是一种将大模型拆分成多个“专家”(子网络或者模块)的架构。如果盘古的MoGE架构在专家分组、路由机制等方面有显著创新,那么即便某些基础组件(如每个专家内部的Transformer块)的实现参考了开源代码,也不能完全等同于对整个模型的抄袭。

尽管如此,要想反驳抄袭的质疑,盘古团队还理应透明地解释其MoGE架构与Qwen-2.5的异同,并说明为何在上述架构存在独特性和创新性的前提下,参数相似度还依然如此之高

遗憾的是,这些并未出现在盘古团队的回复中,其也未详细解释“LLM-Fingerprint”的评估方法何以不科学,同时缺乏官方GitHub或其他平台的完整声明,进而导致华为的否认缺乏反证数据支撑,难以形成有力的回应。

化简为繁:用户无法证伪,华为不能证真

如上述,无论是盘古团队回复中提及的“LLM-Fingerprint”分析的不科学,还是业内部分观点认为,判断盘古Pro MoE是否抄袭,需要多层级、多模型对比、显著统计差异分析等的专业评估,都揭示出证伪的系统性和复杂性。

那么问题来了,我们能否仅在“LLM-Fingerprint”的层面(毕竟盘古团队回复中所指出的不科学也仅限于此),即质疑方除了前述HonestAGI用户采用的属于“LLM-Fingerprint”的参数指纹(Parameter Fingerprint),还可以使用同属于“LLM-Fingerprint”的其他验证方式以增加质疑的权重和说服力;而华为也可以借此反驳质疑方的质疑,也是最直接和简单的方法,同级验证中的“一正一反”,质疑至少在同一技术层面的争议中归零。

这里我们需要简单说明的是,HonestAGI提及的“LLM-Fingerprint”指的就是所谓的模型指纹(Model Fingerprinting),简而言之,它是指通过一组可量化的特征或统计量,对一个机器学习模型(特别是大语言模型LLM)建立独一无二的“身份识别”,类似于人类的指纹或设备的序列号,主要用来识别模型来源;检测模型抄袭、篡改或未经授权的衍生;对模型“去匿名化”等,通常包括我们上述第一部分论述的,HonestAGI用户采用的参数指纹外,还有行为指纹、输出指纹、梯度指纹等。

不幸的是,除参数指纹外,对于用户和社区来说,基于动态验证方法的行为指纹、输出指纹、梯度指纹等这些更强、更深层、更具解释力的验证手段都无法进行。

原因很简单,盘古ProMoE既未开放完整模型权重,也没有提供任何在线API、推理或DEMO接口。

注:白盒(White-box):完全可见模型内部结构与参数,如模型权重

灰盒(Grey-box):有限开放部分中间结果,如梯度、logits

黑盒(Black-box):只开放输入输出接口,不公开模型内部结构

例如在华为官方介绍中,盘古大模型主要定位为企业级应用、昇腾硬件加速平台上的基础模型,聚焦政企行业解决方案,相关产品多以集成形式对外提供,未见单独面向开发者或公众的API服务开放;华为云官网虽然提供部分AI服务,但并未列出针对盘古ProMoE的API调用入口或开放平台;华为ModelArts或其它云服务平台未发现有盘古Pro MoE对外API。

而在开源平台与模型库中,尽管盘古Pro MoE的相关代码和训练框架在GitHub开源,但未提供推理API或在线服务Demo;至于相关社区也没有发现公开可用的盘古Pro MoE Web Demo或API,开源爱好者和企业用户均反映无法通过接口直接调用。

最后,据多个国内行业媒体报道,盘古Pro MoE面向昇腾芯片定制,且目前主要作为底层基础模型,不对外提供单独API。

这意味着仅在模型指纹领域,比基于静态验证方法的参数指纹更具说服力的其他基于“动态验证方法”的模型指纹都被华为有意或者无意间所屏蔽,只剩下无需API,只要公开权重,即可对模型权重中特征矩阵的相似度进行静态分析的参数指纹可用。

到此,我们认为,从用户和社区端,想要再添加更有说服力的证据几乎没有可能,那么就如我们前面所述,华为自身能否通过除去其质疑不科学的参数指纹外,用其他模型指纹中的任何一种或几种进行交叉验证,来反驳能,且只能采用参数指纹进行验证的用户的质疑呢?

按理说这对于华为来说再简单不过。

但随之而来的问题是,如果华为真的自己去验证,这种类似于既当运动员,又当裁判员的做法能否服众?也许最客观、公正的做法就是更加开放,例如对外开放自己的API和推理或DEMO接口,接受社区和用户的检验,但这又和我们前述人家华为盘古Pro MoE多以集成形式对外提供服务的商业模式相悖。毕竟选择何种商业模式是厂商的自由。

到这里,业内是否发现,无论是社区和用户对于盘古Pro MoE的进一步证伪,还是华为反驳的自我证真,实际的操作非常简单,但因为我们前述的理由却变得异常复杂,且“合情合理”,而这种化简为繁的操作,极有可能让此次盘古Pro MoE的抄袭风波,成为用户无法证伪,华为不能证真的游戏而不了了之。

站在巨人的肩膀:借鉴应有理有据有节,莫让唯自研论反噬

曾几何时,物理学巨匠艾萨克•牛顿在1675年写给罗伯特•胡克的信中所言的:“如果我看得更远,那是因为我站在巨人的肩膀上”成为科学精神的经典象征,传达出一种谦逊、尊重前人、积累创新的价值观。

而科技发展到今天,特别是在AI领域,完全从零开始构建一切已不现实,因为几乎所有的研究和开发都是基于前人的努力或者成果。

例如Transformer架构(由谷歌2017年提出)已成为几乎所有现代大模型的基础。无论是GPT、BERT、LLaMA、通义千问还是盘古,都是在其之上的继承和发展。而在开源日益流行的大模型领域更是如此。

这让使用开源模型、开源数据集、参考优秀论文等的自我实现,已经成为行业常态。而在这种背景下,创新的核心其实已经从所谓零开始的完全自研,转向是否提供了新的、有价值的东西。

以盘古Pro MoE为例,从其发布的论文看,面向自家的昇腾硬件就是其核心自主创新之一。因为针对特定硬件进行深度优化,本身就是重要的工程创新,可以提升训练和推理效率;又如其MoGE架构,如果此架构确实如其所言,解决了大规模分布式训练的负载均衡难题,无疑也是相当具有价值的架构创新。

但随之而来的疑问是,如果盘古Pro MoE在架构和硬件适配上有如此重要的创新,为何还需要大量借鉴,甚至可能直接使用了Qwen的核心参数(按照HonestAGI用户的参数指纹验证)呢?

结合上述,我们认为,所谓针对昇腾硬件的优化严格来说只能算是“部署优化”,不涉及模型本身的原创性;而MoGE架构也仅是架构创新,所以二者能否支撑“盘古Pro MoE是完全独立训练的大模型”之说,依然值得商榷。

而提及盘古Pro MoE是完全独立训练的大模型,除了上述盘古Pro MoE的论文外,我们不得不再提及华为盘古团队对于质疑的回应。

回应中,盘古团队强调其“严格遵循开源许可证的要求,在开源代码文件中清晰标注开源代码的版权声明”。这可以被解读为,其承认使用了其他开源模型的代码(可能包括Qwen),但认为自己的使用方式在法律上是合规的。

但问题的关键在于“使用”的程度,其并没有详细说明。

而在我们看来,如果使用仅仅是参考了某个函数的实现方式,或者使用了某些基础库,这在开源社区是完全正常且被鼓励的,但如果是将一个模型的“核心资产”,即人家花费大量算力和数据训练出来的权重参数进行“换皮”式使用,并声称是完全独立训练的大模型,那么即便在代码层面标注了来源,法律上合规,但在道义和学术诚信上也会引发巨大争议,尤其是在开源领域,这种道义和学术诚信上的争议,对于相关企业,乃至中国开源领域都会造成不小的负面影响。

写在最后:俗话说:“欲戴皇冠,必承其重”。当一家企业因为非市场因素的限制,而被部分业内和媒体频频冠以自研,且该企业借此收获大量情绪价值,并能将其转化为实际商业营收和利润之时,该企业难免受到一定的影响。

例如明明某些领域、某些技术的核心来自供应商,该企业充其量是优化或者适配,却被换上个高大上的名字或者艰涩难懂的所谓科技术语,摇身一变成为自研,久而久之,习惯成自然,自研被标签化,仿佛不自研,该企业就不成活。但稍有业内常识的人都清楚,任何产业或者产品的创新和成功,都不可能凭借一家企业的自研之力可为之。

而此次盘古大模型陷抄袭风波足以提醒我们的企业,要么是真的自研,勇于接受市场的质疑和检验;要么在严格遵守相关行业或者产业协议和规则等的前提下,站在巨人的肩膀上去发展。否则,舆论长期停留在“猜测”与“对抗”之间,最终,不仅相关企业会被所谓的自研反噬,还会极大消耗中国科技产业及自主品牌的公信力和竞争力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大陆惩戒名单出炉!赖清德家人已逃亡美国,洪秀柱:统一近在咫尺

大陆惩戒名单出炉!赖清德家人已逃亡美国,洪秀柱:统一近在咫尺

近史博览
2026-01-20 15:43:22
《镖人》陈丽君“咬箭羽”火爆全网,四代打星半个中国武打圈同框

《镖人》陈丽君“咬箭羽”火爆全网,四代打星半个中国武打圈同框

半糖甜而不腻
2026-01-20 12:30:02
格陵兰被抢,欧洲集体缩头认怂,俄罗斯强硬表态:这蛋糕我要一份

格陵兰被抢,欧洲集体缩头认怂,俄罗斯强硬表态:这蛋糕我要一份

小陈讲史
2026-01-21 09:28:40
离谱!《镖人》遭抵制,李连杰再被内涵换心脏:你买票他买零件

离谱!《镖人》遭抵制,李连杰再被内涵换心脏:你买票他买零件

非常先生看娱乐
2026-01-19 18:27:37
加拿大省长一语惊人:只要我们接通电话,就会被中国电车监听!

加拿大省长一语惊人:只要我们接通电话,就会被中国电车监听!

回京历史梦
2026-01-20 14:42:59
快扔掉!戴一天,辐射量相当于拍117次胸片

快扔掉!戴一天,辐射量相当于拍117次胸片

FM93浙江交通之声
2025-10-28 00:01:43
剪发、玩手机、拒交流!小玥儿这波“无声反抗”,狠狠打谁的脸?

剪发、玩手机、拒交流!小玥儿这波“无声反抗”,狠狠打谁的脸?

阿废冷眼观察所
2025-12-29 03:51:04
第二个立陶宛?又一国家踩红线,邀赖清德访问,中方这次不会手软

第二个立陶宛?又一国家踩红线,邀赖清德访问,中方这次不会手软

近史谈
2026-01-20 18:48:58
72%烟草倒挂逼哭零售户!宁可不订也不赔钱,市场根基正在烂根

72%烟草倒挂逼哭零售户!宁可不订也不赔钱,市场根基正在烂根

老特有话说
2026-01-07 00:40:03
轰43分7板!展现CBA顶级水平,才23岁 球迷:郭士强快签约他

轰43分7板!展现CBA顶级水平,才23岁 球迷:郭士强快签约他

体育哲人
2026-01-21 10:26:08
李心月曝黄晓明baby离婚原因!baby婚内出轨邓某,车内运动被发现

李心月曝黄晓明baby离婚原因!baby婚内出轨邓某,车内运动被发现

八卦王者
2026-01-21 15:52:49
A股:周三晚间传来3个核弹级利好!明天很可能会迎史诗级别大行情?

A股:周三晚间传来3个核弹级利好!明天很可能会迎史诗级别大行情?

股市皆大事
2026-01-21 18:12:54
大暴雪来了,预警:新一轮冷空气,雨雪25日开启,92W是2号台风?

大暴雪来了,预警:新一轮冷空气,雨雪25日开启,92W是2号台风?

环球科学猫
2026-01-21 10:58:40
马英九建议郑丽文:如去大陆访问,别穿高跟鞋,赶快练毛笔字

马英九建议郑丽文:如去大陆访问,别穿高跟鞋,赶快练毛笔字

扬子晚报
2026-01-20 17:59:47
名利双收,Shams:新科全明星首发马克西将推出首款新百伦签名鞋

名利双收,Shams:新科全明星首发马克西将推出首款新百伦签名鞋

懂球帝
2026-01-21 09:25:08
哈里王子睽违4年返英出庭,王室其他成员纷纷撤离伦敦!

哈里王子睽违4年返英出庭,王室其他成员纷纷撤离伦敦!

ChicMyGeek
2026-01-21 19:10:06
中越自卫反击战秘闻:越南坦言迟五日撤军,谅山守军将全军覆没

中越自卫反击战秘闻:越南坦言迟五日撤军,谅山守军将全军覆没

磊子讲史
2026-01-21 09:46:28
中方通知日本,血债必须偿还,解放军已上场,外交部也跟进行动

中方通知日本,血债必须偿还,解放军已上场,外交部也跟进行动

来科点谱
2026-01-19 08:53:34
今年没有大年三十,什么时候贴春联最好?这4件事要早知道,别不当回事,图个吉利!

今年没有大年三十,什么时候贴春联最好?这4件事要早知道,别不当回事,图个吉利!

农夫也疯狂
2026-01-19 11:57:16
张元英的大腿很嫩

张元英的大腿很嫩

白宸侃片
2026-01-21 12:57:33
2026-01-21 20:44:49
孙永杰的ICT评论 incentive-icons
孙永杰的ICT评论
专注独家、独立的观点
402文章数 6234关注度
往期回顾 全部

科技要闻

给机器人做仿真训练 这家创企年营收破亿

头条要闻

风波中的西贝股权发生变化 新荣记张勇对贾国龙伸援手

头条要闻

风波中的西贝股权发生变化 新荣记张勇对贾国龙伸援手

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

首位捐款的明星 苗圃现身嫣然医院捐款

财经要闻

丹麦打响第一枪 欧洲用资本保卫格陵兰岛

汽车要闻

2026款上汽大众朗逸正式上市 售价12.09万起

态度原创

艺术
本地
手机
时尚
公开课

艺术要闻

一百多年前的中国,太雄伟震撼了!

本地新闻

云游辽宁|漫步千年小城晨昏,“康”复好心情

手机要闻

iPhone 18系列再次被确认:不是左上角单挖孔,但价格要上涨!

新春穿搭新趋势,天猫服饰与百大品牌共同演绎新年吉服美学

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版