网易首页 > 网易号 > 正文 申请入驻

大模型套壳往事

0
分享至

华为盘古大模型涉嫌套壳阿里云Qwen大模型的风波,再次将模型“原研”与“套壳”的讨论摆上了台面。

回溯三年前,在ChatGPT刚刚开启大模型航海时代时,那时候的套壳还停留在小作坊山寨ChatGPT的阶段。调用ChatGPT的API,接口再包上一层“中文UI”,就能在微信群里按调用次数卖会员。那一年,套壳成了很多人通往AI财富故事的第一张船票。

同时,开始自主研发大模型的公司里,也不乏对ChatGPT的借力。这些企业虽然有着自研的模型架构,但在微调阶段或多或少利用了ChatGPT或GPT-4等对话模型生成的数据来做微调。这些合成语料,既保证了数据的多样性,又是经过OpenAI对齐后的高质量数据。借力ChatGPT可以说是行业内公开的秘密。

从2023年开始,大模型赛道进入开源时代,借助开源框架进行模型训练,成为了很多创业团队的选择。越来越多的团队公开自己的研究成果,推动技术的交流与迭代,也让套壳开发成为了更普遍的行为。随意之而的,争议性的套壳事件也逐渐增多,各种涉嫌套壳的事件屡次冲上热搜,随后又被相关方解释澄清。

国内大模型行业也在“套”与“被套”中,轮番向前发展着。

01

GPT火爆的那一年:山寨API和造数据

回顾AI的进化史,今天我们看到各类大模型都源自同一个鼻祖——2017年Google Brain团队发布的Transformer神经网络架构。Transformer的原始架构和核心包括编码器(Encoder)与解码器(Decoder),其中,编码器负责理解输入文本,解码器负责生成输出文本。

如今,在大型语言模型领域依然采用三大主流Transformer架构:Decoderonly(如GPT系列)、EncoderDecoder(如T5)和Encoderonly(如BERT)。不过,最受关注和应用最广泛的,是以Decoderonly为核心的GPT式架构,并不断衍生出各种变体。

2022年11月,基于GPT3.5,OpenAI推出ChatGPT,发布后短时间内获取数千万用户,让LLM正式登上公众舞台,也将GPT架构推为主流AI架构。随着ChatGPT打响大模型时代第一枪,各大厂商纷纷涌入大模型研发赛道。由于ChatGPT无法直接接入国内用户,一些小作坊也看到了套壳的牟利前景。

2022年底开始,许多山寨ChatGPT在互联网上涌现,此时的套壳基本不涉及任何二次开发,很多开发者直接包装一下API就拿出来卖钱。

2022年底至2023年,国内涌现数百个ChatGPT镜像站,包括名噪一时的“ChatGPT在线”公众号,运营者拿到OpenAI API,再在前端加价售卖。这种低劣的套壳手段很快就被监管部门发现,“ChatGPT在线”背后的上海熵云网络科技有限公司,就因涉嫌仿冒ChatGPT被罚6万元,成为首例“ChatGPT套壳”行政处罚。

另一方面,在同期发布的其他模型中,时常出现一些“GPT味”的回复,这些模型背后的企业也遭受了套壳质疑。

2023年5月,曾有网友发现,讯飞星火大模型在有些问答中会出现“我是由OpenAI开发的”等内容,由此一则关于“讯飞星火大模型被质疑‘套壳ChatGPT’”的消息传播开来。

这种情况并非个例,甚至2024年发布的DeepSeek V3也曾暴雷,有用户反映其在测试中出现异常,模型自称是OpenAI的ChatGPT。相关企业对这类情况的解释为,这可能是由于训练数据中混入了大量ChatGPT生成的内容,导致模型“身份混淆”。

互联网公开信息中AI内容日渐增多造成的数据污染,确实是可能造成这些“GPT味”对话的原因。但另一种可能是,模型研发团队在微调训练过程中,主动使用了通过ChatGPT等OpenAI旗下模型构造的数据集,也就是所谓的“数据蒸馏”。

数据蒸馏是大模型训练中一种高效低成本的知识迁移方式,这里的逻辑就像是用一个强大的“老师模型”(如GPT-4)生成大量高质量问答数据,而后将这些数据喂给一个“学生模型”去学习。

事实上,在GPT -3之后,OpenAI就彻底转向了闭源,所以对于想要自研大模型的竞争对手而言,并无法在基础架构层面套壳OpenAI的产品。这些企业或多或少也在模型技术上有一定积累,在架构层面纷纷推出自家的研究成果,但如果想要保证训练质量,从更强的模型产品那里以借力的方式获取数据无疑是一种捷径。

虽然借力ChatGPT/GPT-4生成训练数据是业内公开的秘密,但一直以来鲜有被披露的案例,直到那起著名的“字节抄作业”事件。2023年12月,外媒The Verge报道称,字节跳动利用微软的OpenAI API账户生成数据来训练自己的人工智能模型,这种行为实际上已经违反了微软和OpenAI的使用条款。在此消息被披露不久,据传OpenAI暂停了字节跳动的账户。

字节跳动方面随后表示,这一事件是技术团队在进行早期模型探索时,有部分工程师将GPT的API服务应用于实验性项目研究中。该模型仅为测试,没有计划上线,也从未对外使用。按照字节跳动的说法,其对于OpenAI模型的使用是在使用条例发布之前。

对此,来自国内某头部AI企业算法部门的叶知秋向直面AI(ID:faceaibangg)表示,业内的普遍认知是,数据蒸馏不应该被认为是套壳。“数据蒸馏只是一个手段,通过一个能力足够强的模型产出数据,对于垂直领域(的另一个模型)去做加训。”

加训(Continual Training)是一种常见的提升模型性能的方法。通过在新数据上继续训练模型,可以使其更好地适应新的任务和领域。“如果利用数据蒸馏做加训算套壳,那这个技术就不该被允许。”叶知秋解释道。

2025年的今天,大模型开发市场日渐成熟,直接调用API“山寨套壳”的模型产品已逐渐消失。在应用层面,随着AI Agent领域的快速迭代,调用API落地的AI工具已经成为常态,如Manus这类通用AI Agent逐步进入市场,AI应用层面的套壳已经成为了一种常见的技术手段。

而在大模型开发领域,随着开源时代的到来,模型开发领域的套壳,又陷入了新一轮的争论。

02

开源大模型时代:你用我用大家用

进入2023年,许多厂商选择开源方式公布模型方案,用以刺激开发者群体对模型/模型应用的迭代。随着Meta在2023年7月开源LLaMA 2,标志着AI行业也进入开源时代。在这之后,先后有十余款国产模型通过微调LLaMA 2完成上线。同时,利用开源模型架构进行二次开发,也成为了新的套壳争议点。

2023年7月,百川智能CEO王小川回应了外界对旗下开源模型Baichuan-7B套壳LLaMA的质疑。他提到,LLaMA 2技术报告里大概有9个技术创新点,其中有6个在百川智能正在研发的模型里已经做到。“在跟LLaMA 2对比的时候,我们在技术的思考里不是简单的抄袭借鉴,我们是有自己的思考的。”

就在几个月后,国内AI圈迎来了另一场更汹涌的套壳风波。2023年11月,原阿里技术副总裁、深度学习框架Caffe发明者贾扬清在朋友圈中称,某家套壳模型的做法是“把代码里面的名字从LLaMA改成了他们的名字,然后换了几个变量名。”事后证实,该信息直指零一万物旗下的Yi-34B模型,开源时代的套壳争议被搬到台面上。

一时间,关于零一万物是否违反了LLaMA的开源协议,在各大技术社区引发了激烈的争论。随后,Hugging Face工程师Arthur Zucker下场对这一事件发表了看法。他认为,LLaMA的开源协议主要限制了模型权重,而不是模型架构,所以零一万物的Yi-34B并未违反开源协议。

事实上,利用开源模型架构只是打造新模型的第一步,零一万物在对Yi-34B训练过程的说明中也作出了解释:模型训练过程好比做菜,架构只是决定了做菜的原材料和大致步骤……其投注了大部分精力在训练方法、数据配比、数据工程、细节参数、baby sitting(训练过程监测)技巧等方面的调整。

对于AI行业而言,推动技术开源化的意义之一是停止“重复造轮子”。从零研发一款全新的模型架构,并跑通预训练流程需要耗费大量成本,头部企业开源可以减少资源浪费,新入局的团队通过套壳得以快速投入到模型技术迭代和应用场景中。百度CEO李彦宏就曾表示:“重新做一个ChatGPT没有多大意义。基于语言大模型开发应用机会很大,但没有必要再重新发明一遍轮子。”

2023–2024年,AI行业掀起一场“百模大战”,其中的国产大模型大约10%的模型是基座模型,90%的模型是在开源模型基础上加入特定数据集做微调的行业模型、垂直模型。套壳帮助大量中小团队站在巨人的肩膀上,专注于特定领域的工程化和应用探索。

如今,在Hugging Face上按“热度”排序检索,以文本模型为例,DeepSeek R1/V3、LLaMA3.2/3.3、Qwen2.5以及来自法国的Mistral系列模型均位居前列,这些开源模型的下载量在几十万到上百万不等。这表明开源极大地促进了行业的进化。目前,Hugging Face平台上共有超过150万个模型,其中绝大多数是用户基于开源架构的衍生产物——sft微调版本、LoRA微调版本等。

另一方面,随着LoRA与QLoRA等轻量化微调方案面世,定向微调模型的成本也在不断下降,为中小型团队进行模型开发提供了有利基础。麦肯锡在今年5月的一份调查显示,92%的企业借助对开源大模型的微调提高了24%–37%的业务效率。

2023年以来,模型开发门槛因开源不断降低,在迎来百模齐放的良好生态之余,也浮现出一些浑水摸鱼的恶劣套壳行为。

2024年5月,斯坦福大学的一个研究团队发布了一个名为LLaMA3V的模型,号称只要500美元(约人民币3650元)就能训练出一个SOTA多模态模型,效果比肩GPT-4V。

但随后有网友发现,LLaMA3V与中国企业面壁智能在当月发布的8B多模态开源小模型MiniCPM-LLaMA3-V 2.59(面壁小钢炮)高度重合。在实锤套壳抄袭后,该团队随后删库跑路。该事件一方面反映出,国产模型凭借其优异性能也成为了被套壳的对象;同时,也再一次引发了业界对开源时代套壳合规边界的思考。

对于AI行业而言,厂商通过开源以协作的方式可以对模型进行完善与优化,加速推动问题解决与技术创新。由于协作的工作模式和开放的源代码,开源大模型的代码具有更高的透明度,并且在社区的监督下,公开透明的代码能更容易进行勘误。

“透明度”是促进开源社区交流进步的关键,而这需要二次开发的团队和所有从业者共同维系。在LLaMA3V的案例中,斯坦福方面的研究团队只是对MiniCPM-LLaMA3-V 2.59进行了一些重新格式化,并把图像切片、分词器、重采样器等变量重命名。

原封不动地拿过来,并且作为自己的学术成果发布,相比起套壳,这更像是彻头彻尾的抄袭。

所以,套壳的道德边界,究竟是什么呢?

03

“套壳”和“自研”的矛盾体

“如果一个团队没有以原生模型的名义发表,就不能叫套壳,应该叫模型的再应用。”谈及套壳的定义,叶知秋这样说道。在加入大厂项目之前,叶知秋曾参与过一些创业公司的开源项目。他判断,业内有实力造基础模型的企业只会越来越少,加速利用开源技术是行业发展的必然,“毕竟核心技术上,只有那几家公司有。”

叶知秋口中的“核心技术”,指的是从零研发模型基础架构,并落实预训练流程的能力。相关报道显示,国内目前有完整自研预训练框架的大模型公司数量较少,仅有 5家左右。能“造轮”的企业屈指可数,对此叶知秋的解释是:“一些企业也有实力投入基础模型研究,但他们要考虑做这件事的收益。”

“演化和加训,严格来说和套壳是两码事。”叶知秋表示,像LLaMA这样开源架构已经为业内熟知且熟用,很多成果都是在这一架构的基础上演化而来的。但同时他也强调,套壳合规与否在于冠名问题,利用开源技术就需要在技术文档中做出明确说明,“如果你是在一个已经开源的模型上进行加训,那就要在冠名和文档中体现这一点。”

对于如何理解大模型非法套壳,知识产权法领域的法律界人士秦朝向直面AI分享了他的看法。他表示,一些恶劣的“套壳”行为虽然在社会舆论上引发很多反响,在法律视角上却是另一回事。如何区分套壳和抄袭的界限、如何证明因为套壳行为导致了不当获利、如何证明具体的获利额度,这些问题都存在着一定的举证难度。“目前来说,这一类事情还处于一个灰色地带。”

秦朝进一步解释,所谓“借鉴”就是很难区分性质的套壳,一些开发者可能“借鉴”了不止一家企业,然后宣称是自研产品。除非是简单粗暴的纯套壳,不然很难去界定这一行为的恶劣程度。“而且大模型赛道发展速度极快,走法律流程下来可能要两三年,到那时技术都更新换代了。”

在技术圈语境下,自研是套壳的反义词。在叶知秋看来,如果一个模型团队宣称自己是全程端到端自研,势必会吸引业内同行审视的目光,未公开的套壳行为很难真正被掩盖。“一个开源的模型,其实一切信息都有迹可循,就是看业内人去不去挖掘而已。”

叶知秋进一步解释道,模型原研厂商都会在大模型组件中留下一些“标签”,当研发团队在发布论文时,这些“标签”就会被用以证明其采用了创新技术。因为一旦团队宣称这款模型是自研,那就需要说明,这款新的模型基于传统模型有什么不一样的地方。“如果没有,那大家必然会问,你的模型的架构是从哪来的?”

对于一些企业而言,套壳和自研的取舍,也往往伴随着成果产出的压力。另一位资深算法从业者向直面AI表示,借鉴架构/方案在业内并不稀奇,因为很多团队需要尽快解决0到1的问题。“在保留技术底线基础上,能有成果产出是最重要的。”

针对这一现象,叶知秋表示,一些头部企业虽然在其他领域实力雄厚,但在模型领域,可能在底层的训练逻辑上缺少经验和积累。对这些企业而言,充分利用开源技术套壳,可以更快完成从数据层面到模型层面的积淀。“像一些企业在某一领域的‘垂类’大模型,其实都有‘套壳’的成分在。”

“通过‘套壳’去做自己的开发,还是非常低成本高价值的。”作为从业者,叶知秋十分肯定开源为行业带来的积极影响。他认为,长期来看,单一企业很难在模型能力上建立壁垒,开源有助于整个行业的进步,实现更高的效率、更低的成本,去打造更多的模型能力。

关于开源时代的套壳争议,叶知秋表示,这些争议本质上还是跟企业的宣传口径有关,“用开源技术不丢人,前提是企业不要宣传是自研。”

(文中叶知秋、秦朝为化名)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大脚击中海鸥的门将:当时感觉糟透了,但救活它让我们很欣慰

大脚击中海鸥的门将:当时感觉糟透了,但救活它让我们很欣慰

懂球帝
2026-03-10 17:34:28
资本让老头老太太连垃圾都捡不了!武汉部分小区,惊现废品回收机

资本让老头老太太连垃圾都捡不了!武汉部分小区,惊现废品回收机

火山詩话
2026-03-11 14:33:00
我调到县财政局工作后,局长打我的主意,有一天我哥调任纪委书记

我调到县财政局工作后,局长打我的主意,有一天我哥调任纪委书记

刺头体育
2026-03-11 07:19:03
恩里克:首夺欧冠冠军比再拿一次难;罗塞尼尔的战术很有特点

恩里克:首夺欧冠冠军比再拿一次难;罗塞尼尔的战术很有特点

懂球帝
2026-03-11 02:26:24
不是那个年代的,你真看不懂

不是那个年代的,你真看不懂

深度报
2026-02-15 23:01:53
2026年“电车”新排名:海豚第7,理想i6第4,第一名月销27362辆

2026年“电车”新排名:海豚第7,理想i6第4,第一名月销27362辆

柳先说
2026-03-11 16:28:05
女孩相亲被约挖野菜后续!男方独吞野菜还炫耀,母亲受牵连

女孩相亲被约挖野菜后续!男方独吞野菜还炫耀,母亲受牵连

天天热点见闻
2026-03-11 08:00:16
TVB前“咪神”大婚惊艳四座,这胸围是真实存在的吗?

TVB前“咪神”大婚惊艳四座,这胸围是真实存在的吗?

娱乐领航家
2026-03-09 21:30:03
癌细胞最爱的5大食物,很多人天天吃!医生提醒:再馋也要管住嘴

癌细胞最爱的5大食物,很多人天天吃!医生提醒:再馋也要管住嘴

孟大夫之家1
2026-02-23 18:33:03
从烂片王到爆款预定,黄子华的逆天编年史

从烂片王到爆款预定,黄子华的逆天编年史

北戴河桃罐头厂电影修士会
2026-03-11 14:04:20
中国人不买了?销量暴跌、闭店裁员,究竟是谁“打败”了保时捷?

中国人不买了?销量暴跌、闭店裁员,究竟是谁“打败”了保时捷?

小兰聊历史
2026-03-11 16:31:34
美伊大战打醒韩国: 李在明第一次说如此掏心窝的话,对中国太有利

美伊大战打醒韩国: 李在明第一次说如此掏心窝的话,对中国太有利

阿芒娱乐说
2026-03-10 19:34:01
美军印太司令:再遭中国拦截就采取行动,中国军队需要提前防范

美军印太司令:再遭中国拦截就采取行动,中国军队需要提前防范

纪中百大事
2026-03-09 10:00:26
江苏放大招!脑机接口迎政策利好 9只概念股业绩有望高增长

江苏放大招!脑机接口迎政策利好 9只概念股业绩有望高增长

新浪财经
2026-03-11 08:58:30
德转列意甲剩余10轮各队对手平均排名:尤文难度最低,国米第6

德转列意甲剩余10轮各队对手平均排名:尤文难度最低,国米第6

懂球帝
2026-03-11 12:12:18
两架无人机坠落迪拜国际机场附近致4人受伤

两架无人机坠落迪拜国际机场附近致4人受伤

新华社
2026-03-11 16:25:02
WTT重庆冠军赛最新战报:国乒2胜2负!王曼昱惨败,日本3胜1负

WTT重庆冠军赛最新战报:国乒2胜2负!王曼昱惨败,日本3胜1负

往史过眼云烟
2026-03-11 09:45:15
未来10年,真正的“铁饭碗”来了!这8个行业,只涨不跌!

未来10年,真正的“铁饭碗”来了!这8个行业,只涨不跌!

老特有话说
2026-03-08 15:31:39
伊朗总统之子称最高领袖穆杰塔巴·哈梅内伊“平安”;此前在被炸医院举行新闻发布会,伊朗方称其会发表讲话

伊朗总统之子称最高领袖穆杰塔巴·哈梅内伊“平安”;此前在被炸医院举行新闻发布会,伊朗方称其会发表讲话

芒果都市
2026-03-11 15:21:20
乔冠华后人现状:儿子子承父业,女儿成军医,继女名字家喻户晓

乔冠华后人现状:儿子子承父业,女儿成军医,继女名字家喻户晓

林雁飞
2026-02-14 18:52:26
2026-03-11 17:15:00
字母榜 incentive-icons
字母榜
让未来不止于大。
2277文章数 8045关注度
往期回顾 全部

科技要闻

腾讯急了急了,微信绝密AI智能体首度曝光

头条要闻

博纳影业于冬被澳门永利追讨473万港元 起诉书披露

头条要闻

博纳影业于冬被澳门永利追讨473万港元 起诉书披露

体育要闻

郭艾伦重伤,CBA下半赛季还能期待些什么

娱乐要闻

杨幂连续五年为刘诗诗庆生,刘诗诗回应

财经要闻

油价大转头?一天,从末日到曙光!

汽车要闻

莲花纠偏, 冯擎峰的“收”与“守”

态度原创

亲子
本地
艺术
数码
房产

亲子要闻

家长要多关注孩子大脑!

本地新闻

这档韩国玄学综艺,让多少人看得头皮发麻

艺术要闻

这组剪纸太美了!

数码要闻

Omdia预测:无偏光片OLED面板未来7年出货年化增幅达22.7%

房产要闻

最低杀到7800元/㎡!海口2026第一波房价大调整来了!

无障碍浏览 进入关怀版