网易首页 > 网易号 > 正文 申请入驻

微调大模型:让1750亿参数"瘦身"训练的秘密

0
分享至

训练GPT-3需要多少钱?答案是:一家创业公司烧不起,一个博士生玩不起。1750亿参数,全量微调每一步都要更新全部权重,多块A100显卡才能塞下模型,几个epoch跑下来就是几千美元。

但微调后的模型确实更强。问题很现实:性能提升是真的,成本门槛也是真的。


LoRA(低秩适配)解决了这个矛盾。它不再碰那1750亿参数,而是往特定权重矩阵里塞小型可训练适配器,其余全部冻结。适配器小到只有总参数的0.1%,训练成本直接砍掉四个零——1万倍。一块消费级显卡就能跑,效果却逼近全量微调。


为什么非得微调?预训练模型懂语法、事实、推理、编程、翻译、摘要,这些是从万亿token里学来的。但它不懂你们公司的写作风格,不懂你们领域的专业术语,不懂你想要的输出格式,不懂你们特有的提示模式。微调的本质是:通用知识保留,特定行为适配。

常见微调方式有几种。全量微调更新所有参数,效果最好,成本最高。指令微调用(指令,回复)对训练,教模型听话。LoRA冻结99%参数,最实用。QLoRA是LoRA加4位量化,单卡可跑。前缀微调学习软提示拼在输入前,不改权重。适配器层插入小型瓶颈层,和LoRA思路相近但更早。

LoRA的数学很简洁。现有权重矩阵W,加上低秩矩阵B和A的乘积再缩放:W' = W + (B @ A) × scaling。只训A和B,W完全不动。秩通常设8,alpha设16,初始化A用kaiming_uniform,B置零。

代码层面,用Hugging Face的PEFT库几行就能搞定。定义LoraConfig,指定任务类型、秩、alpha、目标模块,get_peft_model包装原模型,之后训练和常规流程没区别。保存时只存适配器权重,几百MB;加载时原模型加适配器合并,推理速度和原模型一样。

QLoRA更进一步,把模型量化到4位,用双量化压缩优化器状态,分页优化器处理显存峰值。效果呢?70B模型能在单张24GB显卡上微调,达到全量微调16位训练的99.3%表现。


实际选什么?数据少、任务简单,提示工程就够了。数据几千条、任务特定,LoRA是甜点。要榨干最后一点性能,数据又够多,才考虑全量微调。QLoRA是LoRA的默认加强版,除非显卡特别大。

微调不是万能药。它教的是格式和风格,不是新事实——知识截止后的事它依然不知道。它也可能过拟合,在训练数据上表现好,泛化差。最危险的是对齐税:微调特定任务可能损害通用能力,模型变"偏科生"。

评估要盯紧几个指标。训练损失下降是基本,验证损失不上升才算没过拟合。下游任务指标最关键, Rouge分、准确率、F1,看具体任务要什么。人工看输出质量,往往比数字更准。

未来方向已经显现。DoRA把权重分解为幅度和方向,只微调方向,更稳定。LoRA-FA冻结A只训B,减少显存。MoE-LoRA给专家混合模型每层配多个LoRA,路由动态选。这些变体在特定场景各有优势,但核心思路一致:大模型不动,小模块适配。

从1750亿参数全部更新,到0.1%参数增量训练,微调技术的演进路线很清晰:用更聪明的参数效率,降低门槛,保留性能。这不是妥协,是工程上的重新设计。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
花生再次被关注!调查发现:糖尿病常吃花生不过半年或有4好处

花生再次被关注!调查发现:糖尿病常吃花生不过半年或有4好处

芹姐说生活
2026-05-15 23:37:01
阿里宣布薪资调整

阿里宣布薪资调整

第一财经资讯
2026-05-27 15:54:37
“妖股”直击:工业富联业绩亮眼,2026年一季度净利润同比增长102.55% 2025年营收超9000亿元

“妖股”直击:工业富联业绩亮眼,2026年一季度净利润同比增长102.55% 2025年营收超9000亿元

金融界
2026-05-28 16:20:18
余承东称问界M9是地球上性能最强的SUV,理想高管回应:NB

余承东称问界M9是地球上性能最强的SUV,理想高管回应:NB

识礁Farsight
2026-05-27 19:54:02
一块板子的三层命?从PCB到玻璃基板——“韬定律”的底座逻辑?

一块板子的三层命?从PCB到玻璃基板——“韬定律”的底座逻辑?

海右那人
2026-05-27 16:51:51
1美元还值多少人民币?2026年5月27日,最新人民币兑美元汇率

1美元还值多少人民币?2026年5月27日,最新人民币兑美元汇率

奇思妙想生活家
2026-05-28 21:34:50
林志玲24小时内连遭两噩耗,封杀或只是开始

林志玲24小时内连遭两噩耗,封杀或只是开始

枫尘余往逝
2026-05-28 19:48:02
2950枚导弹无一命中,霹雳-2的惨痛代价谁人知

2950枚导弹无一命中,霹雳-2的惨痛代价谁人知

起喜电影
2026-05-23 11:24:35
河北消失的河流:滹沱河——扛着自行车就能过的大河,断流40年后

河北消失的河流:滹沱河——扛着自行车就能过的大河,断流40年后

坠入二次元的海洋
2026-05-27 01:02:34
002055,连续两天“天地板”,否认与英伟达合作!金刚石散热,火爆 !概念股持续上涨

002055,连续两天“天地板”,否认与英伟达合作!金刚石散热,火爆 !概念股持续上涨

数据宝
2026-05-28 18:18:33
星舰停飞:第12次试飞被FAA定性为事故

星舰停飞:第12次试飞被FAA定性为事故

航天界
2026-05-28 22:09:21
斩首?泽连斯基住所被炸:导弹击中了停机坪,并穿透至地下停车场

斩首?泽连斯基住所被炸:导弹击中了停机坪,并穿透至地下停车场

三毛看世界
2026-05-26 19:27:41
乌克兰军队解放了哈尔科夫和苏梅附近的定居点

乌克兰军队解放了哈尔科夫和苏梅附近的定居点

一种观点
2026-05-28 22:02:27
证监会发言定乾坤!神秘力量进场护盘!A股午后反击只是开始?

证监会发言定乾坤!神秘力量进场护盘!A股午后反击只是开始?

丁丁鲤史纪
2026-05-28 18:53:50
不止花八千万欧!巴萨再迎利好,第二笔签约浮现,马竞神锋将至

不止花八千万欧!巴萨再迎利好,第二笔签约浮现,马竞神锋将至

祥谈体育
2026-05-28 15:50:42
手段已升级,中方刚摁住日本,高市内阁坐不住了,表示2个不变

手段已升级,中方刚摁住日本,高市内阁坐不住了,表示2个不变

面包夹知识
2026-05-28 22:09:48
俄罗斯这一轮对乌克兰的打击,直接震撼了整个欧洲和美国。

俄罗斯这一轮对乌克兰的打击,直接震撼了整个欧洲和美国。

安安说
2026-05-27 11:31:23
被曝停火60天后,美国锁定伊朗打击新目标,考虑重启名为“大锤”的军事行动

被曝停火60天后,美国锁定伊朗打击新目标,考虑重启名为“大锤”的军事行动

上观新闻
2026-05-28 03:54:05
酒精正在"慢性杀死"你的5个早期信号

酒精正在"慢性杀死"你的5个早期信号

有态度网友ytd2993
2026-05-26 01:19:42
5月28日俄乌:“鹰狮”战斗机要来了

5月28日俄乌:“鹰狮”战斗机要来了

山河路口
2026-05-28 18:07:43
2026-05-28 22:47:01
灰度测试中
灰度测试中
生活正在重构,目前还在灰度测试阶段,暂不全量发布。
3952文章数 32关注度
往期回顾 全部

科技要闻

利润跌27%:快手只剩“可灵”这张牌?

头条要闻

男子养了3万多只鸭子雨后被冲走2万多只:损失70多万

头条要闻

男子养了3万多只鸭子雨后被冲走2万多只:损失70多万

体育要闻

唐斯经历的一切,此刻的他与尼克斯

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

特朗普重新起诉华尔街日报 索赔百亿美元

汽车要闻

宋Ultra DM-i售12.99万起 选装天神之眼B承诺一年城市领航兜底

态度原创

房产
教育
数码
手机
公开课

房产要闻

突发重磅!三亚新机场公司正式成立!

教育要闻

搞什么鬼?才小学四年级,就开始做这样的奥数题

数码要闻

英特尔Arc G处理器发布,宏碁、微星、壹号掌机将推出首批终端

手机要闻

天玑机皇!小米17T系列真机图赏:徕卡+天玑强强联手

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版