网易首页 > 网易号 > 正文 申请入驻

优化LoRA目标模块选择实现高效微调

0
分享至


在特定任务上微调大语言模型需要更新数十亿个参数,跨越万亿个Token,这带来了巨大的GPU资源和时间成本。

低秩自适应(LoRA)是一种更高效的替代方案,它冻结原始模型权重,但在特定模型子层或"模块"中引入轻量级矩阵。这些矩阵(通常称为"适配器")修改模块权重,不仅实现了高效微调,还支持按需模型服务,大幅降低推理成本;支持跨GPU共享基础模型,减少内存需求;降低下载开销;以及支持多个适配器的并行推理。

关键问题在于在模型中何处插入这些适配器。从经验上看,针对更多更大的模块往往能提升性能,因为这允许更多的定制化灵活性;但也会增加训练和推理成本。使用精心选择的较小子集可以在显著提高效率的同时保持大部分收益。

使用亚马逊的Nova 2.0 Lite多模态推理大语言模型作为基础模型,我们设定了一个目标:识别一套在绝大多数客户用例中有效工作的标准化目标模块配置子集。通过消融研究,我们确定了一个名为o_proj的模块,作为添加适配器时在效率和准确性之间实现最佳平衡的单一模块(o_proj是一个线性变换,它将注意力头的表示混合成一个单一、连贯的形式,供模型的其余部分理解)。

Transformer架构解析

Transformer模型——负责AI所有显著进展的模型——主要由多次重复的块组成。每个块又有两个主要组件:注意力机制,它确定先前看到的Token对当前处理Token的相关性;以及前馈网络,一个对注意力机制输出进行额外处理的传统神经网络。

注意力机制涉及三个不同的矩阵,它们的名称来自数据库设计:查询矩阵表示当前Token与输入序列中其他Token的相关性;键矩阵表示其他Token彼此之间的相关性;值矩阵表示这些其他Token的原始内容。将三个矩阵相乘基本上创建了Transformer下一个输出的配方。

为了减少计算复杂性,这些乘法在降维空间中进行。矩阵本身及其乘法结果然后必须投影回输入的原始维度。

LoRA使用两个较小矩阵的乘积来近似权重更新,大幅减少了可训练参数的数量。该技术通常应用于注意力投影层和前馈网络层。这些模块是理想的候选者,因为它们构成了Transformer参数的大部分,直接管理表示学习,并与低秩近似自然对齐。经验证据表明,这些层中的权重变化在微调过程中通常位于低维子空间内。

目标模块选择策略

选择正确的目标模块直接影响准确性、延迟和计算效率。目标模块的最优选择主要是以下因素的函数:(a)被微调的基础模型(即其架构、预训练和后训练数据分布等)和(b)定制化领域/模态。

在微调Nova 2.0 Lite时,我们平衡了两个相互竞争的目标:在多样化任务和模态中最大化准确性;最小化延迟以保持LoRA的效率优势。

我们研究了LoRA在每个Transformer块中四个不同模块的应用:查询、键和值投影层(qkv);o_proj层;以及前馈网络中的两个不同全连接层gate_up_proj和gate_down_proj(称为fc1和fc2)。以下是基于文献发表结果和经验研究,这些模块单独和组合使用的权衡:

qkv单独使用:准确性良好(基线),延迟最低,适用于资源受限环境;o_proj单独使用:准确性中等,延迟最低,适用于超低延迟场景;qkv + o_proj:准确性高,延迟低到中等,适用于注意力聚焦任务;qkv + fc1/fc2:准确性非常高,延迟中等,适用于复杂生成任务;qkv + o_proj + fc1/fc2:准确性最高,延迟高,适用于关键任务的最大准确性。

实验设计与结果

我们进行了全面的消融研究,在涵盖文本和视觉数据的七个数据集上训练多个监督微调LoRA变体,跨越推理和非推理任务。数据集涵盖了从简单问答到长上下文摘要和结构化JSON提取的多样化挑战。

实验数据集包括:FinCOT(金融推理)、GovReport(政府文档摘要)、MedMCQA(医学多选题)、MedReason(医学推理)、CoCoHD(政治文档复杂基准)、Llava-COT(多模态图像理解)、Invoice OCR(发票光学字符识别)。

所有实验都使用Nova 2.0 Lite通用可用性检查点,在目标模块间使用一致的超参数,包括学习率比例和alpha值。

核心发现

通过详细的实验分析,我们得出了几个重要发现:

o_proj是最稳健的单一目标。o_proj单独配置表现出了卓越的一致性,在任何任务上都从未完全失败,通常在最佳配置(即使用所有目标模块)的几个百分点内表现。在MedMCQA、CoCoHD、GovReport、LLaVA-CoT和Invoice OCR上,o_proj单独配置要么匹配要么非常接近最优性能,使其成为平衡性能和简单性的有吸引力的默认选择。

qkv单独显示不稳定性。虽然qkv单独在MedMCQA上表现良好,但它表现出极端的可变性,在CoCoHD上表现低于基线,在其他地方显示平庸的结果。这与假设一致,即仅注意力LoRA可能在需要来自前馈网络的更丰富特征的任务上欠拟合。

模块组合提供适度收益。像o_proj + fc2或"所有目标模块"这样的组合通常实现了最高的每数据集分数。然而,相比最佳单一模块的改进通常是适度的,通常为1-3个百分点。

任务难度放大配置影响。在基础模型表现不佳的挑战性基准上,目标模块的选择产生了更大的影响。例如,在CoCoHD(长上下文、复杂JSON生成)上,o_proj + fc2相比基础模型实现了+15%的绝对改进,而o_proj单独只有+3%。

推荐配置

基于我们的研究结果,我们提出以下推荐:

对于优先考虑准确性的场景,我们推荐o_proj + fc2作为文本和多模态任务的最优配置,在各基准上相比o_proj单独显示2-12%的改进。

对于平衡效率和性能,o_proj单独提供了优秀的默认选择,以最小的延迟开销提供稳健的性能——在服务多个适配器或在资源约束下操作时特别有价值。

对于挑战性任务,如长上下文或复杂生成要求的基准或基础模型困难的其他任务,o_proj + fc2的额外准确性证明了适度的延迟增加是合理的。

我们的综合研究表明,在LoRA微调中经过深思熟虑的目标模块选择可以在保持LoRA对生产部署有吸引力的效率优势的同时提高准确性。o_proj层作为一个非常稳健的单一目标出现,而o_proj + fc2组合为挑战性任务提供了最佳准确性。平均而言,o_proj LoRA在准确性方面与o_proj + fc2相差2%以内,但延迟降低了22.6%。这些发现为跨多样化客户用例标准化LoRA配置提供了原则性基础,平衡了模型性能和计算效率的竞争需求。

Q&A

Q1:LoRA是什么?为什么要使用LoRA进行大语言模型微调?

A:LoRA(低秩自适应)是一种高效的模型微调技术,它冻结原始模型权重,在特定模块中引入轻量级矩阵(适配器)来修改权重。相比传统微调需要更新数十亿参数,LoRA大幅减少了可训练参数数量,降低GPU资源和时间成本,同时支持按需模型服务、跨GPU共享基础模型,并实现多个适配器的并行推理。

Q2:o_proj模块为什么在LoRA微调中表现最好?

A:o_proj是一个线性变换模块,将注意力头的表示混合成连贯形式供模型理解。研究发现o_proj在所有测试任务中表现出卓越的一致性,从未完全失败,通常在最佳配置的几个百分点内表现。有证据表明该模块在推理中发挥关键作用,这可能解释了它的有效性。作为单一目标,它提供了性能和简单性的最佳平衡。

Q3:在什么情况下应该选择o_proj + fc2组合而不是单独使用o_proj?

A:当任务对准确性要求较高,特别是在长上下文、复杂生成要求或基础模型表现困难的挑战性任务中,应选择o_proj + fc2组合。虽然这种组合比单独使用o_proj延迟增加约22.6%,但在各基准测试中可提供2-12%的准确性改进。对于平衡效率和性能的常规场景,o_proj单独使用仍是最佳选择。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不受梅西待见的意甲金靴,沦为阿根廷队边缘人,那是纯属咎由自取

不受梅西待见的意甲金靴,沦为阿根廷队边缘人,那是纯属咎由自取

足篮大世界
2026-05-30 22:20:47
看完网友的三观炸裂经历,下巴都惊掉地上了!

看完网友的三观炸裂经历,下巴都惊掉地上了!

夜深爱杂谈
2026-05-29 07:53:20
王玉雯带火一种穿搭叫白色拉链开衫+白色抽绳工装裤,黑长直巨美

王玉雯带火一种穿搭叫白色拉链开衫+白色抽绳工装裤,黑长直巨美

明星私服穿搭daily
2026-06-01 00:03:14
巴塞罗那为阿森纳目标标价2500万欧,已开启出售可能

巴塞罗那为阿森纳目标标价2500万欧,已开启出售可能

日常碎碎念啊
2026-06-01 01:54:46
马龙一家在环球影城!俩儿子参加斯巴达比赛,夏露有马甲线妊娠纹

马龙一家在环球影城!俩儿子参加斯巴达比赛,夏露有马甲线妊娠纹

眼底星碎
2026-05-31 20:06:46
1984年奔驰500SEC:原主守护四十载,2.2万英里的时光胶囊

1984年奔驰500SEC:原主守护四十载,2.2万英里的时光胶囊

星河漫山野
2026-05-31 01:38:05
《主角》西安拍摄地50元人挤人,原生态古镇拍摄地免费,却没人

《主角》西安拍摄地50元人挤人,原生态古镇拍摄地免费,却没人

云水终南
2026-06-01 00:04:50
《关于进一步深化国资国企改革的方案(2026—2029年)》已经下发

《关于进一步深化国资国企改革的方案(2026—2029年)》已经下发

财联社
2026-05-31 18:23:09
华人女生在伯克利毕业演讲刷屏了!求学的意义不止学知识,更要懂人心

华人女生在伯克利毕业演讲刷屏了!求学的意义不止学知识,更要懂人心

留学生日报
2026-05-30 19:37:33
洪秀柱郑丽文联手支持内鬼,欲拉萧旭岑下马

洪秀柱郑丽文联手支持内鬼,欲拉萧旭岑下马

花颜蕴韵
2026-05-31 12:14:24
花了4亿,0座欧冠;花了8000万,2座——巴黎的钱到底花给谁了?

花了4亿,0座欧冠;花了8000万,2座——巴黎的钱到底花给谁了?

圣西罗的太阳
2026-05-31 13:30:37
65岁老人120万元买基金,亏了70多万元!法院:银行承担70%赔偿责任

65岁老人120万元买基金,亏了70多万元!法院:银行承担70%赔偿责任

新民晚报
2026-05-31 14:46:55
破“唯论文”桎梏:南京大学首位没有“毕业论文”的博士答辩通过

破“唯论文”桎梏:南京大学首位没有“毕业论文”的博士答辩通过

澎湃新闻
2026-05-31 17:18:31
时代芯存重磅时刻:首台光刻机正式进场 设备调试全面启动

时代芯存重磅时刻:首台光刻机正式进场 设备调试全面启动

快科技
2026-05-31 22:28:11
法网第8比赛日综述:王曦雨止步16强,赛会四冠王斯瓦泰克出局

法网第8比赛日综述:王曦雨止步16强,赛会四冠王斯瓦泰克出局

全景体育V
2026-06-01 06:37:02
广东一男子为控制血糖,每天坚持走10000步,一年后他的身体咋样

广东一男子为控制血糖,每天坚持走10000步,一年后他的身体咋样

坠入二次元的海洋
2026-05-31 12:40:54
揪心!广西18岁女子深夜公园失联,转账留言告别后,目前已近四天

揪心!广西18岁女子深夜公园失联,转账留言告别后,目前已近四天

奇思妙想草叶君
2026-05-31 21:20:58
仅三天休息时间,总决赛前瞻:马刺篇!年轻,从来不是失败代名词

仅三天休息时间,总决赛前瞻:马刺篇!年轻,从来不是失败代名词

老梁体育漫谈
2026-06-01 01:05:08
德比斯连续2场排第8 张雪亲承赛车有短板:正在改进 下一代会更强

德比斯连续2场排第8 张雪亲承赛车有短板:正在改进 下一代会更强

风过乡
2026-06-01 05:49:14
这3道菜才是血管的"清道夫",血管越吃越干净,中老年常吃身体棒

这3道菜才是血管的"清道夫",血管越吃越干净,中老年常吃身体棒

江江食研社
2026-05-30 20:30:04
2026-06-01 07:32:49
至顶科技 incentive-icons
至顶科技
科技产业媒体与 AI 产业服务机构
18906文章数 49707关注度
往期回顾 全部

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

头条要闻

伊朗总统被指已向最高领袖提出辞职 官方回应

头条要闻

伊朗总统被指已向最高领袖提出辞职 官方回应

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

朱军退休,正义虽迟但到,女方受惩

财经要闻

医学首席转岗搞科技,A股科技股遭遇巨震

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

房产
健康
亲子
手机
数码

房产要闻

红动五月!全国抢入核心资产,广州盯紧凯旋新世界!

尝试干细胞疗法如何避免踩坑?

亲子要闻

幼童高烧半月险窒息,竟是一根带鱼刺“游”进了脖颈深处!

手机要闻

中高端爆款 传OPPO Reno16首销登顶安卓销量榜

数码要闻

苹果眼镜最新爆料:多款式设计,内部代号N50,延期2027年底发布

无障碍浏览 进入关怀版