网易首页 > 网易号 > 正文 申请入驻

优化LoRA目标模块选择实现高效微调

0
分享至


在特定任务上微调大语言模型需要更新数十亿个参数,跨越万亿个Token,这带来了巨大的GPU资源和时间成本。

低秩自适应(LoRA)是一种更高效的替代方案,它冻结原始模型权重,但在特定模型子层或"模块"中引入轻量级矩阵。这些矩阵(通常称为"适配器")修改模块权重,不仅实现了高效微调,还支持按需模型服务,大幅降低推理成本;支持跨GPU共享基础模型,减少内存需求;降低下载开销;以及支持多个适配器的并行推理。

关键问题在于在模型中何处插入这些适配器。从经验上看,针对更多更大的模块往往能提升性能,因为这允许更多的定制化灵活性;但也会增加训练和推理成本。使用精心选择的较小子集可以在显著提高效率的同时保持大部分收益。

使用亚马逊的Nova 2.0 Lite多模态推理大语言模型作为基础模型,我们设定了一个目标:识别一套在绝大多数客户用例中有效工作的标准化目标模块配置子集。通过消融研究,我们确定了一个名为o_proj的模块,作为添加适配器时在效率和准确性之间实现最佳平衡的单一模块(o_proj是一个线性变换,它将注意力头的表示混合成一个单一、连贯的形式,供模型的其余部分理解)。

Transformer架构解析

Transformer模型——负责AI所有显著进展的模型——主要由多次重复的块组成。每个块又有两个主要组件:注意力机制,它确定先前看到的Token对当前处理Token的相关性;以及前馈网络,一个对注意力机制输出进行额外处理的传统神经网络。

注意力机制涉及三个不同的矩阵,它们的名称来自数据库设计:查询矩阵表示当前Token与输入序列中其他Token的相关性;键矩阵表示其他Token彼此之间的相关性;值矩阵表示这些其他Token的原始内容。将三个矩阵相乘基本上创建了Transformer下一个输出的配方。

为了减少计算复杂性,这些乘法在降维空间中进行。矩阵本身及其乘法结果然后必须投影回输入的原始维度。

LoRA使用两个较小矩阵的乘积来近似权重更新,大幅减少了可训练参数的数量。该技术通常应用于注意力投影层和前馈网络层。这些模块是理想的候选者,因为它们构成了Transformer参数的大部分,直接管理表示学习,并与低秩近似自然对齐。经验证据表明,这些层中的权重变化在微调过程中通常位于低维子空间内。

目标模块选择策略

选择正确的目标模块直接影响准确性、延迟和计算效率。目标模块的最优选择主要是以下因素的函数:(a)被微调的基础模型(即其架构、预训练和后训练数据分布等)和(b)定制化领域/模态。

在微调Nova 2.0 Lite时,我们平衡了两个相互竞争的目标:在多样化任务和模态中最大化准确性;最小化延迟以保持LoRA的效率优势。

我们研究了LoRA在每个Transformer块中四个不同模块的应用:查询、键和值投影层(qkv);o_proj层;以及前馈网络中的两个不同全连接层gate_up_proj和gate_down_proj(称为fc1和fc2)。以下是基于文献发表结果和经验研究,这些模块单独和组合使用的权衡:

qkv单独使用:准确性良好(基线),延迟最低,适用于资源受限环境;o_proj单独使用:准确性中等,延迟最低,适用于超低延迟场景;qkv + o_proj:准确性高,延迟低到中等,适用于注意力聚焦任务;qkv + fc1/fc2:准确性非常高,延迟中等,适用于复杂生成任务;qkv + o_proj + fc1/fc2:准确性最高,延迟高,适用于关键任务的最大准确性。

实验设计与结果

我们进行了全面的消融研究,在涵盖文本和视觉数据的七个数据集上训练多个监督微调LoRA变体,跨越推理和非推理任务。数据集涵盖了从简单问答到长上下文摘要和结构化JSON提取的多样化挑战。

实验数据集包括:FinCOT(金融推理)、GovReport(政府文档摘要)、MedMCQA(医学多选题)、MedReason(医学推理)、CoCoHD(政治文档复杂基准)、Llava-COT(多模态图像理解)、Invoice OCR(发票光学字符识别)。

所有实验都使用Nova 2.0 Lite通用可用性检查点,在目标模块间使用一致的超参数,包括学习率比例和alpha值。

核心发现

通过详细的实验分析,我们得出了几个重要发现:

o_proj是最稳健的单一目标。o_proj单独配置表现出了卓越的一致性,在任何任务上都从未完全失败,通常在最佳配置(即使用所有目标模块)的几个百分点内表现。在MedMCQA、CoCoHD、GovReport、LLaVA-CoT和Invoice OCR上,o_proj单独配置要么匹配要么非常接近最优性能,使其成为平衡性能和简单性的有吸引力的默认选择。

qkv单独显示不稳定性。虽然qkv单独在MedMCQA上表现良好,但它表现出极端的可变性,在CoCoHD上表现低于基线,在其他地方显示平庸的结果。这与假设一致,即仅注意力LoRA可能在需要来自前馈网络的更丰富特征的任务上欠拟合。

模块组合提供适度收益。像o_proj + fc2或"所有目标模块"这样的组合通常实现了最高的每数据集分数。然而,相比最佳单一模块的改进通常是适度的,通常为1-3个百分点。

任务难度放大配置影响。在基础模型表现不佳的挑战性基准上,目标模块的选择产生了更大的影响。例如,在CoCoHD(长上下文、复杂JSON生成)上,o_proj + fc2相比基础模型实现了+15%的绝对改进,而o_proj单独只有+3%。

推荐配置

基于我们的研究结果,我们提出以下推荐:

对于优先考虑准确性的场景,我们推荐o_proj + fc2作为文本和多模态任务的最优配置,在各基准上相比o_proj单独显示2-12%的改进。

对于平衡效率和性能,o_proj单独提供了优秀的默认选择,以最小的延迟开销提供稳健的性能——在服务多个适配器或在资源约束下操作时特别有价值。

对于挑战性任务,如长上下文或复杂生成要求的基准或基础模型困难的其他任务,o_proj + fc2的额外准确性证明了适度的延迟增加是合理的。

我们的综合研究表明,在LoRA微调中经过深思熟虑的目标模块选择可以在保持LoRA对生产部署有吸引力的效率优势的同时提高准确性。o_proj层作为一个非常稳健的单一目标出现,而o_proj + fc2组合为挑战性任务提供了最佳准确性。平均而言,o_proj LoRA在准确性方面与o_proj + fc2相差2%以内,但延迟降低了22.6%。这些发现为跨多样化客户用例标准化LoRA配置提供了原则性基础,平衡了模型性能和计算效率的竞争需求。

Q&A

Q1:LoRA是什么?为什么要使用LoRA进行大语言模型微调?

A:LoRA(低秩自适应)是一种高效的模型微调技术,它冻结原始模型权重,在特定模块中引入轻量级矩阵(适配器)来修改权重。相比传统微调需要更新数十亿参数,LoRA大幅减少了可训练参数数量,降低GPU资源和时间成本,同时支持按需模型服务、跨GPU共享基础模型,并实现多个适配器的并行推理。

Q2:o_proj模块为什么在LoRA微调中表现最好?

A:o_proj是一个线性变换模块,将注意力头的表示混合成连贯形式供模型理解。研究发现o_proj在所有测试任务中表现出卓越的一致性,从未完全失败,通常在最佳配置的几个百分点内表现。有证据表明该模块在推理中发挥关键作用,这可能解释了它的有效性。作为单一目标,它提供了性能和简单性的最佳平衡。

Q3:在什么情况下应该选择o_proj + fc2组合而不是单独使用o_proj?

A:当任务对准确性要求较高,特别是在长上下文、复杂生成要求或基础模型表现困难的挑战性任务中,应选择o_proj + fc2组合。虽然这种组合比单独使用o_proj延迟增加约22.6%,但在各基准测试中可提供2-12%的准确性改进。对于平衡效率和性能的常规场景,o_proj单独使用仍是最佳选择。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗越打越猛!美媒问了中国一个敏感问题,毛宁的回答水平很高

伊朗越打越猛!美媒问了中国一个敏感问题,毛宁的回答水平很高

人生录
2026-04-05 12:35:37
心脏决定寿命!建议:别太节俭,多吃这3种食物,让心脏变年轻

心脏决定寿命!建议:别太节俭,多吃这3种食物,让心脏变年轻

阿龙美食记
2026-03-23 20:16:13
毕业生破1270万!2026下半年开始,大部分家庭将直面“4大难题”

毕业生破1270万!2026下半年开始,大部分家庭将直面“4大难题”

复转这些年
2026-04-05 18:00:42
盼了好久!房山东站挂牌了!预计6月竣工,进城通勤要爽了!

盼了好久!房山东站挂牌了!预计6月竣工,进城通勤要爽了!

家住房山
2026-04-05 19:50:51
毛远新出狱常落泪,晚年享双重优待,身世与人生起落藏内情

毛远新出狱常落泪,晚年享双重优待,身世与人生起落藏内情

唠叨说历史
2026-03-10 12:40:40
全球沦陷,旧时代丧钟敲响,金融时报指向中国:这里是唯一避风港

全球沦陷,旧时代丧钟敲响,金融时报指向中国:这里是唯一避风港

阿讯说天下
2026-04-03 15:32:52
陕西将迎新一轮大范围降水!7日起,小雨、局地中到大雨,最新预报→

陕西将迎新一轮大范围降水!7日起,小雨、局地中到大雨,最新预报→

大风新闻
2026-04-05 21:00:07
独一档,本赛季单场1球、双响、戴帽数五大联赛球员凯恩均第1

独一档,本赛季单场1球、双响、戴帽数五大联赛球员凯恩均第1

懂球帝
2026-04-06 03:33:07
大案纪实:沦丧的亲情,变态儿子竟向母亲伸出魔爪

大案纪实:沦丧的亲情,变态儿子竟向母亲伸出魔爪

莫地方
2026-04-04 15:06:36
台湾问题将突破“临界点”?两大迹象早已表明,大陆或准备动手了

台湾问题将突破“临界点”?两大迹象早已表明,大陆或准备动手了

一家说
2026-04-06 00:07:46
随着穆帅头号争冠劲敌2-2,布拉加1-0,葡超最新积分榜出炉

随着穆帅头号争冠劲敌2-2,布拉加1-0,葡超最新积分榜出炉

凌空倒钩
2026-04-05 07:23:34
女同事说她胖了,反正我没看出来,你们看出来吗?

女同事说她胖了,反正我没看出来,你们看出来吗?

太急张三疯
2026-02-17 08:26:36
“失温缺氧,有人裹垃圾袋保暖”,大量游客被困山顶!云南知名景区回应

“失温缺氧,有人裹垃圾袋保暖”,大量游客被困山顶!云南知名景区回应

上观新闻
2026-04-05 22:08:18
鲜花寄哀思!清明前夕民众缅怀吴石将军,故居留言墙满是期盼“台湾回归,祖国统一”

鲜花寄哀思!清明前夕民众缅怀吴石将军,故居留言墙满是期盼“台湾回归,祖国统一”

极目新闻
2026-04-04 22:52:18
惊!刘嘉玲看到这张照片,估计也会吃醋的吧

惊!刘嘉玲看到这张照片,估计也会吃醋的吧

喜欢历史的阿繁
2026-04-02 18:14:35
古籍记载龙长虎短手相 无名指更长之人晚年多有四种人生结局

古籍记载龙长虎短手相 无名指更长之人晚年多有四种人生结局

唠叨说历史
2026-03-31 14:25:43
美议员:公开外星人简报将让国家混乱,近两年5名顶尖科学家失踪或死亡恐与此有关

美议员:公开外星人简报将让国家混乱,近两年5名顶尖科学家失踪或死亡恐与此有关

红星新闻
2026-04-04 19:31:34
张柏芝英歌舞首秀杀疯了!粉色战袍刚柔并济,这才是顶流有的底气

张柏芝英歌舞首秀杀疯了!粉色战袍刚柔并济,这才是顶流有的底气

橙星文娱
2026-04-05 11:20:03
日本恐将闯下大祸?刚放行3艘油船,一伊朗人就在日本被活活打死

日本恐将闯下大祸?刚放行3艘油船,一伊朗人就在日本被活活打死

有你的星空
2026-04-05 23:19:24
许家印,在恒大王国里,过足了官瘾、钱瘾、色瘾,金蝉脱壳玩死了

许家印,在恒大王国里,过足了官瘾、钱瘾、色瘾,金蝉脱壳玩死了

历史伟人录
2026-04-01 17:55:34
2026-04-06 04:52:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
17425文章数 49697关注度
往期回顾 全部

科技要闻

花200薅5千算力,Claude冷血断供“龙虾”

头条要闻

伊朗官员提开放霍尔木兹海峡条件

头条要闻

伊朗官员提开放霍尔木兹海峡条件

体育要闻

CBA最老球员,身价7500万美元

娱乐要闻

王灿兮否认婆媳不和 晒与杜淳妈合影

财经要闻

谁造出了优思益这头“怪物”?

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

旅游
本地
亲子
艺术
手机

旅游要闻

文明旅游|清明出游请注意!莫让这些不文明行为煞风景!

本地新闻

跟着歌声游安徽,听古村回响

亲子要闻

小英自曝给女儿剪短发原因!怕头发抢营养长不高,想剃光头太真实

艺术要闻

高210米,砸13亿!厦门“矿泉水瓶大楼”即将建成!

手机要闻

OPPO Find X9s Pro银色哈苏专业增距镜亮相:观赛神器 颜值拉满

无障碍浏览 进入关怀版