网易首页 > 网易号 > 正文 申请入驻

LoRA数学编程任务不敌全量微调 | 哥大&Databricks新研究

0
分享至

  • 克雷西 发自 凹非寺
    量子位 | 公众号 QbitAI

大数据巨头Databricks与哥伦比亚大学最新研究发现,在数学和编程任务上,LoRA干不过全量微调

具体来说,在这两种任务中,LoRA模型的精确度只有后者的八到九成左右。

不过,作者也发现,LoRA虽然学得少,但是“记忆力”却更好,遗忘现象要比全量微调少得多。



究其原因,作者认为是数学和代码任务的特性与LoRA的低秩“八字不合”,遗忘更少也与相关。

但LoRA的一个公认的优势是训练成本更低;而且相比全量微调,能够更好地保持原有模型性能

于是,网友们的看法也自然地分成了两派:

一波人认为,单纯考虑降低成本用LoRA,表现却显著降低,这是不可接受的。



更具针对性的,有人指出,对于数学和代码这样对精度要求高的任务,一定要最大程度地保证性能,哪怕牺牲一些训练成本。



另一波机器学习工程师则认为,作者的一些实验参数设置不当,造成这种现象的原因不一定是LoRA本身。

质疑的具体理由我们放到后面详细讲解,先来看看作者的研究都有哪些发现。

学的更少,但忘的也少

实验中,作者使用7B参数的Llama2作为基础模型,在持续预训练监督微调两种模式下分别应用LoRA和全量微调,并比较了它们的表现,使用的数据集如下表:



持续预训练实验中,作者在2.5-200亿token之间共选择了8个点进行了测试;监督微调实验则是在训练1、2、4、8、16个epochs时取样;LoRA的rank取值为16和256,适配对象包括Attention、MLP和All。

结果不难看出,无论是持续预训练还是监督微调,LoRA在编程上的表现从未追上过全量微调,而且在持续预训练中,随着token数量的增加,差距越来越悬殊。

而在数学任务上的持续预训练实验中,LoRA起初表现略胜于全量微调,但也是随着token数量的增加,这种优势逐渐被反超。

这一系列结果表明,LoRA在让模型学习新知识的工作中,表现不及全量微调。



不过尽管在性能上比不过全量微调,但LoRA的遗忘现象更少,更有利于保持原有模型的能力。

换言之,如果把原始模型比作刚毕业的小学生,那么用LoRA能学到的初中知识更少,但之前的小学知识忘得也更少。

对应到应用当中,则主要在语言理解、尝试推理等基础能力中体现。

作者使用了相同的实验配置,把测试数据集更换成了HellaSwag、ARC-Challenge和Winogrande,分别测试经过代码和数学微调后的Llama2在基础任务上的表现。

结果,用代码来微调造成的“遗忘”现象更加严重,LoRA从整体上看更接近基础模型,即遗忘现象更轻。



秩是模型表现关键

作者分析了这些现象背后的原因,结果发现,在其中扮演了重要的角色。

在线性代数中,一个矩阵的秩是指其线性无关的行或列的最大数量,秩越高,所能表示的变换或关系就越复杂

同理,在深度学习中,模型的权重矩阵可以看作是将输入信息转换为输出信息的一种映射关系,这些矩阵的秩反映了模型在学习时所需的自由度或复杂度

对于LoRA来说,其学习的矩阵秩较小,对原始权重矩阵的影响也就越小,因此在适应新任务时更易保留原有知识

而在作者的实验中,低秩矩阵的特性还体现为了更强的正则化能力和生成多样性。



至于为什么LoRA在学习新知识上表现不如全量微调,原因同样和秩相关。

作者对在Llama2上用StarCoder-Python数据集进行持续预训练过程中各个阶段的权重矩阵进行了奇异值分解。

结果发现,即使在训练的早期阶段,全面微调学到的权重扰动矩阵的秩就是LoRA常用秩的10-100倍,这表明在编程任务上,全面微调需要学习高秩的权重扰动以适应目标领域;而且随着训练的进行,权重扰动矩阵的秩还会持续增长。

也就是说,此类任务的高秩需求,注定无法与LoRA的低秩特性相匹配,表现不佳也就不是什么意外之事了。



实验中的另一个现象是,虽然同样比不过全量微调,但数学任务中两者的差距相比代码任务更小,作者推测可能有两方面原因:

  • 首先还是和秩相关,作者认为数学任务相比于代码更接近于预训练数据,因此秩也相对更低。
  • 另一个原因,则是目前的GSM8K数据集可能挑战性不够,对模型考察不充分,这可能也是导致出现一开始LoRA超过全量微调的原因。
ML工程师提出质疑

不过对作者的实验,有人指出了实验的参数设置存在不合理之处。

首先提出质疑的,是模型微调和训练平台UnslothAI创始人、前英伟达ML工程师Daniel Han。



Daniel首先指出,论文中的LoRA实验只适配了QKVO、up和down矩阵,没有适配gate_proj矩阵。

如果LoRA没有对gate_proj进行适配,那么FFN模块的大部分权重实际上没有被优化,这可能限制了LoRA在编程任务上的表现。

至于数学能力好一些而在编程任务上表现不佳的原因,可能是lm_head和embed_tokens层没有进行适配训练,因此领域转移没有被很好地建模。

lm_head和embed_tokens层分别对应了语言模型的输出和输入嵌入,它们与具体领域的词汇和表达密切相关。如果这两个层没有被LoRA适配,那么模型在新领域的词汇和表达习惯上的适应能力就会受限。

另一方面,Daniel认为编程任务的超参数设置也有问题,比如秩为256时α值设得太小了,导致适配矩阵的值可能难以得到有效更新。



总结一下就是,LoRA在这些任务上的表现不如全量微调的原因,可能不是出在LoRA本身。

同时Daniel还表示,有论文指出LoftQ和PiSSA使用奇异值分解(SVD)来初始化LoRA矩阵,据称可以使LoRA达到与全面微调相当的性能。

另一名ML工程师附和了Daniel的观点,同时还针对LoRA的应用给出了一些具体建议:

  • LoRA更适用于监督微调而不是持续预训练
  • 对于LoRA来说,0.0005(代码)或0.0002(数学)的学习率是最佳的
  • 应用LoRA时,优先选择同时适配MLP和Attention,其次单独MLP,最后单独Attention



总之,虽然出现了论文中的结果,但LoRA仍然是一项重要的技术,而且能够显著降低训练成本,所以做好性能和资源的权衡,该用还是得用。

关于LoRA,你还有什么看法或经验,欢迎评论区交流。

论文地址:
https://arxiv.org/abs/2405.09673
参考链接:
[1]https://x.com/danielhanchen/status/1791900967472140583
[2]https://x.com/Prince_Canuma/status/1791908092919091232

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不是杨鸣,不是郭士强!男篮主教练基本确定,球迷都怕挨骂

不是杨鸣,不是郭士强!男篮主教练基本确定,球迷都怕挨骂

十点体坛
2024-06-14 22:38:49
同进全球数学竞赛决赛的博士生曝比赛细节,赞“姜萍厉害”

同进全球数学竞赛决赛的博士生曝比赛细节,赞“姜萍厉害”

澎湃新闻
2024-06-14 18:46:28
克罗斯第50分钟出现本场唯一一次传球失误,解说调侃:珍藏品

克罗斯第50分钟出现本场唯一一次传球失误,解说调侃:珍藏品

直播吧
2024-06-15 06:57:20
网传银行女职员拍视频深情表白行长,被行长误发管理群

网传银行女职员拍视频深情表白行长,被行长误发管理群

天涯社区
2024-06-14 18:51:20
3-0!中国女排横扫德国夺两连胜,朱婷成万花筒,王媛媛拦网建功

3-0!中国女排横扫德国夺两连胜,朱婷成万花筒,王媛媛拦网建功

体坛纪录片
2024-06-14 21:53:51
国足再添3位归化!算上现有的共7位,目标:进入世界杯8强

国足再添3位归化!算上现有的共7位,目标:进入世界杯8强

十点体坛
2024-06-14 22:42:32
都扛不住了…

都扛不住了…

子木聊房啊
2024-06-14 18:35:29
恒大前总裁夏海钧亏损7800万港元出售香港豪宅,本人为加拿大国籍,目前行踪未知

恒大前总裁夏海钧亏损7800万港元出售香港豪宅,本人为加拿大国籍,目前行踪未知

每日经济新闻
2024-06-14 13:02:10
卫健委的倡议,何故引来群嘲?

卫健委的倡议,何故引来群嘲?

林孤小姐
2024-06-14 14:04:23
闹大了!黄一鸣再曝猛料:不只生了一个孩子!这下王思聪麻烦大了

闹大了!黄一鸣再曝猛料:不只生了一个孩子!这下王思聪麻烦大了

校长侃财
2024-06-14 12:54:40
尴尬!颜宁现身武大演讲,学生叫院士遭打断并纠正,网友炸锅了

尴尬!颜宁现身武大演讲,学生叫院士遭打断并纠正,网友炸锅了

凯旋学长
2024-06-14 18:12:49
孙兴慜为什么赛后拥抱王大雷?韩国网友说出了真相

孙兴慜为什么赛后拥抱王大雷?韩国网友说出了真相

开心体育站
2024-06-14 19:35:15
2-1到5-2!瑞士队太狠了,拼德国队争小组第1,已连续5届大赛晋级

2-1到5-2!瑞士队太狠了,拼德国队争小组第1,已连续5届大赛晋级

叁炮体育
2024-06-15 00:13:56
又赚到了!孟加拉四处炫耀中国给建的大桥:开通当天过路费破千万

又赚到了!孟加拉四处炫耀中国给建的大桥:开通当天过路费破千万

咖啡店的老板娘
2024-06-14 18:48:06
万人起立致敬!欧洲杯34岁大师表演:30米神传策动,4项第1

万人起立致敬!欧洲杯34岁大师表演:30米神传策动,4项第1

叶青足球世界
2024-06-15 05:17:19
人民日报送祝贺:中国女排3-0德国取连胜 超万名球迷观战朱婷13分

人民日报送祝贺:中国女排3-0德国取连胜 超万名球迷观战朱婷13分

颜小白的篮球梦
2024-06-14 22:00:36
王思聪黄一鸣牵手照曝光,黄一鸣挺着大孕肚,挑选母婴用品!

王思聪黄一鸣牵手照曝光,黄一鸣挺着大孕肚,挑选母婴用品!

古希腊掌管月桂的神
2024-06-13 11:13:29
王思聪拒认私生子后续:日本游玩美女相伴,粉色鞋子显眼心情大好

王思聪拒认私生子后续:日本游玩美女相伴,粉色鞋子显眼心情大好

娱乐白名单
2024-06-13 13:08:01
面具下的普京,20年来对乌克兰干了什么?

面具下的普京,20年来对乌克兰干了什么?

史政先锋
2024-06-13 15:31:40
河南恶霸用铁锹将一岁女童拍致丧命,外公开颅昏迷!知情人曝内幕

河南恶霸用铁锹将一岁女童拍致丧命,外公开颅昏迷!知情人曝内幕

林大师热点
2024-06-14 18:19:16
2024-06-15 07:32:49
量子位
量子位
追踪人工智能动态
9530文章数 175379关注度
往期回顾 全部

科技要闻

马斯克重获信任 豪言特斯拉市值超10个苹果

头条要闻

欧洲杯-维尔茨斩首球哈弗茨破门 德国5-1苏格兰

头条要闻

欧洲杯-维尔茨斩首球哈弗茨破门 德国5-1苏格兰

体育要闻

我们为什么还爱欧洲杯?

娱乐要闻

江宏杰秀儿女刺青,不怕刺激福原爱?

财经要闻

“石油美元”协议走向终结 影响几何?

汽车要闻

提供100/240kW双电机版本车型 乐道L60实车曝光

态度原创

本地
健康
房产
家居
公开课

本地新闻

粽情一夏|海河龙舟赛,竟然成了外国人的大party!

晚餐不吃or吃七分饱,哪种更减肥?

房产要闻

万华对面!海口今年首宗超百亩宅地,重磅挂出!

家居要闻

空谷来音 朴素留白的侘寂之美

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版