网易首页 > 网易号 > 正文 申请入驻

比LoRA还快50%!一张3090超越全参调优,UIUC联合LMFlow提出LISA

0
分享至

机器之心专栏

机器之心编辑部

2022 年底,随着 ChatGPT 的爆火,人类正式进入了大模型时代。然而,训练大模型需要的时空消耗依然居高不下,给大模型的普及和发展带来了巨大困难。面对这一挑战,原先在计算机视觉领域流行的 LoRA 技术成功转型大模型 [1][2],带来了接近 2 倍的时间加速和理论最高 8 倍的空间压缩,将微调技术带进千家万户。

但 LoRA 技术仍存在一定的挑战。一是 LoRA 技术在很多任务上还没有超过正常的全参数微调 [2][3][4],二是 LoRA 的理论性质分析比较困难,给其进一步的研究带来了阻碍。

UIUC 联合 LMFlow 团队成员对 LoRA 的实验性质进行了分析,意外发现 LoRA 非常侧重 LLM 的底层和顶层的权重。利用这一特性,LMFlow 团队提出一个极其简洁的算法:Layerwise Importance Sampled AdamW(LISA)。

  • 论文链接:https://arxiv.org/abs/2403.17919
  • 开源地址:https://github.com/OptimalScale/LMFlow

LISA 介绍

LISA 算法的核心在于:

- 始终更新底层 embedding 和顶层 linear head;

- 随机更新少数中间的 self-attention 层,比如 2-4 层。

出乎意料的是,实验发现该算法在指令微调任务上超过 LoRA 甚至全参数微调。

更重要的是,其空间消耗和 LoRA 相当甚至更低。70B 的总空间消耗降低到了 80G*4,而 7B 则直接降到了单卡 24G 以下!

进一步的,因为 LISA 每次中间只会激活一小部分参数,算法对更深的网络,以及梯度检查点技术(Gradient Checkpointing)也很友好,能够带来更大的空间节省。

在指令微调任务上,LISA 的收敛性质比 LoRA 有很大提升,达到了全参数调节的水平。

而且,由于不需要像 LoRA 一样引入额外的 adapter 结构,LISA 的计算量小于 LoRA,速度比 LoRA 快将近 50%。

理论性质上,LISA 也比 LoRA 更容易分析,Gradient Sparsification、Importance Sampling、Randomized Block-Coordinate Descent 等现有优化领域的数学工具都可以用于分析 LISA 及其变种的收敛性质。

一键使用 LISA

为了贡献大模型开源社区,LMFlow 现已集成 LISA,安装完成后只需一条指令就可以使用 LISA 进行微调:

如果需要进一步减少大模型微调的空间消耗,LMFlow 也已经支持一系列最新技术:

如果在使用过程中遇到任何问题,可通过 github issue 或 github 主页的微信群联系作者团队。LMFlow 将持续维护并集成最新技术。

总结

在大模型竞赛的趋势下,LMFlow 中的 LISA 为所有人提供了 LoRA 以外的第二个选项,让大多数普通玩家可以通过这些技术参与到这场使用和研究大模型的浪潮中来。正如团队口号所表达的:让每个人都能训得起大模型(Large Language Model for All)。

[1] Hu, Edward J., et al. "Lora: Low-rank adaptation of large language models." ICLR 2022.

[2] Dettmers, Tim, et al. "Qlora: Efficient finetuning of quantized llms." Advances in Neural Information Processing Systems 36 (2024).

[3] Ding, Ning, et al. "Delta tuning: A comprehensive study of parameter efficient methods for pre-trained language models." arXiv preprint arXiv:2203.06904 (2022).

[4] Lialin, Vladislav, et al. "Stack more layers differently: High-rank training through low-rank updates." arXiv preprint arXiv:2307.05695 (2023).

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
成都舞厅陆续开门第五天,几家欢乐几家愁的景象再次上演!

成都舞厅陆续开门第五天,几家欢乐几家愁的景象再次上演!

不系之舟225
2025-05-12 14:30:07
恶搞"印度坠机",丢脸丢到全世界

恶搞"印度坠机",丢脸丢到全世界

难得君
2025-05-12 14:00:59
“征服”一个中年女人,不要送礼物,也不要打电话,而是这样做

“征服”一个中年女人,不要送礼物,也不要打电话,而是这样做

莲子说情感
2025-05-04 10:06:26
母亲台独、父亲入狱!央媒罕见发声实锤,辱华外籍女演员越扒越有

母亲台独、父亲入狱!央媒罕见发声实锤,辱华外籍女演员越扒越有

梦史
2025-05-12 13:52:40
外媒:印度军队在印巴冲突中为何表现如此糟糕

外媒:印度军队在印巴冲突中为何表现如此糟糕

中国青年报
2025-05-12 11:43:14
北京末节被轰21-3崩盘引热议!媒体人:全力琦没打过战神布朗

北京末节被轰21-3崩盘引热议!媒体人:全力琦没打过战神布朗

狼叔评论
2025-05-12 22:22:14
北京一女子独自被困电梯一天一夜 自家别墅电梯 没带手机 快递小哥送货上门时发现蹊跷

北京一女子独自被困电梯一天一夜 自家别墅电梯 没带手机 快递小哥送货上门时发现蹊跷

闪电新闻
2025-05-12 19:08:24
中美出乎全世界意料,日内瓦谈判结束,美方对中国的称呼都变了

中美出乎全世界意料,日内瓦谈判结束,美方对中国的称呼都变了

老高风云
2025-05-12 11:49:58
中美为何“快速谈成”?

中美为何“快速谈成”?

中国新闻周刊
2025-05-12 18:34:05
大外交|中美联合声明拉升全球股市,专家:中美相向而行为世界提供确定性

大外交|中美联合声明拉升全球股市,专家:中美相向而行为世界提供确定性

澎湃新闻
2025-05-12 19:20:27
生涯首次!曝字母哥对离开密尔沃基持开放态度 多队将向雄鹿询价

生涯首次!曝字母哥对离开密尔沃基持开放态度 多队将向雄鹿询价

罗说NBA
2025-05-12 21:04:38
中美经贸会谈避免了“对撞式”博弈 | 新京报社论

中美经贸会谈避免了“对撞式”博弈 | 新京报社论

新京报评论
2025-05-12 22:43:18
上海一患者在医院门口停房车维权,称车祸花近百万元治疗,屁股整形遇到“假专家”

上海一患者在医院门口停房车维权,称车祸花近百万元治疗,屁股整形遇到“假专家”

上游新闻
2025-05-12 21:17:16
吃大亏了!印军导弹命中巴铁核弹储存设施:印度背后有高人在出手

吃大亏了!印军导弹命中巴铁核弹储存设施:印度背后有高人在出手

说天说地说实事
2025-05-12 16:32:07
美国为何认怂?中国反制最为关键!

美国为何认怂?中国反制最为关键!

燕梳楼频道
2025-05-12 17:02:13
河海大学女博士举报导师骚扰她,聊天记录曝光,举报信发纪委信箱

河海大学女博士举报导师骚扰她,聊天记录曝光,举报信发纪委信箱

东东趣谈
2025-05-12 21:27:29
来了来了!交易市场第一大鱼!湖人6换1血赚方案曝光……

来了来了!交易市场第一大鱼!湖人6换1血赚方案曝光……

篮球实战宝典
2025-05-12 21:51:19
人民网发文评“小米汽车风波”,言辞犀利,句句说到消费者心坎里

人民网发文评“小米汽车风波”,言辞犀利,句句说到消费者心坎里

泠泠说史
2025-05-12 18:10:38
48岁陶红因病去世,9岁女儿一路跪拜祈福,与乐嘉婚姻仅维系3年

48岁陶红因病去世,9岁女儿一路跪拜祈福,与乐嘉婚姻仅维系3年

七公子娱乐
2025-05-12 15:46:07
东航高管出轨,同一小区有“2个家”,二房生3个私生子:美照流出

东航高管出轨,同一小区有“2个家”,二房生3个私生子:美照流出

辣媒专栏记录
2025-05-12 10:50:03
2025-05-13 06:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
10473文章数 142308关注度
往期回顾 全部

科技要闻

“AGI实现路径清晰了,世界模型不远了”

头条要闻

数百名车主要求退车 小米:可取消订单 但不退定金

头条要闻

数百名车主要求退车 小米:可取消订单 但不退定金

体育要闻

场均21.3分5.3失误 雷霆如何降服约老师?

娱乐要闻

张杰爸妈现身演唱会,亲和力满满

财经要闻

蔚来去年平均赊账197天 资金饥渴症待解

汽车要闻

大众纯电版GTI采用后置后驱 动力更加激进

态度原创

教育
家居
数码
手机
艺术

教育要闻

南阳市三中教育集团召开期中教育教学质量提升专题会

家居要闻

灰色轻奢 大气不失优雅

数码要闻

快点更新!小米Pad 6S Pro 12.4推送澎湃OS 2 Beta

手机要闻

苹果发布iOS 18.5 包含新壁纸、屏幕使用时间变更、iPhone 13的运营商卫星支持等

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

无障碍浏览 进入关怀版