网易首页 > 网易号 > 正文 申请入驻

比LoRA还快50%!一张3090超越全参调优,UIUC联合LMFlow提出LISA

0
分享至

机器之心专栏

机器之心编辑部

2022 年底,随着 ChatGPT 的爆火,人类正式进入了大模型时代。然而,训练大模型需要的时空消耗依然居高不下,给大模型的普及和发展带来了巨大困难。面对这一挑战,原先在计算机视觉领域流行的 LoRA 技术成功转型大模型 [1][2],带来了接近 2 倍的时间加速和理论最高 8 倍的空间压缩,将微调技术带进千家万户。

但 LoRA 技术仍存在一定的挑战。一是 LoRA 技术在很多任务上还没有超过正常的全参数微调 [2][3][4],二是 LoRA 的理论性质分析比较困难,给其进一步的研究带来了阻碍。

UIUC 联合 LMFlow 团队成员对 LoRA 的实验性质进行了分析,意外发现 LoRA 非常侧重 LLM 的底层和顶层的权重。利用这一特性,LMFlow 团队提出一个极其简洁的算法:Layerwise Importance Sampled AdamW(LISA)。



  • 论文链接:https://arxiv.org/abs/2403.17919
  • 开源地址:https://github.com/OptimalScale/LMFlow

LISA 介绍



LISA 算法的核心在于:

- 始终更新底层 embedding 和顶层 linear head;

- 随机更新少数中间的 self-attention 层,比如 2-4 层。



出乎意料的是,实验发现该算法在指令微调任务上超过 LoRA 甚至全参数微调。





更重要的是,其空间消耗和 LoRA 相当甚至更低。70B 的总空间消耗降低到了 80G*4,而 7B 则直接降到了单卡 24G 以下!



进一步的,因为 LISA 每次中间只会激活一小部分参数,算法对更深的网络,以及梯度检查点技术(Gradient Checkpointing)也很友好,能够带来更大的空间节省。



在指令微调任务上,LISA 的收敛性质比 LoRA 有很大提升,达到了全参数调节的水平。



而且,由于不需要像 LoRA 一样引入额外的 adapter 结构,LISA 的计算量小于 LoRA,速度比 LoRA 快将近 50%。



理论性质上,LISA 也比 LoRA 更容易分析,Gradient Sparsification、Importance Sampling、Randomized Block-Coordinate Descent 等现有优化领域的数学工具都可以用于分析 LISA 及其变种的收敛性质。

一键使用 LISA

为了贡献大模型开源社区,LMFlow 现已集成 LISA,安装完成后只需一条指令就可以使用 LISA 进行微调:



如果需要进一步减少大模型微调的空间消耗,LMFlow 也已经支持一系列最新技术:



如果在使用过程中遇到任何问题,可通过 github issue 或 github 主页的微信群联系作者团队。LMFlow 将持续维护并集成最新技术。

总结

在大模型竞赛的趋势下,LMFlow 中的 LISA 为所有人提供了 LoRA 以外的第二个选项,让大多数普通玩家可以通过这些技术参与到这场使用和研究大模型的浪潮中来。正如团队口号所表达的:让每个人都能训得起大模型(Large Language Model for All)。

[1] Hu, Edward J., et al. "Lora: Low-rank adaptation of large language models." ICLR 2022.

[2] Dettmers, Tim, et al. "Qlora: Efficient finetuning of quantized llms." Advances in Neural Information Processing Systems 36 (2024).

[3] Ding, Ning, et al. "Delta tuning: A comprehensive study of parameter efficient methods for pre-trained language models." arXiv preprint arXiv:2203.06904 (2022).

[4] Lialin, Vladislav, et al. "Stack more layers differently: High-rank training through low-rank updates." arXiv preprint arXiv:2307.05695 (2023).

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国副国务卿:中国核弹数量暴增,不信中国不首先使用核武器

美国副国务卿:中国核弹数量暴增,不信中国不首先使用核武器

阿珂谈汽车
2024-05-22 14:31:01
别喝了!这几种茶没一个是真的,都是“假茶”,看看你喝过没有?

别喝了!这几种茶没一个是真的,都是“假茶”,看看你喝过没有?

美食寻觅王
2024-05-23 12:05:40
韩乒一姐田志希的美容前后照片对比:从默默无闻到乒坛风云

韩乒一姐田志希的美容前后照片对比:从默默无闻到乒坛风云

娱乐八卦木木子
2024-05-21 00:37:49
演员祝新运:这辈子最正确的决定,就是娶了离异还大我3岁的妻子

演员祝新运:这辈子最正确的决定,就是娶了离异还大我3岁的妻子

博览历史
2024-05-22 10:13:33
电池电量反向造假!小米SU7充满73.6度电池费了87.86度电 网友点赞

电池电量反向造假!小米SU7充满73.6度电池费了87.86度电 网友点赞

奇奇怪怪的冒险
2024-05-21 19:39:02
毛主席有意让侄子接班?毛远新:我连酒都不喝,怎么会胡说八道

毛主席有意让侄子接班?毛远新:我连酒都不喝,怎么会胡说八道

今人说古
2024-05-20 23:49:52
张康阳办公室被清空,国米球迷组织:感谢!希望尽快回来

张康阳办公室被清空,国米球迷组织:感谢!希望尽快回来

叶青足球世界
2024-05-22 20:23:26
费翔母亲毕丽娜:传言是大陆特工,17岁去台湾,两任丈夫身份特殊

费翔母亲毕丽娜:传言是大陆特工,17岁去台湾,两任丈夫身份特殊

阿胡
2024-05-20 12:44:22
晚邮报:橡树需要支付苏宁差额 俱乐部估值含债务8.5亿欧-贷款

晚邮报:橡树需要支付苏宁差额 俱乐部估值含债务8.5亿欧-贷款

直播吧
2024-05-22 15:20:12
无辜!姚明现场颁奖被骂上热搜,被质疑假笑无表情,辽宁球迷不满

无辜!姚明现场颁奖被骂上热搜,被质疑假笑无表情,辽宁球迷不满

林小湜体育频道
2024-05-22 23:53:04
曝小S突然出售上海豪宅!汪小菲打蛇打七寸,要回豪宅易如反掌?

曝小S突然出售上海豪宅!汪小菲打蛇打七寸,要回豪宅易如反掌?

娱圈小愚
2024-05-23 14:54:04
何超琼和父亲何鸿燊旧照公开:1969年住豪宅,从小就跟父亲做事业

何超琼和父亲何鸿燊旧照公开:1969年住豪宅,从小就跟父亲做事业

素素娱乐
2024-05-23 09:30:22
韩德君:教练被罚下后我想这个比赛必须要拿下 多少有点欺负人了

韩德君:教练被罚下后我想这个比赛必须要拿下 多少有点欺负人了

直播吧
2024-05-22 23:30:10
西媒:梅西曾与切费林对话希望设球员基金,梅西称宁愿什么都不要

西媒:梅西曾与切费林对话希望设球员基金,梅西称宁愿什么都不要

直播吧
2024-05-23 11:05:59
你知道跟四五十岁的女性发生关系,是怎样的感受吗?我来告诉你!

你知道跟四五十岁的女性发生关系,是怎样的感受吗?我来告诉你!

四象八卦
2024-05-21 13:22:21
庆余年2唯一输家:最牛星二代跌下神坛,演技尴尬,全程被吊打

庆余年2唯一输家:最牛星二代跌下神坛,演技尴尬,全程被吊打

糊咖娱乐
2024-05-23 11:48:07
女模特私密视频意外泄露遭疯狂传播,本人崩溃痛哭,恳求不要观看

女模特私密视频意外泄露遭疯狂传播,本人崩溃痛哭,恳求不要观看

吃鱼思故渊
2024-05-17 22:00:37
15分钟完成着陆!嫦娥六号施展绝技,加媒称:美西方应与中国合作

15分钟完成着陆!嫦娥六号施展绝技,加媒称:美西方应与中国合作

探索日记
2024-05-21 23:23:54
已经离队!曝新疆男篮放弃超级外援,总决赛场均10分5助让人失望

已经离队!曝新疆男篮放弃超级外援,总决赛场均10分5助让人失望

老叶评球
2024-05-23 11:29:16
虽然赢了g1,但是独行侠的赢面会更大?裁判帮忙都不行

虽然赢了g1,但是独行侠的赢面会更大?裁判帮忙都不行

皮皮文章J
2024-05-23 11:02:22
2024-05-23 15:36:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
9009文章数 141928关注度
往期回顾 全部

科技要闻

英伟达狂飙 黄仁勋说要开启"新的工业革命"

头条要闻

本田车被撞 车主维修期每天花3百租宝马要肇事者负担

头条要闻

本田车被撞 车主维修期每天花3百租宝马要肇事者负担

体育要闻

张氏父子的一场大梦

娱乐要闻

大S儿子被学校退学,张兰称孙子没人管

财经要闻

宗馥莉接棒100天,钟睒睒站在大门外

汽车要闻

上汽大通大家7超混/大家9超混将于6月7日正式上市

态度原创

旅游
数码
家居
时尚
艺术

旅游要闻

日本航空飞机在羽田机场地面与其他飞机发生接触

数码要闻

天猫精灵 X6 音响开售:6 单元二分频、天空音布局,首发 369 元

家居要闻

化实为虚 理性与柔美的交互

40+女人别刻意去扮嫩,这样打扮自己更有气质,温柔还大方

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

无障碍浏览 进入关怀版