网易首页 > 网易号 > 正文 申请入驻

VeRA: 性能相当,但参数却比LoRA少10倍

0
分享至

2022年的LoRA提高了微调效率,它在模型的顶部添加低秩(即小)张量进行微调。模型的参数被冻结。只有添加的张量的参数是可训练的。

与标准微调相比,它大大减少了可训练参数的数量。例如,对于Llama 27b, LoRA通常训练400万到5000万个参数,这比标准微调则训练70亿个参数药效的多。还可以使用LoRA来微调量化模型,例如,使用QLoRA:

虽然LoRA可训练参数的数量可能比模型参数小的多。但它随着张量(在LoRA中通常表示为r)的秩和目标模块的数量而增加。如果我们想要以大秩r(假设大于64)和模型的所有模块为目标(达到最佳性能),那么我们可能仍然需要训练数亿个参数。

本周又发布了VeRA,以进一步减少LoRA可训练参数的数量。

VeRA: Vector-based Random Matrix Adaptation

VeRA在LoRA冻结的低秩张量上添加可训练向量,只训练添加的向量。论文中显示的大多数实验中,VeRA训练的参数比原始LoRA少10倍。

但是原始的低秩张量(上图右侧中的A和B)呢?他们是如何训练或初始化的?

A和B随机初始化,然后冻结。这样它们虽然看起来像两个无用的张量我们可以在这个框架中去掉它们,但实际上,它们仍然是必不可少的。即使是随机张量也可以用于训练。论文的第2节,作者通过列举以前的论文,从之前的工作中得出结论:

作者最后也表示这些论文为冻结随机矩阵的应用创造了令人信服的案例。可以为VeRA提供理论和经验基础。

模型指标

GLUE评分

E2E

消融研究

总结

作为新的一种微调方法,VeRA显著减少了可训练参数的数量,而精度没有损失。与LoRA相比参数减少了10倍
在GLUE基准测试中,robertta large的性能相同,但在GPT-2 medium的E2E基准测试中,性能降低了30%,说明这种方法特别适合于需要频繁交换大量微调模型的场景,比如针对个人用户个性化的基于云的人工智能服务。由于缩放向量尺寸小,可以将许多版本驻留在单个GPU的有限内存中,从而大大提高了服务效率,并消除了将特定模型加载到内存中的瓶颈。

VeRA: Vector-based Random Matrix Adaptation

https://avoid.overfit.cn/post/0c18ad6b818c4e11ae5c54825ef4857a

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李修贤谈万梓良现状:酒吧驻场不丢人,为人仗义,事业婚姻都不顺

李修贤谈万梓良现状:酒吧驻场不丢人,为人仗义,事业婚姻都不顺

以茶带书
2026-04-14 16:39:49
灰熊提前一小时通知莫兰特离队:一场精心设计的羞辱

灰熊提前一小时通知莫兰特离队:一场精心设计的羞辱

体坛观察猿
2026-04-16 08:11:22
包养10位情妇,睡觉翻牌生下11个私生子,75岁还在拼命生娃!

包养10位情妇,睡觉翻牌生下11个私生子,75岁还在拼命生娃!

来科点谱
2026-02-16 07:12:06
《黑袍纠察队》女主星光晒比基尼性感美照

《黑袍纠察队》女主星光晒比基尼性感美照

可乐谈情感
2026-04-16 18:04:47
朝鲜男人烟不离手,金正恩抽什么牌子的香烟?一包烟的价格是多少

朝鲜男人烟不离手,金正恩抽什么牌子的香烟?一包烟的价格是多少

番外行
2026-04-16 08:25:40
西班牙反了,法国反了,印度也反了,全世界都看清特朗普最怕啥

西班牙反了,法国反了,印度也反了,全世界都看清特朗普最怕啥

古事寻踪记
2026-04-14 07:20:16
20亿大单,必须“先打钱,再发货”?比亚迪给印度车企上了一课

20亿大单,必须“先打钱,再发货”?比亚迪给印度车企上了一课

毒sir财经
2026-02-23 17:40:32
皇马救星!伯纳乌王牌主动让贤,破解维尼修斯 + 姆巴佩共存死局

皇马救星!伯纳乌王牌主动让贤,破解维尼修斯 + 姆巴佩共存死局

奶盖熊本熊
2026-04-16 04:34:15
杨某媛称已找到工作,结果立马被网友举报了……

杨某媛称已找到工作,结果立马被网友举报了……

麦杰逊
2026-04-15 11:53:46
马筱梅与玥箖割席后将搬走,深夜被气哭,张兰做了两件事为她撑腰

马筱梅与玥箖割席后将搬走,深夜被气哭,张兰做了两件事为她撑腰

梁蜱爱玩车
2026-04-15 16:11:53
中山市政务服务和数据管理局党组书记叶永忠被查

中山市政务服务和数据管理局党组书记叶永忠被查

新快报新闻
2026-04-16 13:33:16
我国首任空军参谋长,因泄露国家机密被撤职,死后遗体被冰冻12年

我国首任空军参谋长,因泄露国家机密被撤职,死后遗体被冰冻12年

混沌录
2026-04-11 18:59:19
普京敲定访华,特朗普紧急下命令,中国通告全球,无惧美国威胁

普京敲定访华,特朗普紧急下命令,中国通告全球,无惧美国威胁

小小科普员
2026-04-16 15:10:07
中国“退步”最快的城市:曾和上海、南京齐名,如今沦为三线城市

中国“退步”最快的城市:曾和上海、南京齐名,如今沦为三线城市

珺瑶婉史
2026-04-15 19:10:10
《八千里路云和月》张云魁六大恩人结局,卢云惨死,孟万福意难平

《八千里路云和月》张云魁六大恩人结局,卢云惨死,孟万福意难平

楼兰娱姐
2026-04-16 17:10:13
新北选情彻底反转!李四川优势荡然无存,侯友宜竟成最大包袱?

新北选情彻底反转!李四川优势荡然无存,侯友宜竟成最大包袱?

米果说识
2026-04-15 11:31:57
一线城市房价全面上涨!

一线城市房价全面上涨!

地产观点
2026-04-16 11:49:43
普京敲定访华,特朗普紧急下命令,中国通告全球,无惧美国威胁

普京敲定访华,特朗普紧急下命令,中国通告全球,无惧美国威胁

老范谈史
2026-04-16 20:14:52
中资船突破霍尔木兹,却遭美军拦截折返,该派我们的军舰去护航?

中资船突破霍尔木兹,却遭美军拦截折返,该派我们的军舰去护航?

闫树军论评
2026-04-16 14:48:04
皇马被拜仁双杀,担心的不是出局!而是引进姆巴佩后2年四大皆空

皇马被拜仁双杀,担心的不是出局!而是引进姆巴佩后2年四大皆空

球场没跑道
2026-04-16 08:05:07
2026-04-16 21:31:00
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1975文章数 1461关注度
往期回顾 全部

科技要闻

赵明:智驾之战,看谁在大模型上更高效

头条要闻

法国通过文物归还法案 分析倾向法案优先针对的非中国

头条要闻

法国通过文物归还法案 分析倾向法案优先针对的非中国

体育要闻

皇马拜仁踢出名局,但最抢镜的还是他

娱乐要闻

丝芭传媒创始人王子杰去世,享年63岁

财经要闻

海尔与医美女王互撕 换血抗衰生意迷雾

汽车要闻

空间大五个乘客都满意?体验岚图泰山X8

态度原创

教育
房产
艺术
家居
健康

教育要闻

5名初三女生霸凌同学致其骨折,竟然未被拘留,也没说应当拘留

房产要闻

人人人人!封关后首届消博会,挤爆了!

艺术要闻

张大千『 花菓荟萃册』

家居要闻

智能舒适 简约风尚

干细胞抗衰4大误区,90%的人都中招

无障碍浏览 进入关怀版