网易首页 > 网易号 > 正文 申请入驻

更高效的大模型调优方法,华盛顿大学推出“代理调优”

0
分享至

随着ChatGPT等生成式AI产品朝着多模态发展,基础模型的参数越来越高,想进行权重调优需要耗费大量时间和AI算力。

为了提升模型的调优效率,华盛顿大学和艾伦AI实验室的研究人员推出了全新方法——Proxy Tuning(代理调优)。

该调优方法无需接触模型的内部权重,利用一个小型调整模型和一个未调整的对应模型,通过对比它们的预测结果来引导基础模型的预测

再通过解码时的引导,基础模型可以朝着调优方向进行微调,同时保留了更大规模预训练的优势。

为了验证代理调优的性能,研究人员对LlAMA-2的13B、70B原始模型进行了微调。结果显示,这两个模型分别接近对应的Chat模型的91.1%和88.1%的性能

此外,在知识量大的TruthfulQA数据集测试中,代理调优的真实性比直接调优的模型还高,说明在解码时更好地保留了训练知识。

论文地址:https://arxiv.org/abs/2401.08565

代理调优的核心技术思想是,先调优一个小的语言模型,然后用这个小型调优模型指导大型黑箱语言模型,使其具备像调优后的模型一样行为、功能

但不需要访问其内部权重,只需要其在输出词表上的预测分布。有趣的是,该技术与大模型中的“蒸馏”技术恰恰相反。

代理调优的技术方法

首先,我们需要准备一个小型的预训练语言模型M-,该模型与基础模型M共享相同的词汇表。M-可以是一个现成的模型,也可以是通过较小规模的预训练得到的模型。

接下来,我们使用训练数据对M-进行调优,得到一个调优后的模型M+。调优可以使用各种技术,例如,有监督的微调或领域自适应方法,具体取决于任务的需求。

详细解码流程

在解码时,对于给定的输入,我们通过对基础模型M的输出预测分布和调优模型M+的输出预测分布之间的差异进行操作,来引导基础模型的预测。

使用基础模型M对输入进行解码,得到基础模型的预测结果。这可以通过生成模型的输出概率分布来实现,通常使用一种解码算法,例如,贪婪搜索或束搜索来生成最优的输出序列。

然后,使用调优模型M+对相同的输入进行解码,得到调优模型的预测结果。

接下来,计算基础模型的预测结果与调优模型的预测结果之间的差异。可以使用KL散度或交叉熵方法,来度量两个预测分布之间的差异。

最后,将预测差异应用于基础模型的预测结果,以引导基础模型的预测朝向调优模型的预测方向移动。同时可以将预测差异添加到基础模型的预测分布中,以调整每个词的概率值。

本文素材来源Proxy Tuning论文,如有侵权请联系删除

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“摸奶子”再惹争议,OPPO的流量反噬开始了

“摸奶子”再惹争议,OPPO的流量反噬开始了

品牌头版
2026-05-13 10:18:15
没有证据?那就发明证据!从中国第一“女福尔摩斯”到冤案制造者

没有证据?那就发明证据!从中国第一“女福尔摩斯”到冤案制造者

许三岁
2026-06-24 11:06:59
苏联“人猿杂交”实验:5名女孩与11只猩猩参与,结局如何?

苏联“人猿杂交”实验:5名女孩与11只猩猩参与,结局如何?

谈史论天地
2026-02-28 13:35:18
26万的宾利,15万的保时捷,二手豪车市场天塌了

26万的宾利,15万的保时捷,二手豪车市场天塌了

大佬灼见
2026-07-02 13:00:23
普京终于忍无可忍,下令俄军改变战术,必须“三天内直通基辅”?

普京终于忍无可忍,下令俄军改变战术,必须“三天内直通基辅”?

依偎在角落
2026-07-02 11:10:54
痛惜!又一著名女演员因病去世,作品家喻户晓

痛惜!又一著名女演员因病去世,作品家喻户晓

乡野小珥
2026-07-01 16:42:00
冯小刚该恨死韩红了

冯小刚该恨死韩红了

智识漂流
2026-06-24 01:05:27
1966年,毛泽东在滴水洞隐居11天,张耀祠率领8341部队,一路随行

1966年,毛泽东在滴水洞隐居11天,张耀祠率领8341部队,一路随行

搜史君
2026-06-26 13:00:12
研究表明:性生活次数不达标,不管男女容易早衰且癌症风险增高!

研究表明:性生活次数不达标,不管男女容易早衰且癌症风险增高!

黯泉
2026-05-03 20:25:37
杰伦布朗出走竟换来保罗乔治,绿衫军事实上已经退出冠军争夺

杰伦布朗出走竟换来保罗乔治,绿衫军事实上已经退出冠军争夺

姜大叔侃球
2026-07-02 10:14:45
中央气象台7月2日10时继续发布暴雨蓝色预警

中央气象台7月2日10时继续发布暴雨蓝色预警

每日经济新闻
2026-07-02 11:05:05
哈梅内伊国葬30多国代表将出席,莫迪不去,中国已表态

哈梅内伊国葬30多国代表将出席,莫迪不去,中国已表态

晨光苏醒a
2026-07-02 01:57:28
梅雨最高潮结束 梅雨长度或超预期

梅雨最高潮结束 梅雨长度或超预期

脊梁in上海
2026-07-02 05:53:56
广州市一栋独栋别墅495万起拍卖,1164万成交,13人抢着买

广州市一栋独栋别墅495万起拍卖,1164万成交,13人抢着买

童童聊娱乐啊
2026-07-02 12:18:25
乔治5换1布朗!76人新首发太恐怖,绿军想要重建?少帅在憋大招

乔治5换1布朗!76人新首发太恐怖,绿军想要重建?少帅在憋大招

你的篮球频道
2026-07-02 07:34:09
赖文峰与楚玲合影,赖文峰比女方大20余岁,却完全看不出年龄差

赖文峰与楚玲合影,赖文峰比女方大20余岁,却完全看不出年龄差

娱你同欢
2026-07-01 21:34:11
菲律宾凌晨生变,民众要换总统,马科斯对华改口,不救菲防长了?

菲律宾凌晨生变,民众要换总统,马科斯对华改口,不救菲防长了?

奥利奥变薄了的
2026-07-02 08:36:58
安徽阜阳一小区起火致3岁双胞胎男童遇难,爸爸和爷爷被烧伤;楼道消防栓被指无水,当地已成立调查组

安徽阜阳一小区起火致3岁双胞胎男童遇难,爸爸和爷爷被烧伤;楼道消防栓被指无水,当地已成立调查组

大风新闻
2026-07-01 20:00:17
细思极恐!打开三峡大坝所有闸门,放光里面的水,需要二十多天?

细思极恐!打开三峡大坝所有闸门,放光里面的水,需要二十多天?

掠影后有感
2026-06-19 10:07:38
米体:国米安抚巴斯托尼,否认将其推上货架

米体:国米安抚巴斯托尼,否认将其推上货架

懂球帝
2026-07-02 14:57:11
2026-07-02 15:44:49
AIGC开放社区
AIGC开放社区
AIGC开放社区是专注于AIGC(生成式人工智能)领域的开放性社区
544文章数 53关注度
往期回顾 全部

科技要闻

马斯克不承认,但SpaceX就该造AI手机

头条要闻

特朗普乘"新空军一号"首飞 官方称改装费不到4亿美元

头条要闻

特朗普乘"新空军一号"首飞 官方称改装费不到4亿美元

体育要闻

韩国人,为什么恨透了洪明甫?

娱乐要闻

霍震霆回应霍启山娜然结婚传闻

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

小鹏MONA L03 智能化水平拉满 还有玩法多样的巧思大空间

态度原创

艺术
亲子
家居
数码
公开课

艺术要闻

光辉历程 时代丹青——庆祝中国共产党成立105周年美展 油画选

亲子要闻

早教色彩认知蜘蛛侠绿巨人钢铁侠超人洗澡喽还有超人拼图mp4

家居要闻

传奇筑 日常诗

数码要闻

RTX 4060 Laptop重返榜首!Steam发布6月硬件调查报告

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版