网易首页 > 网易号 > 正文 申请入驻

LLM进入「拖拽时代」!只靠Prompt,几秒定制一个大模型,效率飙升12000倍

0
分享至

新智元报道

编辑:定慧 好困

【新智元导读】最近,来自NUS、UT Austin等机构的研究人员创新性地提出了一种「拖拽式大语言模型」(DnD),它可以基于提示词快速生成模型参数,无需微调就能适应任务。不仅效率最高提升12000倍,而且具备出色的零样本泛化能力。

现在的大模型基本都具备零样本泛化能力,但要在真实场景中做特定的适配,还是得花好几个小时来对模型进行微调。

即便是像LoRA这样的参数高效方法,也只能缓解而不能消除每个任务所需的微调成本。

刚刚,包括尤洋教授在内的来自新加坡国立大学、得克萨斯大学奥斯汀分校等机构的研究人员,提出了一种全新的「拖拽式大语言模型」——Drag-and-Drop LLMs!

论文地址:https://arxiv.org/abs/2506.16406

DnD是一种基于提示词的参数生成器,能够对LLM进行无需训练的自适应微调。

通过一个轻量级文本编码器与一个级联超卷积解码器的组合,DnD能在数秒内,仅根据无标签的任务提示词,生成针对该任务的LoRA权重矩阵。

显然,对于那些需要快速实现模型专业化的场景,DnD可以提供一种相较于传统微调方法更强大、灵活且高效的替代方案。

总结来说,DnD的核心优势如下:

  • 极致效率:其计算开销比传统的全量微调低12,000倍。

  • 卓越性能:在零样本学习的常识推理、数学、编码及多模态基准测试中,其性能比最强大的、需要训练的LoRA模型还要高出30%。

  • 强大泛化:仅需无标签的提示词,即可在不同领域间展现出强大的泛化能力。

DnD实现方法

通过观察,研究人员发现,LoRA适配器无非是其训练数据的一个函数:梯度下降会将基础权重「拖拽」至一个特定任务的最优状态。

如果能够直接学习从提示到权重的映射,那么就可以完全绕过梯度下降过程。

DnD通过两个核心步骤获得「拖拽」能力:准备训练数据(左上)与训练参数生成器(右上)。

  • 在准备数据时,将模型参数(权重)与特定数据集的条件(提示词)进行显式配对。

  • 在训练时,DnD模型将条件作为输入来生成参数,并使用原始的LoRA参数作为监督信号进行学习。

基于这些洞见,团队提出了「拖拽式大语言模型」,它无需微调即可生成任务专属的权重。

团队首先在多个不同数据集上分别训练并保存相应的LoRA适配器。

为了赋予模型「拖拽」的能力,团队将这些数据集的提示词与收集到的LoRA权重进行随机配对,构成DnD模型的训练数据——即「提示词-参数」对。

参数生成器是一个由级联卷积块构成的解码器。

参数生成器的模块细节如下:每个超卷积块包含三个超卷积模块,用于在不同维度上提取并融合特征信息。

训练时,团队采用一个现成的文本编码器提取提示词的嵌入向量,并将其输入生成器。

生成器会预测出模型权重,团队利用其与真实LoRA权重之间的均方误差(MSE)损失来对其进行优化。

在推理阶段,团队只需将来自全新数据集(训练中未见过)的提示词输入DnD,仅需一次前向传播,即可获得为该任务量身定制的参数。

效果评估

零样本学习效果

在新的(测试)数据集上的泛化能力。

在所有未曾见过的数据集上,DnD在准确率上都显著超越了那些用于训练的LoRA模型。

DnD能为数学、代码和多模态问答等更复杂的任务生成参数。

在这些任务上依然展现出强大的零样本学习能力。

DnD在多种任务上超越了基座LLM,展现出显著的「拖拽」增强效果。

DnD能够很好地扩展至更大的7B基座模型,并在更复杂的LiveCodeBench基准测试中保持强劲性能。

通过利用已微调的LoRA作为训练数据,DnD成功地在输入提示词与模型参数之间建立了联系。

团队向DnD输入其训练阶段从未见过的数据集提示词,让它为这些新任务直接生成参数,以此来检验其零样本学习能力。

DnD在权重空间中生成的参数与原始参数分布接近,并且在性能上表现良好。

实验结果表明,在零样本测试集上,团队的方法相较于训练所用的LoRA模型的平均性能,取得了惊人的提升,并且能够很好地泛化到多种真实世界任务和不同尺寸的LLM。

对比其他微调方法

为了进一步展示DnD的强大能力,团队将其与全量样本微调(full-shot tuning)、少样本学习(few-shot)以及上下文学习(in-context learning)进行了对比。

令人惊讶的是,DnD的性能超越了LoRA全量微调的效果,同时速度快了2500倍。

虽然经过更多轮次的迭代,全量微调的性能会超过DnD,但其代价是高达12000倍的推理延迟。

此外,在样本数少于256个时,DnD的性能稳定地优于少样本学习和上下文学习。

尤其值得注意的是,少样本学习和上下文学习都需要依赖带标签的答案,而DnD仅仅需要无标签的提示词。

DnD能够达到与全量样本相当甚至更优的性能,同时速度提高了2500-12000倍

作者介绍

Zhiyuan Liang

Zhiyuan Liang目前在新加坡国立大学高性能计算人工智能实验室实习,师从尤洋教授。同时,也得到了Kai Wang博士和Wangbo Zhao的指导。

此前,他在中国科学技术大学获得人工智能学士学位。并曾在北卡罗来纳大学教堂山分校Huaxiu Yao教授的指导下进行实习,以及在中国科学技术大学数据科学实验室跟着导师Xiang Wang度过了两年的时光。

他的研究兴趣主要集中在高效机器学习与参数生成,希望从权重空间学习的视角,探索实现更高层次智能的有效路径。

Zhangyang(Atlas) Wang

Zhangyang Wang目前是德克萨斯大学奥斯汀分校钱德拉家族电气与计算机工程系的终身副教授,并荣膺坦普尔顿基金会第7号捐赠教席。

他同时也是该校计算机科学系以及奥登研究所计算科学、工程与数学项目的核心教员。

他于2016年获伊利诺伊大学厄巴纳-香槟分校电气与计算机工程博士学位,师从计算机视觉泰斗黄煦涛(Thomas S.Huang)教授;并于2012年获中国科学技术大学电子工程与信息科学学士学位。

他的研究兴趣主要聚焦于为生成式AI与神经符号AI定坚实的理论与算法基础。

核心目标是创建结构化、模块化的模型表示:1)在过参数化模型空间中实现高效、鲁棒的学习;2)与符号知识及推理进行无缝连接。

Kai Wang

Kai Wang目前是新加坡国立大学HPC-AI实验室的研究员,接受尤洋教授的指导。

此前,他在新加坡国立大学获得数据科学与机器学习博士学位,在中国科学院深圳先进技术研究院获得计算机技术硕士学位,在北京师范大学珠海校区获得学士学位。

他的研究方向聚焦于参数生成与高效机器学习,尤其注重通过探索简洁的基线方法,来深入洞察深度学习的内在机理。

参考资料:

https://jerryliang24.github.io/DnD/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
吴石后人有点意思:明明父亲是烈士,儿子吴韶成在河南却格外低调

吴石后人有点意思:明明父亲是烈士,儿子吴韶成在河南却格外低调

冰雅忆史
2026-02-25 09:17:13
华为 2025 年收入超 8800 亿;雷军:小米未来 5 年攻坚 AI、芯片;大疆起诉美国 FCC | 极客早知道

华为 2025 年收入超 8800 亿;雷军:小米未来 5 年攻坚 AI、芯片;大疆起诉美国 FCC | 极客早知道

极客公园
2026-02-25 09:35:48
他是军统正局长,一生暗中帮我党,死后破例葬入八宝山,民族脊梁

他是军统正局长,一生暗中帮我党,死后破例葬入八宝山,民族脊梁

历史人文2
2026-02-24 16:10:55
互联网公司“烧钱”80亿发红包,四款AI轮流坐榜首,资本市场不买账

互联网公司“烧钱”80亿发红包,四款AI轮流坐榜首,资本市场不买账

红星资本局
2026-02-24 19:09:38
巴拿马赌输了?撕毁长和租约后,中国21.4%货运量成致命一击

巴拿马赌输了?撕毁长和租约后,中国21.4%货运量成致命一击

始于初见见
2026-02-25 07:43:24
陈天龙接受审查调查

陈天龙接受审查调查

吉刻新闻
2026-02-25 09:23:20
王楚钦击溃户上隼辅,没想到日媒这样评价他,下面两轮面临挑战大

王楚钦击溃户上隼辅,没想到日媒这样评价他,下面两轮面临挑战大

李橑在北漂
2026-02-25 13:48:11
飞机懵了,高铁呆了,万万没想到,今年春运出风头的是绿皮火车

飞机懵了,高铁呆了,万万没想到,今年春运出风头的是绿皮火车

深度报
2026-02-15 23:00:51
张艺谋:第一次见她,我对她说,你等着我们来找你,不要乱演电影

张艺谋:第一次见她,我对她说,你等着我们来找你,不要乱演电影

秀语千寻
2026-02-22 19:28:42
中国古代男主人到底能不能和丫鬟发生关系?

中国古代男主人到底能不能和丫鬟发生关系?

文一史二
2026-02-18 09:02:53
四年,俄罗斯仍不懂乌克兰,乌克兰人记性很好

四年,俄罗斯仍不懂乌克兰,乌克兰人记性很好

山河路口
2026-02-25 16:59:27
64岁马景涛近况曝光!与小21岁吴佳尼离婚,为养2个儿子四处奔波

64岁马景涛近况曝光!与小21岁吴佳尼离婚,为养2个儿子四处奔波

章眽八卦
2026-02-25 17:52:50
大胜尼克斯阿特金森嗨了!为哈登抱不平并力挺,点赞两配角发挥!

大胜尼克斯阿特金森嗨了!为哈登抱不平并力挺,点赞两配角发挥!

篮球资讯达人
2026-02-25 13:22:40
这种轻熟御姐风的穿搭真的太有女人味了

这种轻熟御姐风的穿搭真的太有女人味了

牛弹琴123456
2026-02-25 10:41:08
南京公用:副总经理童乃文辞职

南京公用:副总经理童乃文辞职

每日经济新闻
2026-02-25 16:32:06
马斯克发帖暗示“辛鲍姆与贩毒集团存在关联”,墨西哥总统:正考虑采取法律行动

马斯克发帖暗示“辛鲍姆与贩毒集团存在关联”,墨西哥总统:正考虑采取法律行动

环球网资讯
2026-02-25 08:58:09
俄罗斯就是打仗的命:这个乌克兰没倒,又一个乌克兰上来了!

俄罗斯就是打仗的命:这个乌克兰没倒,又一个乌克兰上来了!

犟种美食
2026-02-25 15:47:08
多人被查后,贵州这个州又有厅官被开除党籍

多人被查后,贵州这个州又有厅官被开除党籍

上观新闻
2026-02-25 07:37:35
普京:有敌人不惜代价破坏和平进程

普京:有敌人不惜代价破坏和平进程

界面新闻
2026-02-25 14:06:37
维尔茨缺阵暴露致命短板!利物浦夏窗头号目标突变

维尔茨缺阵暴露致命短板!利物浦夏窗头号目标突变

夜白侃球
2026-02-25 16:54:56
2026-02-25 18:55:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14588文章数 66642关注度
往期回顾 全部

科技要闻

“机器人只跳舞,没什么用”

头条要闻

美官员称6个月内三国政府或被亲美政权取代 中方回应

头条要闻

美官员称6个月内三国政府或被亲美政权取代 中方回应

体育要闻

曝雄鹿计划今夏追小卡 字母哥渴望与其并肩作战

娱乐要闻

撒贝宁到沈阳跑亲戚 老婆李白模特身材

财经要闻

上海楼市放大招,地产预期别太大

汽车要闻

750km超长续航 2026款小鹏X9纯电版将于3月2日上市

态度原创

教育
艺术
亲子
游戏
公开课

教育要闻

高考生家长速码!这几个冷门专业已翻红,选对不后悔

艺术要闻

这位艺术家的马赛克画让人惊叹不已!

亲子要闻

小菲晒娃,小宝宝好漂亮,睡得很香!筱梅状态好,恭喜他们一家人

外网神人自制健身环接入众多游戏!走路都得大出汗

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版