网易首页 > 网易号 > 正文 申请入驻

比LoRA更快更强,全新框架LoFA上线,秒级适配大模型

0
分享至



本文第一作者郝一鸣,香港中文大学(深圳)GAP-Lab 在读博士生。本文共同第一作者为许牧天,于香港中文大学(深圳)取得博士学位。导师韩晓光教授,为本文通讯作者。

个性化视觉生成的实际应用中,通用视觉基础模型的表现往往难以满足精准需求。为实现高度定制化的生成效果,通常需对大模型进行针对性的自适应微调,但当前以 LoRA 为代表的主流方法,仍受限于定制化数据收集与冗长的优化流程,耗时耗力,难以在真实场景中广泛应用。

为此,港中大(深圳)GAP-Lab 提出全新框架LoFA,从上重塑个性化视觉生成的技术路径。该框架能够在数秒内根据用户指令前馈式直出对应的 LoRA 参数,使大模型快速适配到个性化任务中 —— 无需漫长优化,效果却媲美甚至超越传统 LoRA,真正推动大模型适配进入 “即时获取” 的新时代。



  • 论文名称:LoFA: Learning to Predict Personalized Priors for Fast Adaptation of Visual Generative Models
  • 论文链接:https://arxiv.org/abs/2512.08785
  • 项目主页:https://jaeger416.github.io/lofa/
  • 开源代码:https://github.com/GAP-LAB-CUHK-SZ/LoFA

背景与挑战



图 1. LoFA 概念图:与传统 LoRA 的对比

近年来,创意媒体和视觉内容的需求持续增长,这推动了功能强大的视觉生成基础模型的发展。这类模型通过大规模图像或视频数据集训练,展现出丰富的能力与通用的先验知识。然而,面对用户的个性化需求 —— 尤其是涉及细粒度指令时,模型往往难以生成完全符合用户期望的结果(如图 1 “WAN” 所示,文本到视频基础模型 WAN 在理解 “一名男子正在做功夫侧踢” 这类具体动作指令时表现不佳)。

为解决这一问题,早期研究通常采用 parameter-efficient fine-tuning (PEFT) 技术,通过融入个性化先验知识来调整模型。但这些方法需要为每个个性化任务单独优化适配器(例如 LoRA),不仅依赖特定任务数据,还需大量优化时间(见图 1 “Classical LoRA” 示例),难以满足实际应用中用户对快速响应新需求的要求。

为实现快速适配,近期少量研究尝试在测试阶段直接预测 LoRA 权重。例如,HyperDreamBooth 提出了基于 hypernetwork 的方法,但仍需额外的后优化步骤;DiffLoRA 则在此基础上完全取消了后优化过程。然而,这一研究方向面临一个根本性挑战:模型必须学习从低维细粒度用户指令到高维复杂 LoRA 参数分布的复杂映射关系。

正因如此,现有方法目前仅在图像生成中针对主体身份个性化这类相对受限的场景中得到验证。这一局限可能源于这些方法将 LoRA 权重压缩至低维空间作为超网络输出,不可避免地造成信息损失并限制模型表达能力。因此,如何实现能够有效处理细粒度用户指令或高维复杂 LoRA 权重的快速模型适配方法 —— 这对面向用户的实际应用至关重要 —— 仍然是视觉生成领域一个亟待探索的研究难题。

为弥补这一空白,本论文提出了 LoFA—— 一种通用的学习框架,能够从多样化或细粒度的用户指令中直接预测个性化 LoRA 参数,实现视觉生成模型的快速适配(见图 1 “LoFA” 部分)。

核心方法介绍



图 2. LoRA 响应图谱的可视化:独特的结构化分布

LoFA 的核心思路是在 hypernetwork 的设计中嵌入一种新型引导机制,使其能够直接从用户指令中预测完整且未经压缩的 LoRA 权重,而无需依赖有损压缩技术。为实现这一目标,作者首先发现了 LoRA 的一个关键特性 —— 响应图谱。该图谱呈现为个性化 LoRA 权重与原始模型参数间相对变化所形成的独特结构化模式,能够有效捕捉用户指令的核心影响(可视化结果见图 2,具体分析见论文)。



图 3. LoFA 的流程:响应图谱引导的两阶段学习框架

基于这一发现,论文设计了一种全新架构(如图 3),摒弃了直接进行 “指令 - LoRA 权重” 的暴力映射方式。该架构以原始基础模型权重作为输入,通过交叉注意力机制融合用户指令,从而学习相对适配关系。整个学习过程进一步划分为两个阶段:网络首先预测响应图谱(其维度远低于 LoRA 权重且结构更简单),随后运用习得的响应知识引导最终的 LoRA 权重预测,使其能够识别并聚焦关键适配区域,从而简化学习过程并提升稳定性。

通过这种结构化响应引导的设计,网络能够学习基础模型与目标 LoRA 之间的相对适配关系,同时预测具备完整表达能力的、未经压缩的 LoRA 权重。

实验分析

论文通过系统性的实验评估 LoFA 框架在视频与图像生成任务中的有效性。为全面验证其处理多样化指令条件的泛化能力,论文在三个关键应用场景中测试了多种输入模态:

在视频生成任务中,以 WAN2.1-1.3B 为基础模型,重点评估两方面应用:

(1)基于文本或运动姿态的个性化人体动作视频生成,该任务针对视频数据的核心属性 —— 动态运动的个性化建模,具有显著挑战性;

(2)以风格图像为参考的文本到视频风格化,此为视频编辑领域的经典任务。

在图像生成任务中,采用 Stable Diffusion XL 作为基础模型,评估(3)ID 个性化图像生成 —— 这也是先前相关研究唯一支持的应用场景。

LoFA 不仅在性能上显著超越基线方案,更达到了与独立优化的 LoRA 模型相媲美 —— 且在多类场景中表现更优的效果,这证明了快速模型适配在实际应用中的可行性。所有结果如下:



图 4. 基于文本的个性化人体动作视频生成结果对比



图 5. 基于运动姿态的个性化人体动作视频生成结果对比



图 6. 以风格图像为参考的文本到视频风格化



图 7. ID 个性化的图像生成

总结与展望

LoFA 突破了现有个性化技术的关键局限 —— 在保持高质量生成结果的同时,彻底消除了冗长的优化过程。大量实验表明,LoFA 取得了与逐例优化的 LoRA 模型相当甚至更优的性能,同时将适配时间从数小时缩短至秒级。这一进展为高效模型适配确立了新的范式,有望推动各类实时个性化应用的发展。然而,当前 LoFA 仍需要针对不同领域的特定指令(如人体动作指令、身份特征指令或艺术风格指令)分别训练独立网络。理想的解决方案应是构建具备强大 zero-shot 能力的 unified hypernetwork。通过扩大训练数据的规模与多样性,这一目标未来将有望实现。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王楚钦冠军仅1天,奥委会16字评价一针见血

王楚钦冠军仅1天,奥委会16字评价一针见血

仙味少女心
2026-04-06 19:18:14
三星家族将缴清12万亿韩元遗产税“尾款”:母女3人卖股筹钱,李在镕靠贷款和股息

三星家族将缴清12万亿韩元遗产税“尾款”:母女3人卖股筹钱,李在镕靠贷款和股息

红星新闻
2026-04-06 19:32:22
郑丽文人还未到,国台办先定调:统一之后,两件事必办成

郑丽文人还未到,国台办先定调:统一之后,两件事必办成

共工之锚
2026-04-06 00:09:33
安徽6岁失联女童遇害:35岁女嫌犯被抓,身份被扒,作案动机披露

安徽6岁失联女童遇害:35岁女嫌犯被抓,身份被扒,作案动机披露

温柔看世界
2026-04-06 23:26:07
破案!杜锋宁愿牺牲家政也要重用麦考尔原因找到,粤迷说出大实话

破案!杜锋宁愿牺牲家政也要重用麦考尔原因找到,粤迷说出大实话

后仰大风车
2026-04-07 08:15:08
总部人去楼空!上千家供应商被欠4亿货款,又一明星独角兽暴雷了

总部人去楼空!上千家供应商被欠4亿货款,又一明星独角兽暴雷了

品牌观察官
2026-04-06 17:45:34
NASA分享宇航员太空拍地球照片,“意外”宣传iPhone 17 Pro

NASA分享宇航员太空拍地球照片,“意外”宣传iPhone 17 Pro

IT之家
2026-04-06 14:51:10
济宁马拉松火了!赛前参赛包被吐槽寒酸,赛后完赛包竟藏大反转

济宁马拉松火了!赛前参赛包被吐槽寒酸,赛后完赛包竟藏大反转

老王谈跑步
2026-04-06 17:01:43
俄全国支付系统中断,俄军阵亡创新高,苏-30战机坠毁,仍幻想美逼乌割让领土 | 狼叔看世界

俄全国支付系统中断,俄军阵亡创新高,苏-30战机坠毁,仍幻想美逼乌割让领土 | 狼叔看世界

狼叔看世界
2026-04-04 10:04:06
美军宣称摸清中国导弹库存!俄专家:中国解放军可以半小时定胜负

美军宣称摸清中国导弹库存!俄专家:中国解放军可以半小时定胜负

共工之锚
2026-04-07 00:20:47
油价最新调整通知

油价最新调整通知

新浪财经
2026-04-07 01:53:56
伊朗就美停战提议提10项要求 特朗普:有意义但不够好

伊朗就美停战提议提10项要求 特朗普:有意义但不够好

财联社
2026-04-06 23:54:08
毛主席钢笔字的惊艳之作,书法界大揭秘!

毛主席钢笔字的惊艳之作,书法界大揭秘!

书画相约
2026-04-03 08:51:56
赵丽颖久违“营业”!工作室晒高月香练舞旧照,粉丝:终于等到你

赵丽颖久违“营业”!工作室晒高月香练舞旧照,粉丝:终于等到你

草莓解说体育
2026-04-07 02:42:27
钱塘江大潮雕出奇幻“潮汐树”,高颜值背后蕴藏高价值

钱塘江大潮雕出奇幻“潮汐树”,高颜值背后蕴藏高价值

极目新闻
2026-04-07 09:26:03
P都不敢这么白!李小冉冷白皮炸场

P都不敢这么白!李小冉冷白皮炸场

阿废冷眼观察所
2026-04-07 01:38:29
内塔尼亚胡警告特朗普:不要在当前阶段与伊朗达成停火;特朗普威胁伊朗“最后期限”是7日20时

内塔尼亚胡警告特朗普:不要在当前阶段与伊朗达成停火;特朗普威胁伊朗“最后期限”是7日20时

封面新闻
2026-04-07 10:07:05
直接返回欧洲!东契奇真的拼了,还不想放弃本赛季

直接返回欧洲!东契奇真的拼了,还不想放弃本赛季

德译洋洋
2026-04-06 12:15:51
伊媒:沙特大型石化生产基地遭大范围打击!系美国资本参与,石化产品年产量占全球6%至8%;伊朗向以色列发射导弹,以军空袭德黑兰

伊媒:沙特大型石化生产基地遭大范围打击!系美国资本参与,石化产品年产量占全球6%至8%;伊朗向以色列发射导弹,以军空袭德黑兰

每日经济新闻
2026-04-07 10:13:05
郑丽文站在千百人聚集的宴席聚光灯下,突然指着自己大声宣告

郑丽文站在千百人聚集的宴席聚光灯下,突然指着自己大声宣告

果妈聊娱乐
2026-04-07 08:19:43
2026-04-07 11:35:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12690文章数 142615关注度
往期回顾 全部

科技要闻

年化营收300亿美元!Anthropic砸算力大单

头条要闻

浙江渔民捕获2条"巨无霸"金枪鱼 船老大:30多年头回见

头条要闻

浙江渔民捕获2条"巨无霸"金枪鱼 船老大:30多年头回见

体育要闻

官宣签约“AI球员”,这支球队被骂惨了...

娱乐要闻

张艺上浪姐惹争议 黄景瑜前妻发文内涵

财经要闻

2026年,全国租房市场还有波降价潮

汽车要闻

广汽电池独立战,背后的产业链博弈

态度原创

亲子
健康
数码
公开课
军事航空

亲子要闻

破解月子谣言,轻松度过产褥期

干细胞抗衰4大误区,90%的人都中招

数码要闻

Sonnet推出雷电5版Echo 20扩展坞:提供万兆网口与RCA插孔

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗:在C-130运输机残骸中发现一具美军士兵遗体

无障碍浏览 进入关怀版