网易首页 > 网易号 > 正文 申请入驻

传统符号语言传递知识太低效?探索LLM高效参数迁移可行性

0
分享至

论文第一作者谭宇乔来自中国科学院自动化研究所的自然语言处理和知识工程研究组,导师为何世柱老师。目前研究方向主要在利用大语言模型参数知识增强大模型能力。

1 跨规模参数知识迁移 PKT 的全面分析

人类的思维是非透明的,没有继承的记忆,因此需要通过语言交流的环境来学习。人类的知识传递长期依赖符号语言:从文字、数学公式到编程代码,我们通过符号系统将知识编码、解码。但这种方式存在天然瓶颈,比如信息冗余、效率低下等。

现如今,大语言模型(LLM)就主要模仿这一套范式来学习和传递知识。然而,与人脑不可知和不透明的特性不同,开源 LLM 的可访问参数和信息流则像一个透明的大脑,直接编码了事实知识,已有的研究对其进行了系统分析、精确定位和有效转移。因此研究人员提出疑问:大模型能否像《阿凡达》中的人类和纳威人之间建立传递知识的练习?其中在天然存在的较大 LLM 和较小 LLM 对之间展开,将参数知识作为媒介。

最近,中国科学院自动化所提出对 Parametric Knowledge Transfer (PKT,参数知识迁移) 的全面分析。一句话总结:跨规模大模型之间的表现相似和参数结构相似度都极低,这对实现有效的 PKT 提出了极大的挑战。

  • 论文标题:Neural Incompatibility: The Unbridgeable Gap of Cross-Scale Parametric Knowledge Transfer in Large Language Models
  • 论文地址:https://arxiv.org/abs/2505.14436
  • Github 地址:https://github.com/Trae1ounG/Neural_Incompatibility

2 新的 Pre-Align PKT 范式:定位后对齐 LaTen

论文首先通过简单的前置实验,挖掘出参数空间的对齐是实现参数知识迁移的必要条件。现有的参数对齐方法Seeking通过梯度定位部分较大 LLM 参数以适配较小 LLM 张量形状,将其初始化为 LoRA 矩阵通过后续微调实现迁移,称之为后对齐参数迁移方法(Post-Align PKT)。论文为了更全面探索 PKT 是否可行,根据对齐时机提出先对齐知识迁移(Pre-Align PKT)新范式,采用定位后对齐(Locate-then-Align,LaTen)方法实现参数对齐。

图表 1:展示了基于语言的知识迁移和基于参数的知识迁移范式的差异

该方法的核心理念是首先通过神经元级别的归因分析,识别出与特定任务相关的参数,然后利用训练得当的超网络,将较大 LLM 的知识映射到较小 LLM 上。

具体而言,LaTen 方法分为两个阶段:

  1. 知识提取:通过分析大模型的参数,识别出与目标任务相关的知识。这一过程利用静态神经元归因方法,计算出每个神经元在任务中的重要性,从而选择出最具信息量的参数进行迁移。
  2. 参数对齐:一旦确定了重要参数,接下来通过轻量级的超网络进行对齐,确保这些参数能够有效整合到小型模型中。
  3. 参数注入:这一过程强调在对齐后直接注入参数,减少了后续训练所需的资源和时间。

通过上述流程,就可以将较大模型中的参数知识转换为在较小模型中可受用的知识进而进行注入,以避免参数空间的差异性导致的性能丢失。

3 对齐实验分析

在实验部分,研究者针对多个基准数据集,涵盖世界知识(MMLU),数学推理(GSM8K)和代码能力(HumanEval 和 MBPP)进行了详细评估。

图表 2:展示 Post-Align PKT 和 Pre-Align PKT 在不同数据集上的性能表现

实验结论:

  • 对于 Post-Align PKT,论文将其同利用 SVD 从模型自身获取 LoRA 的 PiSSA 方法对比,结果发现 PiSSA 在相同设置下优于 Seeking,证明从较大模型抽取的参数知识不如利用模型自身知识作为 LoRA 初始化,进一步怀疑其可行性。
  • 对于 Pre-Align PKT,结果显示,只需要极少的训练步数和数据开销,LaTen 能有效取得性能提升。但是 Pre-Align PKT 通过训练实现参数对齐的方式受到极大限制,无法超越较大 LLM 的能力上界,同时训练不太稳定,没有明显收敛。

此外,论文从另一个方面来验证目前阶段的 PKT 是否有效。既然假设迁移的参数知识中包含了有用的特定任务的知识,那么在特定任务上表现更好的模型,理应在迁移后能让小模型的性能更好。因此,研究者在代码任务上开展了这一探索实验:

图表 3:基于更强的较大 LLM 向较小 LLM 传递知识,左图为 Post-Aligh PKT 实验结果,右图为 Pre-Align PKT 实验结果

实验结果证明了两种 PKT 在这种设置下的失败,让人疑惑为什么跨规模 PKT 无法有效实现?

4 为什么跨规模 PKT 失败?

PKT 的核心任务在于对齐(Align),不管是通过后续训练还是提前通过超网络实现,是否能有效实现对齐是 PKT 成功的关键。从现有实验结果来看,PKT 并没有有效实现对齐,那么阻碍的关键在哪?

论文从表现相似度(representation similarity)和参数相似度(parametric similarity)出发,分析跨规模大模型在行为方式和内部参数结构的相似度是否会导致跨规模 PKT 的失败,称为神经不兼容性(Neuron Incompatibility)。

图表 4:跨规模大模型之间的表现相似度分析

对于表现相似度的分析,论文采用了中心核对齐(Centered Kernel Alignment, CKA)方法,该方法基于 Hilbert-Schmidt 独立性准则(HSIC),用于计算神经网络中特征表示的相似性。该指标评估了两个模型之间行为的相似性,可以视为大语言模型的行为相似性。

如图 4 所示,Llama2-7B 和 13B 之间的相似性较低,尤其是在多头自注意力(MHSA)模块中,该模块在信息整合中扮演着至关重要的角色。有趣的是,上投影层的相似性较高,这可能是因为它们作为关键记忆,捕捉特定的输入模式,而这些模式通常在不同模型间是一致的。跨规模大模型之间的低相似性也解释了为何从同一模型衍生的 LoRA 表现更好,因为它与模型的内在行为更为贴合。证明跨规模大语言模型之间的表示相似性较弱是导致神经不兼容性的关键因素之一,这使得理想的参数知识转移成功变得困难。

5 总结与展望:理想的 PKT 尚待实现

人类从牙牙学语到学贯古今,通过语言和文字在历史长河中不断汲取知识,通过吸收和迭代实现知识的传承。

然而,我常幻想能实现,类似科幻小说中三体人直接通过脑电波传递所有知识,或利用一张链接床就能把人类的意识输入到纳威人体内,这是一种更理想的知识传递方式,而开放的大模型参数正有可能实现这一点。

通过将 PKT 根据 Align 进行划分,我们完成了对现有阶段 PKT 的全面研究,找出了实验结果欠佳的背后是不同规模大模型之间参数知识本质上的行为和结构的差异。

但仍期望,在未来大模型之间的交流不再局限于语言这种有损的压缩方式,而去尝试更高效直接的迁移方法。

语言,或许是人类知识的起点,但不一定是大模型的终点。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人狂自有天收

人狂自有天收

李老逵乱摆龙门阵
2025-09-11 09:01:28
家电三巨头差距断崖:美的净利润385亿,海尔187亿,格力令人意外

家电三巨头差距断崖:美的净利润385亿,海尔187亿,格力令人意外

有范又有料
2026-03-24 10:59:07
20人老头乐公司起诉小米汽车,把网友们CPU干冒烟了……

20人老头乐公司起诉小米汽车,把网友们CPU干冒烟了……

柴狗夫斯基
2026-03-26 11:44:33
一名重大经济犯罪嫌疑人被押解回国

一名重大经济犯罪嫌疑人被押解回国

新华社
2026-03-26 15:00:03
70万韩国青年,选择“消失”

70万韩国青年,选择“消失”

中国新闻周刊
2026-03-26 09:30:07
iPhone4回收价暴涨80倍?借着二手手机涨价热点的又一波疯狂收割

iPhone4回收价暴涨80倍?借着二手手机涨价热点的又一波疯狂收割

柴狗夫斯基
2026-03-26 21:15:05
9.9元战火未熄,库迪用“不限量”掀了桌子!给瑞幸整不会了

9.9元战火未熄,库迪用“不限量”掀了桌子!给瑞幸整不会了

品牌观察官
2026-03-26 17:17:59
西安某建筑公司全方位崩塌!

西安某建筑公司全方位崩塌!

黯泉
2026-03-26 18:49:04
“鸡蛋界的LV”,安全了吗

“鸡蛋界的LV”,安全了吗

中国新闻周刊
2026-03-26 13:01:31
追悼会前,张雪峰婚姻状况被扒,现任身份不一般,恐影响遗产分配

追悼会前,张雪峰婚姻状况被扒,现任身份不一般,恐影响遗产分配

喜欢历史的阿繁
2026-03-26 14:40:54
26号收评:沪指失守3900点,所有人都注意了,大盘后市开始这样看

26号收评:沪指失守3900点,所有人都注意了,大盘后市开始这样看

春江财富
2026-03-26 15:26:22
男人的生理需求能有多难忍?网友:我对我老公只有动物本能

男人的生理需求能有多难忍?网友:我对我老公只有动物本能

带你感受人间冷暖
2026-02-07 03:58:56
日媒:日本高中生起诉市政府和日本政府,指控市政府擅自将个人信息提交给防卫省用于招募

日媒:日本高中生起诉市政府和日本政府,指控市政府擅自将个人信息提交给防卫省用于招募

环球网资讯
2026-03-26 20:44:05
“中园石化”被立案调查

“中园石化”被立案调查

每日经济新闻
2026-03-25 11:13:18
狂赚18亿!比爱马仕还狠的运动奢侈品,正在掏空中产的钱包

狂赚18亿!比爱马仕还狠的运动奢侈品,正在掏空中产的钱包

青眼财经
2026-03-17 16:03:09
2022年,江苏一老师路边花30元买1条上交,专家:很多年没见过了

2022年,江苏一老师路边花30元买1条上交,专家:很多年没见过了

万象硬核本尊
2026-03-26 22:23:37
上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

黄河新闻网吕梁
2026-03-26 15:14:06
“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

火山詩话
2026-03-26 11:11:22
保姆偷拿我两瓶茅台,我辞退未揭穿,临走她指我旧鞋,剪开后我懵了...

保姆偷拿我两瓶茅台,我辞退未揭穿,临走她指我旧鞋,剪开后我懵了...

感觉会火
2026-03-26 12:06:22
快提醒家里长辈:广州老年人优待卡满两年记得续期!手机就能办

快提醒家里长辈:广州老年人优待卡满两年记得续期!手机就能办

城事特搜
2026-03-26 19:13:51
2026-03-27 00:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
艺术
亲子
房产
公开课

转头就晕的耳石症,能开车上班吗?

艺术要闻

都说乌克兰美女多,看完摄影师贝格玛 的作品我信了!

亲子要闻

看看把孩子吓得哈哈哈

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版