网易首页 > 网易号 > 正文 申请入驻

华为诺亚发布ScaleNet:模型放大通用新范式

0
分享至



在基础模型领域,模型规模与性能之间的缩放定律(Scaling Law)已被广泛验证,但模型增大也伴随着训练成本、存储需求和能耗的急剧上升。如何在控制参数量的前提下高效扩展模型,成为当前研究的关键挑战。

针对这一挑战,来自北京理工大学、华为诺亚方舟实验室及香港城市大学的研究团队提出了 ScaleNet 方法。该方法创新性地实现了 “用仅少量额外参数量,将模型深度扩展一倍”,并在视觉 Transformer(ViT)和大语言模型(LLM)上均验证了其有效性,显著提升了模型性能。这一成果表明 ScaleNet 具备成为通用、经济高效的模型扩展框架的潜力,适用于视觉与语言多种任务。



  • 论文地址:https://arxiv.org/abs/2510.18431
  • 开源代码:https://github.com/Hao840/ScaleNet

研究动机:模型扩展的高昂成本

当前,从头训练一个大规模模型计算代价巨大。为此,研究界探索了 “渐进式训练”(Progressive Training)等方法,通过复用小模型的权重来初始化大模型,以加速训练。然而,这些方法通常会引入大量新的、独立的参数,不仅拖慢了优化进程,也带来了巨大的存储开销。

针对这一核心问题,ScaleNet 提出可以在保持参数效率的同时,实现模型的有效扩展。

核心方法:权重共享与增量调整

ScaleNet 的核心设计结合了两种技术:层级权重共享(Layer-wise Weight Sharing)和轻量级适配器(Lightweight Adapter)。

技术一:层级权重共享,实现参数高效

不同于为新层引入全新参数的传统做法,ScaleNet 让新增加的层与预训练模型中的已有层共享同一套参数。如下图所示,传统的渐进式训练(a)中,新层拥有独立的参数。而在 ScaleNet(b)中,新层与原始层共享参数(Weight sharing)。这种设计极大地提升了参数效率,并通过复用已有知识加速了模型的学习过程。



图 1 渐进式训练与 ScaleNet 的对比

技术二:轻量级适配器,赋予共享层特异性

完全的权重共享可能导致不同层功能趋同,限制模型的表达能力。为解决此问题,ScaleNet 为每个共享层引入了一个小型的、可训练的并行适配器模块(Adapter Module)。该模块仅包含极少量的调整参数,用于为每个共享层实例提供独特的调整,使它们在共享知识主体的同时,又能学习到各自的特异化功能,从而保证了扩展后模型的容量和性能。



图 2 ScaleNet 的整体框架

实验结果与分析

基于视觉模型的性能与效率评估

在 ImageNet-1K 图像分类任务上,ScaleNet 在多种模型架构(如 DeiT 和 Swin)上均表现出色,在参数量相近的情况下,稳定取得了比基线方法更高的准确率。



表 1 ScaleNet 与 baseline 方法的性能对比

相比于直接训练,ScaleNet 另一个优势体现在训练效率上。以 24 层的 DeiT-Small 模型为例:

  • 从零训练:训练 300 个 epoch,耗时 47.3 小时,准确率为 79.31%。
  • ScaleNet:仅需 100 个 epoch,耗时 15.8 小时,准确率达到 81.13%。



表 2 直接训练与 ScaleNet 之间的开销与性能对比

这一结果表明,ScaleNet 通过有效利用预训练知识,大幅缩短了训练周期,同时获得了更优的模型性能。

基于大语言模型的通用性验证

为了验证 ScaleNet 作为一种通用方法的潜力,研究团队将其应用到了自然语言处理领域。他们使用 ScaleNet 对 Llama-3.2-1B 语言模型进行扩展,并在多个常识推理基准测试集上进行评估。

实验结果(如表 3 所示)表明,扩展后的模型在 BoolQ、PIQA、HellaSwag 等多个任务上均超越了原始模型,平均性能提升了 0.92%。这一成功实践证明,ScaleNet 的核心思想并不局限于视觉领域,而是一种具备跨模态通用性的模型扩展框架。



表 3 在大语言模型上的实验结果

此外,该方法在目标检测、语义分割等下游视觉任务中同样取得了稳定提升,进一步证实了其良好的泛化能力。

总结

ScaleNet 框架通过层级权重共享与轻量级适配器的有效结合,为预训练模型的扩展提供了一条高效、低成本的技术路径。它不仅在视觉任务上大幅提升了训练效率和模型性能,还通过成功应用于大语言模型证明了其作为一种通用扩展范式的巨大潜力。这项工作为开发更大、更强且更经济的 AI 模型提供了新的思路,对促进 AI 领域的可持续发展具有积极意义。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
和中国打过仗的印度和越南,为啥都不买中国武器?

和中国打过仗的印度和越南,为啥都不买中国武器?

老范谈史
2025-11-18 19:01:04
11连胜东部第一!活塞拒老鹰19分逆转 坎宁安复出25+6+10

11连胜东部第一!活塞拒老鹰19分逆转 坎宁安复出25+6+10

醉卧浮生
2025-11-19 11:01:30
解放军做好了最坏打算,测试三战场景,推演结果与美方十分相似

解放军做好了最坏打算,测试三战场景,推演结果与美方十分相似

文史旺旺旺
2025-10-28 21:01:09
为了与中方达成协议,特朗普对台联砍三刀,现又力挺台湾是何居心

为了与中方达成协议,特朗普对台联砍三刀,现又力挺台湾是何居心

千雪新说
2025-11-19 21:58:17
团体责任感爆棚的孙颖莎!球拍还没放下,就迫不及待与队友讲解战术

团体责任感爆棚的孙颖莎!球拍还没放下,就迫不及待与队友讲解战术

上观新闻
2025-11-19 21:58:05
为了嫁50亿富豪甩了周一围,丈夫入狱后,她成了内娱最大的笑柄

为了嫁50亿富豪甩了周一围,丈夫入狱后,她成了内娱最大的笑柄

洲洲影视娱评
2025-10-19 15:02:20
国际模特大赛广东总冠军小姐曝光,广东网友纷纷向全国人民道歉

国际模特大赛广东总冠军小姐曝光,广东网友纷纷向全国人民道歉

七月生活情感驿站
2025-11-19 13:38:10
若中美开战,美摧毁北斗卫星,中国将如何应对?4大杀手锏已就位

若中美开战,美摧毁北斗卫星,中国将如何应对?4大杀手锏已就位

春风秋雨
2025-10-29 19:55:04
彭总视察哈军工,晚饭时看到一学员,便问陈赓:他有什么资格坐这

彭总视察哈军工,晚饭时看到一学员,便问陈赓:他有什么资格坐这

鹤羽说个事
2025-11-12 15:50:09
高市早苗拒不道歉,多位日本艺人公开表态,林志玲老公却沉默了

高市早苗拒不道歉,多位日本艺人公开表态,林志玲老公却沉默了

说历史的老牢
2025-11-19 14:47:01
36岁瞿秋白慷慨赴死,建国后毛主席却说:以后少纪念他!有何隐情

36岁瞿秋白慷慨赴死,建国后毛主席却说:以后少纪念他!有何隐情

浩舞默画
2025-09-05 08:26:07
超50万张赴日机票被退订,赴日旅客量连续三天大幅下滑

超50万张赴日机票被退订,赴日旅客量连续三天大幅下滑

第一财经资讯
2025-11-19 16:54:50
美网炸裂,爱泼斯坦邮件公布,特朗普给克林顿吹过X,还有照片

美网炸裂,爱泼斯坦邮件公布,特朗普给克林顿吹过X,还有照片

社会酱
2025-11-18 17:07:49
中国官员双手插兜,怒视日本,这一载入史册的画面,是什么含义?

中国官员双手插兜,怒视日本,这一载入史册的画面,是什么含义?

江平舟
2025-11-19 16:09:46
第一个力挺中国的战友出现!只要日本敢出兵,立马使出一大绝招

第一个力挺中国的战友出现!只要日本敢出兵,立马使出一大绝招

凡知
2025-11-19 21:28:17
向FIFA施压解禁!俄罗斯在世界杯期间办赛 拉拢国足+7大出局强队

向FIFA施压解禁!俄罗斯在世界杯期间办赛 拉拢国足+7大出局强队

我爱英超
2025-11-19 18:04:56
再见皇马!6500万新大罗离队!传射兼备,天赋高,远赴法甲拿金靴

再见皇马!6500万新大罗离队!传射兼备,天赋高,远赴法甲拿金靴

阿泰希特
2025-11-19 11:38:19
银行女柜员嘲讽深圳花白老头,第二天收到一条通知,行长愤怒不已

银行女柜员嘲讽深圳花白老头,第二天收到一条通知,行长愤怒不已

古书记史
2025-11-19 10:45:30
前辈是怎么找到她同事家的?!

前辈是怎么找到她同事家的?!

贵圈真乱
2025-11-19 14:14:07
儿子病逝,儿媳带孙子去了北方,15年后孙子突然回来,我泪如雨下

儿子病逝,儿媳带孙子去了北方,15年后孙子突然回来,我泪如雨下

媛来这样
2025-11-19 08:50:14
2025-11-19 23:35:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11756文章数 142508关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日媒:中方官员双手插兜 暗示"14亿中国人都很愤怒"

头条要闻

日媒:中方官员双手插兜 暗示"14亿中国人都很愤怒"

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

艺术
家居
本地
时尚
公开课

艺术要闻

启功:我是画家,但书名超过了画名

家居要闻

水岸美学 书香人文生活

本地新闻

第十二届影展携手重庆来福士丨两江交汇,光影共生

毛衣+阔腿裤、羽绒服+裙子,这5组搭配照着穿就很时髦!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版