松果财经讯,面壁智能近日发布了一款基于全新稀疏-线性混合架构(SALA)的9B参数规模模型,在提升推理效率与降低计算成本方面取得重要突破。
![]()
SALA架构的核心在于将稀疏激活机制与线性变换路径进行有机融合。与传统密集模型在每次推理时激活全部参数不同,SALA通过动态路由策略,仅为特定输入激活部分专家模块,大幅降低了计算开销。与此同时,模型中引入的线性计算路径能够高效处理通用特征,与稀疏专家模块形成协同。
面壁智能团队表示,这一设计使得9B模型在实际推理时的激活参数量仅相当于3B级别模型,却保持了接近甚至超越同规模密集模型的性能表现。在语言理解、代码生成与长文本处理等多项评测中,SALA-9B展现出优异的精度-效率平衡。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.