Gemma 4系列里最有意思的不是31B旗舰款,而是26B A4B这个型号。它有260亿总参数,每次推理却只激活40亿参数,性能却跟稠密31B几乎一样。如果这听起来像魔法,那其实不是——但背后的工程原理值得搞懂,因为它直接改变了你在本地跑近前沿模型所需的硬件配置。
稠密 vs 专家混合:核心区别在哪
![]()
标准稠密Transformer(比如Gemma 4 31B)里,每个token经过模型时都会激活所有参数。全部310亿个,每次前向传播都跑一遍。
![]()
专家混合(Mixture-of-Experts,MoE)模型则把网络拆成大量"专家"子网络。每个token由一个学习好的门控函数路由到一小部分专家,只有被选中的专家参与该token的计算。
Gemma 4 26B A4B的具体配置:
• 128个专家子网络总数
• 每个token激活8个专家(所以叫"A4B"——约40亿激活参数)
• 模型总参数260亿
推理时,你实际做的是约40亿模型的计算量。但模型有260亿参数的学习知识可供路由选择。
稠密31B:[token] → 全部310亿参数 → 输出,成本:每token 310亿FLOPs
MoE 26B A4B:[token] → 路由器 → 128选8个专家 → 输出,成本:约每token 40亿FLOPs,知识来源:260亿参数
显存才是实际问题
这里进入实用层面。显存需求由内存中的参数数量主导,而非每token的计算量。
26B A4B仍需在内存中存放全部260亿参数——至少是某一批次可能用到的所有层。bfloat16格式下约需52GB,4-bit量化(Q4_K_M)后约13-14GB。
对比稠密31B的4-bit量化:约17-18GB。
所以相比稠密31B,你确实省了有意义的显存,输出质量却几乎相同。与真正的40亿稠密模型相比的权衡:你需要3-4倍显存,但基准测试性能提升20-25倍。
26B A4B的硬件门槛:16GB消费级显卡(RTX 4080、4090)可以4-bit运行,32GB统一内存的Mac可以8-bit舒适运行,不需要多卡配置。
本地运行26B A4B的方法
Ollama
ollama pull gemma4:26b
ollama run gemma4:26b
Ollama自动处理量化,16GB显卡默认应用Q4。
llama.cpp
![]()
# 下载量化后的GGUF
huggingface-cli download unsloth/gemma-4-26b-a4b-it-GGUF \
--local-dir ./gemma4-26b \
--include "gemma-4-26b-a4b-it-Q4_K_M.gguf"
# 运行
llama-server \
-m ./gemma4-26b/gemma-4-26b-a4b-it-Q4_K_M.gguf \
--ctx-size 32768 \
--n-gpu-layers 40 \
--host 0.0.0.0 \
--port 8080
MLX(Apple Silicon)
pip install mlx-lm
mlx_lm.generate \
--model mlx-community/gemma-4-26b-a4b-it-4bit \
--prompt "Explain the tradeoffs between B-trees and LSM-trees for write-heavy workloads" \
--max-tokens 1024
M3 Max(128GB)上运行速度约每秒30-40 token,M4 Pro(48GB)上4-bit约每秒20-30 token。
路由器是怎么工作的
门控网络
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.