网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

26B参数只跑4B算力：Gemma 4的"专家混合"是怎么省钱的

2026-05-25 01:00:44　来源: 我是一个粉刷匠2

北京举报

0

分享至

Gemma 4系列里最有意思的不是31B旗舰款，而是26B A4B这个型号。它有260亿总参数，每次推理却只激活40亿参数，性能却跟稠密31B几乎一样。如果这听起来像魔法，那其实不是——但背后的工程原理值得搞懂，因为它直接改变了你在本地跑近前沿模型所需的硬件配置。

稠密 vs 专家混合：核心区别在哪

标准稠密Transformer（比如Gemma 4 31B）里，每个token经过模型时都会激活所有参数。全部310亿个，每次前向传播都跑一遍。

专家混合（Mixture-of-Experts，MoE）模型则把网络拆成大量"专家"子网络。每个token由一个学习好的门控函数路由到一小部分专家，只有被选中的专家参与该token的计算。

Gemma 4 26B A4B的具体配置：

• 128个专家子网络总数

• 每个token激活8个专家（所以叫"A4B"——约40亿激活参数）

• 模型总参数260亿

推理时，你实际做的是约40亿模型的计算量。但模型有260亿参数的学习知识可供路由选择。

稠密31B：[token] → 全部310亿参数 → 输出，成本：每token 310亿FLOPs

MoE 26B A4B：[token] → 路由器 → 128选8个专家 → 输出，成本：约每token 40亿FLOPs，知识来源：260亿参数

显存才是实际问题

这里进入实用层面。显存需求由内存中的参数数量主导，而非每token的计算量。

26B A4B仍需在内存中存放全部260亿参数——至少是某一批次可能用到的所有层。bfloat16格式下约需52GB，4-bit量化（Q4_K_M）后约13-14GB。

对比稠密31B的4-bit量化：约17-18GB。

所以相比稠密31B，你确实省了有意义的显存，输出质量却几乎相同。与真正的40亿稠密模型相比的权衡：你需要3-4倍显存，但基准测试性能提升20-25倍。

26B A4B的硬件门槛：16GB消费级显卡（RTX 4080、4090）可以4-bit运行，32GB统一内存的Mac可以8-bit舒适运行，不需要多卡配置。

本地运行26B A4B的方法

Ollama

ollama pull gemma4:26b

ollama run gemma4:26b

Ollama自动处理量化，16GB显卡默认应用Q4。

llama.cpp

# 下载量化后的GGUF

huggingface-cli download unsloth/gemma-4-26b-a4b-it-GGUF \

--local-dir ./gemma4-26b \

--include "gemma-4-26b-a4b-it-Q4_K_M.gguf"

# 运行

llama-server \

-m ./gemma4-26b/gemma-4-26b-a4b-it-Q4_K_M.gguf \

--ctx-size 32768 \

--n-gpu-layers 40 \

--host 0.0.0.0 \

--port 8080

MLX（Apple Silicon）

pip install mlx-lm

mlx_lm.generate \

--model mlx-community/gemma-4-26b-a4b-it-4bit \

--prompt "Explain the tradeoffs between B-trees and LSM-trees for write-heavy workloads" \

--max-tokens 1024

M3 Max（128GB）上运行速度约每秒30-40 token，M4 Pro（48GB）上4-bit约每秒20-30 token。

路由器是怎么工作的

门控网络

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

不上云、不租卡，如何优雅地在本地微调Qwen-VL-30B？

机器之心Pro 2026-01-13 12:57:27
0 跟贴 0
QVGen让「超低比特视频生成量化」真正可用！

机器之心Pro 2026-02-25 18:07:24
0 跟贴 0

大模型API的大众点评来了：7×24小时实测，毫秒级延迟智能路由

量子位 2026-02-02 11:48:44
2 跟贴 2

MoE路由拥有「记忆」：RMS-MoE用检索记忆协同实现更高效专家调度

机器之心Pro 2026-05-09 09:37:42
0 跟贴 0
马斯克曝光Grok 5！1.5万亿参数，偷师Cursor狂练编程

新智元 2026-05-26 15:36:58
3 跟贴 3

Python逆天改命！开源Hermes首次击败OpenAI Codex

新智元 2026-05-26 22:28:24
10 跟贴 10

不只是调用API，Spatial-Agent让大模型生成可执行地理分析工作流

机器之心Pro 2026-05-26 14:32:03
0 跟贴 0
腾讯做了个免费的吐司，我用它半天手搓四个APP

智东西 2026-05-26 00:37:41
28 跟贴 28

1000 倍效率神话，Taalas如何用 “模型即芯片” 暴打英伟达

钛媒体APP 2026-02-24 15:35:10
0 跟贴 0
内存正在毁掉一切，所有的AI都要算力

爱范儿 2026-05-13 09:43:34
6 跟贴 6
互通版内存占用过高如何瘦身？解决锦衣祥瑞是关键

梦幻小视界 2026-05-26 09:45:49
2 跟贴 2
男子想用虹吸原理给室内排水，结果试验了一上午也没成功，男子：这到底是为什么呢

氧气周末 2026-05-25 18:33:47
179 跟贴 179
Unity手游优化实战：从10万棵树到零崩溃的完整清单

赛博兰博 2026-05-26 00:43:15
0 跟贴 0
“最严禁令”下，泰山石照卖不误：有人借河道工程盗采囤石上千吨，快递面单写成“日用品”

新京报 2026-05-26 11:45:53
1934 跟贴 1934
放弃云智能家居后，我的房子终于能用了

闪存猎手 2026-05-24 04:02:37
0 跟贴 0
AI越强，你的手机越贵？一张账单揭开AI芯片涨价潮的真相

钛媒体APP 2026-05-26 12:20:28
0 跟贴 0
一个传送带上的滑块，在中学的摩擦力模型中，从上面滑下来的时间与传送带运行速度是否相关？

苟胜老师 2026-05-25 18:05:16
0 跟贴 0
司机称行车记录仪时速不到60km/h，监控抓拍达121km/h 交警：设备无问题律师释法

红星新闻 2026-05-26 16:49:49
1527 跟贴 1527
美国副总统万斯或放弃2028年的美国总统竞选，接近特朗普的消息人士：“万斯在白宫中毫无存在感，鲁比奥比他更有魔力”

极目新闻 2026-05-26 13:06:23
1223 跟贴 1223
英媒：打不过就加入中企正接管衰败的欧洲汽车工厂

澎湃新闻 2026-05-26 14:50:41
1032 跟贴 1032
样貌小变，硬件大涨！探店新一代传祺向往E8 PHEV

蜗牛车志V 2026-05-26 11:48:13
0 跟贴 0
广州官宣：试点收购300万元以内、70㎡以下二手住宅，楼龄不限

南方都市报 2026-05-26 12:17:57
1068 跟贴 1068
第三轮第六批中央生态环境保护督察公布广东广西两省区典型案例

新京报 2026-05-26 10:14:20
517 跟贴 517
路人大哥拿跟绳子这招是什么原理，车子怎么一下子就上来了

无我漂佩MY 2026-05-24 05:00:42
0 跟贴 0
台股总市值升至全球第五

参考消息 2026-05-26 19:06:20
902 跟贴 902
电视剧中的菜竟是模型，怪不得演员只吃花生米，这谁能咬得动！

搞笑汪星球 2026-05-25 13:54:10
0 跟贴 0
坦克是躺着开的，美国M1坦克工作原理，超乎你的想象！

大国探索室 2026-05-25 21:59:48
0 跟贴 0
299高考数学上海卷 19 分段函数取值范围及最值计算

我服子佩 2026-05-26 12:58:51
1 跟贴 1
集中爆发！宁波多地惊现罕见景观！有人半夜11点刷到立马起床出发，连夜奔赴

上观新闻 2026-05-23 11:46:10
535 跟贴 535
Mac Pro合金大机箱，内存强大坚固耐用

装甲铲史官 2026-05-26 11:28:02
29 跟贴 29
以军在黎巴嫩南部开展地面攻势

界面新闻 2026-05-26 22:40:30
723 跟贴 723
307函数问题-2020国考（副省）66将一个圆盘形零件匀

我服子佩 2026-05-26 13:03:41
1 跟贴 1
鬼子围攻爆破专家，怎料专家在门上安炸弹，一开门鬼子全军覆没

影中见影 2026-05-26 20:29:10
1 跟贴 1
“感谢学校让拾荒老人进校”，毕业生论文致谢引关注！

环球网资讯 2026-05-26 13:33:30
449 跟贴 449
五常军队都用什么型号步枪

悟空军武 2026-05-26 21:37:42
1 跟贴 1
驾驶员注意！驾驶新规，6月1日起执行

新京报 2026-05-26 12:00:23
416 跟贴 416
美国海军伯克级驱逐舰第88艘开工！但有13艘要面临退役了！

阿龙聊军事 2026-05-26 18:13:05
1 跟贴 1
突然爆发！2000亿巨头，午后涨停

证券时报 2026-05-26 17:40:36
230 跟贴 230
这次是真的卖爆了！问界M6上市首月交付突破20000台

泡泡网 2026-05-26 10:46:24
40 跟贴 40
每瓶仅含0.01克，喝几千瓶才抵一个桃！“饮料一哥”也翻车了？杭州多家超市在售，你可能也喝过

都市快报橙柿互动 2026-05-24 20:48:16
69 跟贴 69

兵贵神速！切尔西签下5大新援静待阿隆索走马上任

兵贵神速！切尔西签下5大新援静待阿隆索走马上任

球事百科吖

2026-05-27 04:35:24

胖东来真刚！男子买茶叶后发现其中一根头发，客服直接退1赔10

胖东来真刚！男子买茶叶后发现其中一根头发，客服直接退1赔10

听心堂

2026-05-26 14:57:43

0-3输日本，国乒男单丢冠！3对混双无缘8强！曼谷站国青小将7冠收官

0-3输日本，国乒男单丢冠！3对混双无缘8强！曼谷站国青小将7冠收官

好乒乓

2026-05-26 15:43:57

广东建行原副行长突然被带走，曾跳槽地产高管、年薪551万

广东建行原副行长突然被带走，曾跳槽地产高管、年薪551万

湘财Plus

2026-05-26 19:04:32

真性情！当着全世界的面，这个女发言人把日本记者骂到全场死寂！

真性情！当着全世界的面，这个女发言人把日本记者骂到全场死寂！

菁菁子衿

2026-05-26 21:25:11

伊朗使用新武器

鲁中晨报

2026-05-26 09:06:47

缺2大外上海凭啥掀翻广厦！数据一目了然4人立大功，王博这下难了

缺2大外上海凭啥掀翻广厦！数据一目了然4人立大功，王博这下难了

后仰大风车

2026-05-26 21:43:12

以毒攻毒！德拉罗萨妻子：若把我丈夫移交海牙，就是马科斯的共犯

以毒攻毒！德拉罗萨妻子：若把我丈夫移交海牙，就是马科斯的共犯

潋滟晴方DAY

2026-05-27 04:36:30

金小刀或入狱？不到24小时，萧旭岑抵达大陆，对民进党喊出四个字

金小刀或入狱？不到24小时，萧旭岑抵达大陆，对民进党喊出四个字

共工之锚

2026-05-26 14:01:35

雷军称计划月底停用推荐码：使用我的推荐码的车主实在太多，我有点扛不住了；此前多次在微博附上自己的推荐码供车主锁单

雷军称计划月底停用推荐码：使用我的推荐码的车主实在太多，我有点扛不住了；此前多次在微博附上自己的推荐码供车主锁单

鲁中晨报

2026-05-25 21:22:20

尴尬了！女选手泳装移位露胸照片被直播推送，10000人围观超1小时

尴尬了！女选手泳装移位露胸照片被直播推送，10000人围观超1小时

火山詩话

2026-05-26 08:13:11

内塔尼亚胡夜间突然被急送医，外界提前关注“后内塔尼亚胡时代”

内塔尼亚胡夜间突然被急送医，外界提前关注“后内塔尼亚胡时代”

阿龙聊军事

2026-05-26 20:44:21

塞尔维亚爆发大规模抗议！议长否认俄罗斯为“兄弟国家”

塞尔维亚爆发大规模抗议！议长否认俄罗斯为“兄弟国家”

项鹏飞

2026-05-25 19:58:08

塞尔维亚或迎巨变，数万民众涌上首都街头，武契奇十年统治恐终结

塞尔维亚或迎巨变，数万民众涌上首都街头，武契奇十年统治恐终结

近史博览

2026-05-25 01:28:35

梅德韦杰夫法网首轮出局，曾让辛纳吃尽苦头

梅德韦杰夫法网首轮出局，曾让辛纳吃尽苦头

篮坛第一线

2026-05-27 00:43:26

25岁海归男子恋上浙江离异老板娘，分手后追讨12万：每个月给她点外卖都要五六千，对方却没转过一分钱，每次转账还要写自愿赠与，准备起诉

25岁海归男子恋上浙江离异老板娘，分手后追讨12万：每个月给她点外卖都要五六千，对方却没转过一分钱，每次转账还要写自愿赠与，准备起诉

极目新闻

2026-05-26 15:56:29

美股太空板块盘前飙升 Momentus飙升80%

美股太空板块盘前飙升 Momentus飙升80%

每日经济新闻

2026-05-26 20:11:49

霉霉与男友前排观战NBA，一个动作让全场沸腾

霉霉与男友前排观战NBA，一个动作让全场沸腾

浅遇时光

2026-05-27 01:40:27

小S分享归宁宴上的大S，大S穿旗袍戴水晶吊坠，拿相机笑容灿烂

小S分享归宁宴上的大S，大S穿旗袍戴水晶吊坠，拿相机笑容灿烂

素素娱乐

2026-05-26 20:52:22

台湾网红与张雪见面：你是我偶像！台湾把你视为神见到820激动

台湾网红与张雪见面：你是我偶像！台湾把你视为神见到820激动

念洲

2026-05-26 18:15:02

我是一个粉刷匠2

有态度网友ytd

3863文章数 39关注度

往期回顾全部

科技要闻

中国AI要向外卷，而不只是做第二个OpenAI

头条要闻

以色列：初步评估显示哈马斯新任军事领导人被打死

头条要闻

以色列：初步评估显示哈马斯新任军事领导人被打死

体育要闻

上赛季差点降入英甲，下赛季要踢英超了

娱乐要闻

台媒贴脸！S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单下一个“煤炭”大周期？

汽车要闻

涉水加强福特烈马亚马逊限量版上市售价39.98万

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

时尚

亲子

数码

公开课

军事航空

蓝色系穿搭太适合夏天了！快来看看这些穿搭示范，美得不重样

亲子要闻

儿子和妈妈的关系好，往往将来更有出息。

数码要闻

CPU缺货涨价持续！国产芯片借势突破高端壁垒

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

美伊在阿巴斯港附近短暂交火交战过程披露

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版