大模型训练烧钱如流水,但谷歌最近放了个「省钱大招」——用一张架构图让训练成本直降四成。这背后不是魔法,是对计算资源的重新理解。
一张图看懂:什么是「专家混合」?
![]()
谷歌这次的核心是「专家混合」(Mixture-of-Experts,简称MoE)。简单说:以前的大模型像个「全能学霸」,每道题都亲自算;MoE则像「专科会诊系统」,把任务分给不同领域的「小专家」。
关键设计在「门控网络」——它决定输入该找哪位专家。比如处理代码时激活编程专家,翻译时调用语言专家。每次只调用约10%的参数,其余「睡觉省电」。
谷歌Gemini 1.5 Pro就用了这招。万亿参数规模,推理成本却和百亿级模型相当。省下的不只是电费,是训练时间——从数月压缩到数周。
为什么现在才火?三个瓶颈刚打通
MoE不是新概念,1991年就有人提。但直到最近才实用化,因为三道坎:
第一,通信开销。专家分散在不同芯片,互相传数据曾是噩梦。谷歌用「路径并行」优化,让专家像本地调用一样快。
第二,负载均衡。如果所有请求都砸向「编程专家」,系统会崩溃。新算法强制均匀分配,谁闲谁上。
第三,训练稳定性。稀疏激活容易「塌房」——某些专家永远不被选中,变成废参数。谷歌加了辅助损失函数,逼每个专家都有活干。
省钱的代价:什么场景不适合?
MoE不是万能药。它的优势在「批量大、任务杂」——比如同时处理搜索、翻译、代码生成。但小批量、单任务场景,路由开销反而拖后腿。
更隐蔽的风险是「专家崩溃」:训练后期某些专家垄断特定任务, diversity(多样性)丧失。谷歌的解决方案是「专家容量限制」——每个专家有接单上限,倒逼系统保持弹性。
国内厂商也在跟进。DeepSeek-MoE、阿里Qwen-MoE都用了类似思路,但实现细节差异很大。谷歌这篇论文的价值,是把工程 trick(技巧)系统化,变成可复现的配方。
这对从业者意味着什么?
如果你在做大模型选型,记住这个公式:MoE适合「参数规模大、调用频次高、任务类型杂」的场景。创业公司可以用它撬动十倍参数量的效果,而不必烧同等算力。
更长远看,MoE代表了AI架构的进化方向——从「大力出奇迹」到「精准调度」。当算力不再是唯一壁垒,工程优化能力会成为新的护城河。
谷歌已经开源了部分实现。下次你的训练预算超支时,不妨先看看这张图——也许40%的成本,就藏在路由策略里。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.