海外对美团开源的这个模型 LongCat-Flash 评价不错啊,刷到好几个介绍贴了。
基准测试与 DeepSeek-V3、Qwen3 等差不多,同时推理速度非常快,比DeepSeek-V3 快了至少一倍,在千亿参数量下,还能用低成本实现100 tokens/秒的推理速度,非常经济了可以说。
仔细看了一下论文和介绍记个笔记
MoE 模型总参数 560B,激活参数平均 27B,能根据上下文自适应激活参数数量。
在 20T 数据上训练,数据处理包括:长上下文扩展,预处理有抽取、过滤和去重。
得益于“Zero-Computational expert”机制。模型架构创新包括每层有两个注意力块(Attention block),同时包含前馈网络(FFN)和混合专家(MoE),并引入零计算专家作为“汇聚点”,让简单 token 可以选择不计算,提升效率。
负载均衡方面,采用类似 dsv3 的辅助损失和衰减机制。扩展性上,模型先训练小模型再堆叠扩展,并用超参数迁移优化。稳定性方面,跟踪梯度范数比和专家余弦相似度,采用 z-loss 控制激活值,优化 Adam epsilon。
生僻概念解释:
Zero-Computational expert(零计算专家):模型中的一种特殊专家,token 可以选择它而不进行实际计算,相当于“跳过”处理,节省算力。
dsv3(辅助损失机制):用于负载均衡的损失函数,帮助模型合理分配 token 到不同专家。
z-loss:一种正则化损失,用于控制隐藏状态的激活值,防止梯度爆炸。
Adam epsilon:Adam 优化器中的一个参数,影响数值稳定性,设得很小可以提升训练精度。
模型可以在这里体验:https://longcat.chat/
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.