美团首个开源大模型来了！5600亿个参数，推理速度比DeepSeek-V3快50%|编程|方差|知名企业|深度思考按钮|deepseek

分享至

智东西9月1日报道，昨日，美团发布了其首款开源大模型LongCat-Flash，这是一款拥有5600亿个总参数的MoE（混合专家）模型。

推理速度是这一模型最大的特点之一。美团称，这一模型具备快捷连接架构，扩展了计算-通信重叠窗口，实现了每秒超过100个token的推理速度，理论每token输出时间相比DeepSeek-V3降低近50%。

智东西的实测也印证了这点：我们要求其输出大约100个token的内容，除去首token延时后，输出速度确实在100 tokens/秒左右。

LongCat-Flash目前暂时不支持文件、图像等多模态内容的上传。网页端内，提供了联网搜索功能，但深度思考功能显示为“敬请期待”的状态。

在今年5月的财报电话中，美团创始人兼CEO王兴已经透露了LongCat模型的更多信息，他称，“增强后的模型（指LongCat）现在可以在推理和非推理模式之间无缝切换”，性能接近GPT-4o。王兴还在电话会议中定调称，美团在AI领域的战略是主动进攻，而不是被动防守，其AI战略包含工作中的AI、产品中的AI和自研大语言模型。

另据公众号01 Founder爆料，经过01 Founder与多方信源的交叉确认，LongCat-Flash的训练并非在英伟达GPU上完成，在其官方技术报告中，美团使用了“数万个加速卡”的模糊表述，由于一些原因，该硬件厂商的具体名字不方便透露。不过，美团对具体使用何种GPU尚无官方信息放出。

根据美团龙猫团队分享的技术报告，LongCat-Flash采用了创新的MoE架构，引入零计算专家，减少了在低难度token上浪费的计算资源，从而提升推理效率。

与DeepSeek-V3.1、Kimi-K2、Qwen3 MoE-2507等头部开源模型相比，LongCat-Flash在通用领域、编程等场景的能力还有一定差距，但在Agentic工具调用、指令遵循等场景中，LongCat-Flash达到了开源模型SOTA的水准。

这一模型已经上线Hugging Face、GitHub等开源平台，技术报告同步发布。同时，美团也提供了LongCat-Flash模型的网页版体验链接，智东西第一时间对其能力进行了体验。

Hugging Face地址：

huggingface.co/meituan-longcat

GitHub地址：

github.com/meituan-longcat/LongCat-Flash-Chat

技术报告链接：

github.com/meituan-longcat/LongCat-Flash-Chat/blob/main/tech_report.pdf

网页版：

longcat.ai/

一、锐评外卖大战阶段性战况，但算不清小学数学

智东西对LongCat-Flash的数学、编程、搜索、常识等能力进行了体验。LongCat-Flash介绍，自己的知识截止时间为2024年6月，在不开启联网的情况下，它对之后发生的事情并不了解。

当被问及腾讯元宝这一AI工具的开发者是谁时，LongCat-Flash已经无法给出正确答案，它称元宝是美团开发的。元宝的发布时间为2024年5月30号，刚好卡在其知识截止时间的边界。

紧接着，我们让LongCat-Flash完成联网搜索，整合信息并输出研报这一常见的工作流，使用的案例是最新的“外卖大战”，要求LongCat-Flash搜索美团、阿里和京东三家企业的最新财报，并对“外卖大战”做一个阶段性评估。

LongCat-Flash仅搜索了10个网页，与其他大模型相比数量较少。同时，其信源构成较为单一，主要来自百家号，缺少对权威媒体、公司官网等信源的覆盖，在明确要求其查询公司官网后，也未能在引用链接中看到相关网页。

其引用的财报数据准确，分析部分基本符合业内对阿里、美团、京东三家外卖大战的主流观点。LongCat-Flash的结论中更看好阿里，不过并未提出过多新见解。

在9.8-9.11这类大模型容易“翻车”的简单算数上，LongCat-Flash未能幸免。它很快给出了答案，但结果明显错误。可以看到，模型没有自主验证结果的准确性，更像是“拍脑门”给出了答案。

在计算利息这类更为场景化的数学题中，LongCat-Flash能给出更为全面的分析和解题过程，并最终得出正确答案。

通用知识场景中，我们让LongCat-Flash在未开启联网搜索的情况下，解释了“为什么天空在白天是蓝色的，而在日落时会变红？”这一现象。

LongCat-Flash的解释分为三个部分，不仅提供了对白天、日落时天空颜色的解释，还补充了日出时颜色与前者的区别。其引用的理论准确，还能用表格清晰呈现，并主动提供了参考科普资料。

在编程场景，我们让LongCat-Flash打造一个以龙猫为主题的小游戏。模型能按照要求在单一HTML网页中实现游戏功能，但是游戏机制设计得不合理，导致可玩性一般。

二、采用新颖MoE架构，给专家合作搭建“捷径”

技术报告中，美团分享了LongCat-Flash在模型架构设计和多阶段训练流水线的更多细节。

LongCat-Flash采用了一种新颖的MoE架构，这是模型实现较高推理效率的核心。

这一架构的主要模块如下：

1、零计算专家（zero-computation experts）

在下一个token预测任务中，本身就存在计算负载的差异性，困难的token（例如推理复杂或语境模糊的部分）需要更多算力才能预测准确，简单的token（如常见词或模式化结构）几乎不需要多少计算。

LongCat-Flash拥有一种动态算力资源分配机制，会将部分相对简单的token交给零计算专家处理。这些专家的特点是直接把输入原样输出，不做任何计算，因此不会额外增加计算成本。

每个token的激活专家数量会因上下文而异，模型因此能对重要token分配更多算力，对简单token分配更少算力，从而在相同的算力预算下，获得更好的性能。

为了让模型真正学会这种“因上下文而异”的计算分配，必须对零计算专家的平均使用比例进行细粒度控制。否则，模型可能会过度依赖普通专家，而忽视零计算专家，导致资源利用效率低下。

LongCat-Flash给每个专家引入一个专家偏置项（bias），根据其近期使用情况动态调整路由分数。这些偏置不影响语言模型的主要训练目标，仅用于保持计算资源分布的均衡。同时，LongCat-Flash还通过负载均衡控制，确保了MoE模型的高效训练。

2、快捷连接架构MoE（Shortcut-Connected MoE，ScMoE）

在大规模MoE模型中，通信开销仍是主要瓶颈。传统的执行方式下，专家并行需要严格的顺序流程：必须先完成一次全局通信，将token路由到对应的专家，然后才能开始计算。这种通信延迟会导致设备利用率不足，从而限制整体系统吞吐量。

共享专家架构尝试通过将通信与单个专家的计算重叠来缓解上述问题，但由于单个专家的计算窗口太小，效率提升有限。

为突破这一限制，美团提出了快捷连接架构MoE，在层与层之间引入跨层的捷径（Shortcut），重新排序执行流程。这一创新使得前一层的稠密计算能够与当前MoE层的分发/聚合通信并行执行，形成比共享专家更大的重叠窗口。

测试显示，ScMoE与非ScMoE基线模型的训练损失曲线几乎相同，说明这种重排不会损害模型性能。

同时，ScMoE带来显著的效率提升，更大的重叠窗口使得前一层计算可以与当前MoE通信阶段完全并行，提升训练效率。推理过程中，ScMoE启用单批次重叠流水线，使得理论每token输出时间相比头部模型（如DeepSeek-V3）降低近50%。

同时，它还支持不同通信模式并行：节点内的张量并行通信（通过NVLink实现）与节点间的专家并行通信（通过RDMA实现）可以完全重叠，最大化网络利用率。

3、可扩展的方差对齐设计

随着模型规模的扩大，一些在小规模下表现良好的架构可能变得次优，导致模型性能不稳定。通过实验和理论分析，LongCat-Flash团队发现模块内部的方差不匹配是造成这种问题的关键因素。

为此，他们提出了针对MLA（Multi-head Latent Attention，多头注意力）和MoE模块的方差对齐方法，通过引入了两个尺度修正因子和专家初始化的方差补偿，以提升模型可扩展性和稳定性。

三、模型从半规模版本扩展而来，Agent能力突出

在模型扩展与训练策略上，LongCat-Flash构建了一个完整的稳定性与扩展性框架。

LongCat-Flash团队没有直接在数千亿参数的模型上反复试错，而是采用了“以小推大”的策略：先在一个小规模的模型上系统地搜索学习率、初始化方差等参数，然后通过理论推导的规则将这些最佳配置迁移到大模型中。这种方法既节省了大量算力，又能保证超参数在大模型中依然合适。

其次，在模型初始化上，团队通过“模型增长”的方式，让训练过程更加平稳。该团队先训练了一个“半规模（half scale）”的模型，等它收敛到一定程度后，再把它扩展成完整的大模型继续训练。

新的大模型虽然在最初会出现轻微的波动，但很快就能进入稳定收敛状态，最终表现也明显优于完全随机初始化的做法。

为了进一步保证训练过程的稳定性，LongCat-Flash还配备了一套多维度的稳定性方案。

在路由层面，控制了不同专家的负载分布，避免出现有的专家过度繁忙、有的却长期闲置的情况。

在激活层面，LongCat-Flash引入了类似“保险丝”的机制，对异常大的激活值施加轻微约束，从而防止训练突然崩溃。

在优化器层面，LongCat-Flash团队对Adam的参数做了细致调整，使其在大规模训练场景下依然数值稳定。三方面配合，使模型在长时间训练中都能保持平稳，不会出现不可恢复的损失峰值。

在训练可靠性上，该团队还特别强调了可复现性和错误检测。这种严格的精度控制不仅保证了实验可复现，还能帮助快速发现和定位所谓的“静默数据损坏”（SDC），避免错误在大规模分布式系统中被掩盖。

通过这些设计，LongCat-Flash不仅能在数万张加速卡上稳定训练，还能保证训练结果可控、可靠，真正实现了在超大规模模型上的稳健扩展。

在训练流程上，模型采用多阶段管线。首先，通过双阶段预训练数据融合，逐步提升推理密集型数据（STEM知识与代码）的比例，构建出更适合后训练的基础模型。

在中期训练中，模型的上下文被扩展至128k tokens，并利用合成数据进一步增强推理与编程能力。

在后训练阶段，LongCat-Flash团队针对推理、编程和代理任务分别设计了数据与方法，尤其是提出多Agent合成框架，从信息处理、工具复杂度、用户交互三方面生成高难度任务，以锻炼模型的Agent能力。

在训练基础设施方面，团队进行了内核优化、分布式并行策略设计以及监控与容错机制的开发，使得模型能在数万张加速卡上稳定训练。

结合计算与通信编排、推测解码、KV缓存优化、量化与调度优化，模型在推理中实现了每秒超100 tokens的吞吐，并将成本控制在0.7美元/百万tokens（约合人民币5元）。

LongCat-Flash团队在30项基准测试上评估了模型的能力，可以看到，Agent任务是这一模型能力的“长板”，相较DeepSeek-V3.1、Qwen3 MoE-2507和Kimi-K2等国产开源有明显优势，但在编程、数学、推理等方面还有提升空间。

结语：主动进攻的美团，要打造AI原生产品

LongCat-Flash技术团队透露，此次开源，他们旨在推动高效MoE架构、高质量数据策略以及自主Agent模型的相关研究，促进社区在大型语言模型领域的创新。

财报电话中，美团透露，已经在利用AI优化现有产品，并打造全新的AI原生产品，如AI运营助手等、消费者AI助手等。未来，美团在大模型领域的进展，值得持续关注。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.