刚刚，美团 LongCat-2.0 开源，1.6万亿参数，纯国产卡训练|算子|上下文|cuda|知名企业|token|人工智能模型|longcat

刚刚，美团 LongCat-2.0 开源，1.6万亿参数，纯国产卡训练

2026-07-05 18:22:02　来源: 赛博禅心

北京举报

分享至

完全国产

美团的大模型 LongCat-2.0 开源了，1.6 万亿参数 MoE，33～56B 动态激活，原生支持百万 token 上下文，bench 如下

对手全是闭源第一梯队，没挑软柿子

很显然，这个 bench 是很实在的...并没有吹嘘啥：六个 Agent 方向的 benchmark，都没拿第一。整体排在 Claude 和 GPT 后面，跟 Gemini 3.1 Pro 基本同档（诶...我是在说什么...

这些分数要是出自 H100 集群，没啥好聊的...但这玩意儿，从训练到推理，完全是国产卡，这就很牛逼了

细看一下材料会发现，训练峰值动用超过 5 万张国产卡，而且0回滚...

嗯...牛逼牛逼...

对了，本文最后有一个我做的、非常神经病的【长猫游戏】，欢迎来玩

非常神经病

美团养了只长猫

LongCat，故名思议，一只很长的猫

啊..不是...跑偏了，LongCat 是美团家的大模型，唤做「龙猫」

LongCat 团队 2023 年就开始摸国产卡，2025 年 9 月发了第一款模型 LongCat-Flash，560B 的 MoE。

技术报告在 arxiv：arxiv.org/abs/2509.01322

然后吧，现在回头翻报告，能翻出几处线索：

推理部分，写的是 H800
训练部分，只写 accelerator，不提用的啥卡

你猜猜是为啥

然后还有一个事儿，值得划一下重点，在模型训练的时候：训练峰值显存，压到了 60GB 以下。

诶...H800 有 80GB 显存，是完全没必要扣这点，但是为啥呢？

哦...国产卡的 HBM 大约 64GB

再后来，在 DORA 论文（arxiv.org/abs/2604.26256），直接挑明了：

Our production cluster employs non-CUDA accelerators, each providing approximately 60 GB of available device memory

我们的生产集群用 non-CUDA 加速卡，每张约 60GB 可用显存

白纸黑字，翻案了

这次 LongCat-2.0 干脆不藏了，在开源的 README 里直接就写明了训练和部署都在 AI ASIC superpods 上面。再回看 Flash 报告还花了不少篇幅讲确定性计算和算子优化，现在看，这就是踩坑的 log 嘛

用 CUDA 生态的话，谁费这个劲

题外话，这个模型的预览版以 Owl Alpha 的名字在 OpenRouter 上匿名跑了两个月，月调用量全球前三，作为用脚手投票的结果，也说明来跑 OpenClaw、Hermes 这些工具是肯定没问题的

5万张国产卡

国产芯片练大模型，最吃亏的地方在跨卡通信

为了能让 1.6 万亿这个参数量级的模型，能够在国产卡上跑，LongCat-2.0 用了一个叫 ScMoE 的架构：让 Dense FFN 的计算跟 MoE 通信并行跑。 把通信延迟塞进了计算时间，理论上就能将推理延迟降一半

另一处改动是动态激活

传统 MoE 里每个 token 激活同样多的专家，标点符号和递归推导花一样的算力。直接改 top-K 会打乱通信和负载均衡，能不动就不动

LongCat-2.0 的做法是 K 不变，干活的专家数变：每层 768 个正常 FFN 专家之外，放了 128 个空专家。空专家不做计算，进什么出什么，工位占着，活不干（宛如你的老板

路由器每次照旧选 12 个。简单 token 多分到空专家，实际激活 33B。复杂 token 分到正常专家，拉满 56B。定义一个变量名，33B 够用。推导递归算法，上 56B

百万上下文这块，用的是新做的 LongCat Sparse Attention，对标DeepSeek V3.2 的 DSA。DSA 的索引器要给每个 token 打分，序列一长，打分本身成了瓶颈。LSA 省着算：索引结果相邻层复用，一次索引管好几层，先按块粗筛，再在筛出来的里面细选。配这套注意力，又喂了数千亿 token 的百万上下文数据

还有 135B 参数花在了 N-gram Embedding 上，从 LongCat-Flash-Lite 继承来的。官方给的理由是，MoE 的稀疏度已经过了甜点区，再堆专家不划算，参数不如花在别的维度上

在 FlashAttention 的反向计算这里，还有一个工程上的坑需要填。训练大模型时，梯度计算需要「确定性」：同样的输入，每次算出的结果必须一模一样，否则出了问题没法复现，也没法排查，就这一点来说，CUDA 生态有现成的，但国产却只有一个「跑起来就退化成单核顺序执行」的版本，比正常速度慢很多倍

所以嘛，LongCat 团队的选择是自己写一个：自研了高性能的确定性算子，性能损失压到极低。加上前面那些优化，训练的稳态日吞吐做到了 1T tokens

拿Codex跑龙猫

Codex 最近支持了切换模型，可以设成任意你想用的，比如那个，或者。拿来跑龙猫，一样行

以这个大长猫为例，可以这么设置（我给贴心的做了个图）

如果你熟悉命令行工具的话，可以直接配

如果你不太熟悉的话，可以让 codex 给你配好，然后你再来用在 longcat.ai 拿到 API key 之后，对着 Codex 这么说：

随后在右侧打开 Termial，就是先这个蓝色侧边栏，然后选择终端

蓝色侧边栏，选终端

如果之前没有安装 cli 版本的 codex，可以先输入下面这个，然后回车

npm install -g @openai/codex

安装完了之后，启动龙猫

longcat-game % ./codex-longcat.sh

随后我用了 /goal 模式，给一个任务说明，Codex 就进入不死不休状态，直到把事儿全办完：

/goal 完成目录下的「longcat-design.md」需求文档

需求文档里，我让它做一个 7 关的 FC 小游戏。大概 4 个小时，3 轮长程任务，我拿到了这么个东西，非常蛇精病

4 小时，3 轮 /goal，一个 7 关 FC 游戏

游戏部署在 vercel 上，欢迎来玩：longcat.vercel.app

在哪用

首先，这个模型是开源的，MIT 协议，可以自己部署：

→ GitHub：github.com/meituan-longcat/LongCat-2.0

→ Hugging Face：huggingface.co/meituan-longcat/LongCat-2.0

→ FP8 量化版：huggingface.co/meituan-longcat/LongCat-2.0-FP8

→ INT8 量化版：huggingface.co/meituan-longcat/LongCat-2.0-INT8

当然，也可以选择在官方的开放平台使用： longcat.ai

最近有个小活动，9.9 元摸 5000 万 token，也可以 399 元摸 10 亿。计费方式有点特别：命中的 cache，100% 免费，token 会更耐用一些

拼好饭的价格

再放几个官方 case

SQL Agent：用自然语言问业务数据，模型自己拆查询步骤，直接出结果

代码库迁移：扔进去一个旧版插件和一份新 SDK 文档，模型自己读完架构，按新 API 重写，编译一次过

儿童 AI 游戏训练场：描述了一个「儿童 AI 游戏训练场」的想法，从首页到三个可玩的游戏页面，全部代码一次产出

3D 交互场景：一句话描述，生成一个完整的 Three.js 场景：烧瓶、液体、泡沫，全部可交互，一个 HTML 文件打开就能玩

AI 小说工厂：输入一个灵感，后面编排多个 Agent 跑世界观、并行写章节、自动评估和修订

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.