完全国产
美团的大模型 LongCat-2.0 开源了,1.6 万亿参数 MoE,33~56B 动态激活,原生支持百万 token 上下文,bench 如下
![]()
对手全是闭源第一梯队,没挑软柿子
很显然,这个 bench 是很实在的...并没有吹嘘啥:六个 Agent 方向的 benchmark,都没拿第一。整体排在 Claude 和 GPT 后面,跟 Gemini 3.1 Pro 基本同档(诶...我是在说什么...
这些分数要是出自 H100 集群,没啥好聊的...但这玩意儿,从训练到推理,完全是国产卡,这就很牛逼了
细看一下材料会发现,训练峰值动用超过 5 万张国产卡,而且0回滚...
嗯...牛逼牛逼...
对了,本文最后有一个我做的、非常神经病的【长猫游戏】,欢迎来玩
![]()
非常神经病
美团养了只长猫
LongCat,故名思议,一只很长的猫
![]()
啊..不是...跑偏了,LongCat 是美团家的大模型,唤做「龙猫」
![]()
LongCat 团队 2023 年就开始摸国产卡,2025 年 9 月发了第一款模型 LongCat-Flash,560B 的 MoE。
技术报告在 arxiv:arxiv.org/abs/2509.01322
![]()
然后吧,现在回头翻报告,能翻出几处线索:
推理部分,写的是
H800训练部分,只写
accelerator,不提用的啥卡
你猜猜是为啥
然后还有一个事儿,值得划一下重点,在模型训练的时候:训练峰值显存,压到了 60GB 以下。
诶...H800 有 80GB 显存,是完全没必要扣这点,但是为啥呢?
哦...国产卡的 HBM 大约 64GB
再后来,在 DORA 论文(arxiv.org/abs/2604.26256),直接挑明了:
Our production cluster employs non-CUDA accelerators, each providing approximately 60 GB of available device memory
我们的生产集群用 non-CUDA 加速卡,每张约 60GB 可用显存
![]()
白纸黑字,翻案了
这次 LongCat-2.0 干脆不藏了,在开源的 README 里直接就写明了训练和部署都在 AI ASIC superpods 上面。再回看 Flash 报告还花了不少篇幅讲确定性计算和算子优化,现在看,这就是踩坑的 log 嘛
用 CUDA 生态的话,谁费这个劲
![]()
题外话,这个模型的预览版以 Owl Alpha 的名字在 OpenRouter 上匿名跑了两个月,月调用量全球前三,作为用脚手投票的结果,也说明 来跑 OpenClaw、Hermes 这些工具是肯定没问题的
5万张国产卡
国产芯片练大模型,最吃亏的地方在跨卡通信
为了能让 1.6 万亿这个参数量级的模型,能够在国产卡上跑,LongCat-2.0 用了一个叫 ScMoE 的架构:让 Dense FFN 的计算跟 MoE 通信并行跑。 把通信延迟塞进了计算时间 ,理论上就能将推理延迟降一半
另一处改动是动态激活
传统 MoE 里每个 token 激活同样多的专家,标点符号和递归推导花一样的算力。直接改 top-K 会打乱通信和负载均衡,能不动就不动
LongCat-2.0 的做法是 K 不变,干活的专家数变:每层 768 个正常 FFN 专家之外,放了 128 个空专家。空专家不做计算,进什么出什么,工位占着,活不干(宛如你的老板
路由器每次照旧选 12 个。简单 token 多分到空专家,实际激活 33B。复杂 token 分到正常专家,拉满 56B。定义一个变量名,33B 够用。推导递归算法,上 56B
百万上下文这块,用的是新做的 LongCat Sparse Attention,对标DeepSeek V3.2 的 DSA。DSA 的索引器要给每个 token 打分,序列一长,打分本身成了瓶颈。LSA 省着算:索引结果相邻层复用,一次索引管好几层,先按块粗筛,再在筛出来的里面细选。配这套注意力,又喂了数千亿 token 的百万上下文数据
还有 135B 参数花在了 N-gram Embedding 上,从 LongCat-Flash-Lite 继承来的。官方给的理由是,MoE 的稀疏度已经过了甜点区,再堆专家不划算,参数不如花在别的维度上
在 FlashAttention 的反向计算这里,还有一个工程上的坑需要填。训练大模型时,梯度计算需要「确定性」:同样的输入,每次算出的结果必须一模一样,否则出了问题没法复现,也没法排查,就这一点来说,CUDA 生态有现成的,但国产却只有一个「跑起来就退化成单核顺序执行」的版本,比正常速度慢很多倍
所以嘛,LongCat 团队的选择是自己写一个:自研了高性能的确定性算子,性能损失压到极低。加上前面那些优化,训练的稳态日吞吐做到了 1T tokens
拿Codex跑龙猫
Codex 最近支持了切换模型,可以设成任意你想用的,比如那个,或者。拿来跑龙猫,一样行
以这个大长猫为例,可以这么设置(我给贴心的做了个图)
![]()
如果你熟悉命令行工具的话,可以直接配
如果你不太熟悉的话,可以让 codex 给你配好,然后你再来用在 longcat.ai 拿到 API key 之后,对着 Codex 这么说:
随后在右侧打开 Termial,就是先这个蓝色侧边栏,然后选择终端
![]()
蓝色侧边栏,选终端
如果之前没有安装 cli 版本的 codex, 可以先输入下面这个,然后回车
npm install -g @openai/codex
安装完了之后,启动龙猫
longcat-game % ./codex-longcat.sh
![]()
随后我用了 /goal 模式,给一个任务说明,Codex 就进入不死不休状态,直到把事儿全办完:
/goal 完成目录下的「longcat-design.md」需求文档
![]()
需求文档里,我让它做一个 7 关的 FC 小游戏。大概 4 个小时,3 轮长程任务,我拿到了这么个东西,非常蛇精病
4 小时,3 轮 /goal,一个 7 关 FC 游戏
游戏部署在 vercel 上,欢迎来玩:longcat.vercel.app
在哪用
首先,这个模型是开源的,MIT 协议,可以自己部署:
→ GitHub:github.com/meituan-longcat/LongCat-2.0
→ Hugging Face:huggingface.co/meituan-longcat/LongCat-2.0
→ FP8 量化版:huggingface.co/meituan-longcat/LongCat-2.0-FP8
→ INT8 量化版:huggingface.co/meituan-longcat/LongCat-2.0-INT8
当然,也可以选择在官方的开放平台使用: longcat.ai
最近有个小活动,9.9 元摸 5000 万 token,也可以 399 元摸 10 亿。计费方式有点特别:命中的 cache,100% 免费,token 会更耐用一些
![]()
拼好饭的价格
再放几个官方 case
SQL Agent:用自然语言问业务数据,模型自己拆查询步骤,直接出结果
代码库迁移:扔进去一个旧版插件和一份新 SDK 文档,模型自己读完架构,按新 API 重写,编译一次过
儿童 AI 游戏训练场: 描述了一个「儿童 AI 游戏训练场」的想法,从首页到三个可玩的游戏页面,全部代码一次产出
3D 交互场景:一句话描述,生成一个完整的 Three.js 场景:烧瓶、液体、泡沫,全部可交互,一个 HTML 文件打开就能玩
AI 小说工厂:输入一个灵感,后面编排多个 Agent 跑世界观、并行写章节、自动评估和修订
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.