网易首页 > 网易号 > 正文 申请入驻

刚刚,美团 LongCat-2.0 开源,1.6万亿参数,纯国产卡训练

0
分享至

完全国产

美团的大模型 LongCat-2.0 开源了,1.6 万亿参数 MoE,33~56B 动态激活,原生支持百万 token 上下文,bench 如下


对手全是闭源第一梯队,没挑软柿子

很显然,这个 bench 是很实在的...并没有吹嘘啥:六个 Agent 方向的 benchmark,都没拿第一。整体排在 Claude 和 GPT 后面,跟 Gemini 3.1 Pro 基本同档(诶...我是在说什么...

这些分数要是出自 H100 集群,没啥好聊的...但这玩意儿,从训练到推理,完全是国产卡,这就很牛逼了

细看一下材料会发现,训练峰值动用超过 5 万张国产卡,而且0回滚...

嗯...牛逼牛逼...

对了,本文最后有一个我做的、非常神经病的【长猫游戏】,欢迎来玩


非常神经病

美团养了只长猫

LongCat,故名思议,一只很长的猫


啊..不是...跑偏了,LongCat 是美团家的大模型,唤做「龙猫」


LongCat 团队 2023 年就开始摸国产卡,2025 年 9 月发了第一款模型 LongCat-Flash,560B 的 MoE。

技术报告在 arxiv:arxiv.org/abs/2509.01322


然后吧,现在回头翻报告,能翻出几处线索:

  • 推理部分,写的是 H800

  • 训练部分,只写 accelerator,不提用的啥卡

你猜猜是为啥

然后还有一个事儿,值得划一下重点,在模型训练的时候:训练峰值显存,压到了 60GB 以下

诶...H800 有 80GB 显存,是完全没必要扣这点,但是为啥呢?

哦...国产卡的 HBM 大约 64GB

再后来,在 DORA 论文(arxiv.org/abs/2604.26256),直接挑明了:

Our production cluster employs non-CUDA accelerators, each providing approximately 60 GB of available device memory

我们的生产集群用 non-CUDA 加速卡,每张约 60GB 可用显存


白纸黑字,翻案了

这次 LongCat-2.0 干脆不藏了,在开源的 README 里直接就写明了训练和部署都在 AI ASIC superpods 上面。再回看 Flash 报告还花了不少篇幅讲确定性计算和算子优化,现在看,这就是踩坑的 log 嘛

用 CUDA 生态的话,谁费这个劲


题外话,这个模型的预览版以 Owl Alpha 的名字在 OpenRouter 上匿名跑了两个月,月调用量全球前三,作为用脚手投票的结果,也说明 来跑 OpenClaw、Hermes 这些工具是肯定没问题的

5万张国产卡

国产芯片练大模型,最吃亏的地方在跨卡通信

为了能让 1.6 万亿这个参数量级的模型,能够在国产卡上跑,LongCat-2.0 用了一个叫 ScMoE 的架构:让 Dense FFN 的计算跟 MoE 通信并行跑。 把通信延迟塞进了计算时间 ,理论上就能将推理延迟降一半

另一处改动是动态激活

传统 MoE 里每个 token 激活同样多的专家,标点符号和递归推导花一样的算力。直接改 top-K 会打乱通信和负载均衡,能不动就不动

LongCat-2.0 的做法是 K 不变,干活的专家数变:每层 768 个正常 FFN 专家之外,放了 128 个空专家。空专家不做计算,进什么出什么,工位占着,活不干(宛如你的老板

路由器每次照旧选 12 个。简单 token 多分到空专家,实际激活 33B。复杂 token 分到正常专家,拉满 56B。定义一个变量名,33B 够用。推导递归算法,上 56B

百万上下文这块,用的是新做的 LongCat Sparse Attention,对标DeepSeek V3.2 的 DSA。DSA 的索引器要给每个 token 打分,序列一长,打分本身成了瓶颈。LSA 省着算:索引结果相邻层复用,一次索引管好几层,先按块粗筛,再在筛出来的里面细选。配这套注意力,又喂了数千亿 token 的百万上下文数据

还有 135B 参数花在了 N-gram Embedding 上,从 LongCat-Flash-Lite 继承来的。官方给的理由是,MoE 的稀疏度已经过了甜点区,再堆专家不划算,参数不如花在别的维度上

在 FlashAttention 的反向计算这里,还有一个工程上的坑需要填。训练大模型时,梯度计算需要「确定性」:同样的输入,每次算出的结果必须一模一样,否则出了问题没法复现,也没法排查,就这一点来说,CUDA 生态有现成的,但国产却只有一个「跑起来就退化成单核顺序执行」的版本,比正常速度慢很多倍

所以嘛,LongCat 团队的选择是自己写一个:自研了高性能的确定性算子,性能损失压到极低。加上前面那些优化,训练的稳态日吞吐做到了 1T tokens

拿Codex跑龙猫

Codex 最近支持了切换模型,可以设成任意你想用的,比如那个,或者。拿来跑龙猫,一样行

以这个大长猫为例,可以这么设置(我给贴心的做了个图)


如果你熟悉命令行工具的话,可以直接配

如果你不太熟悉的话,可以让 codex 给你配好,然后你再来用在 longcat.ai 拿到 API key 之后,对着 Codex 这么说:

随后在右侧打开 Termial,就是先这个蓝色侧边栏,然后选择终端


蓝色侧边栏,选终端

如果之前没有安装 cli 版本的 codex, 可以先输入下面这个,然后回车

npm install -g @openai/codex

安装完了之后,启动龙猫

longcat-game % ./codex-longcat.sh


随后我用了 /goal 模式,给一个任务说明,Codex 就进入不死不休状态,直到把事儿全办完:

/goal 完成目录下的「longcat-design.md」需求文档


需求文档里,我让它做一个 7 关的 FC 小游戏。大概 4 个小时,3 轮长程任务,我拿到了这么个东西,非常蛇精病

4 小时,3 轮 /goal,一个 7 关 FC 游戏

游戏部署在 vercel 上,欢迎来玩:longcat.vercel.app

在哪用

首先,这个模型是开源的,MIT 协议,可以自己部署:

→ GitHub:github.com/meituan-longcat/LongCat-2.0

→ Hugging Face:huggingface.co/meituan-longcat/LongCat-2.0

→ FP8 量化版:huggingface.co/meituan-longcat/LongCat-2.0-FP8

→ INT8 量化版:huggingface.co/meituan-longcat/LongCat-2.0-INT8

当然,也可以选择在官方的开放平台使用: longcat.ai

最近有个小活动,9.9 元摸 5000 万 token,也可以 399 元摸 10 亿。计费方式有点特别:命中的 cache,100% 免费,token 会更耐用一些


拼好饭的价格

再放几个官方 case

SQL Agent:用自然语言问业务数据,模型自己拆查询步骤,直接出结果

代码库迁移:扔进去一个旧版插件和一份新 SDK 文档,模型自己读完架构,按新 API 重写,编译一次过

儿童 AI 游戏训练场: 描述了一个「儿童 AI 游戏训练场」的想法,从首页到三个可玩的游戏页面,全部代码一次产出

3D 交互场景:一句话描述,生成一个完整的 Three.js 场景:烧瓶、液体、泡沫,全部可交互,一个 HTML 文件打开就能玩

AI 小说工厂:输入一个灵感,后面编排多个 Agent 跑世界观、并行写章节、自动评估和修订

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
韩红基金会麻烦大了!7家供应商疑3家0社保,2家0实缴

韩红基金会麻烦大了!7家供应商疑3家0社保,2家0实缴

小徐讲八卦
2026-07-05 17:54:46
浅蓝同色系瑜伽套装,贴身面料完整勾勒熟女人妻饱满丰腴曲线

浅蓝同色系瑜伽套装,贴身面料完整勾勒熟女人妻饱满丰腴曲线

只要高兴就好
2026-06-28 20:26:38
HWG要翻车?博主:埃德松加盟曼联交易已告吹

HWG要翻车?博主:埃德松加盟曼联交易已告吹

懂球帝
2026-07-06 03:39:06
大爆冷!大坂直美2-0时隔8年胜世界第一萨巴伦卡 首进温网八强

大爆冷!大坂直美2-0时隔8年胜世界第一萨巴伦卡 首进温网八强

醉卧浮生
2026-07-06 02:05:10
特朗普端出咖啡谈比特币:不该征资本利得税,但钱包藏着加密资产

特朗普端出咖啡谈比特币:不该征资本利得税,但钱包藏着加密资产

报错免疫体
2026-07-05 03:29:32
放弃 6000 万老将!阿森纳锁定 8000 万天才!世界杯横空出世

放弃 6000 万老将!阿森纳锁定 8000 万天才!世界杯横空出世

澜归序
2026-07-06 03:59:04
肝脂降80%!国产双靶点新药上市即脱销,7500万脂肪肝患者迎曙光

肝脂降80%!国产双靶点新药上市即脱销,7500万脂肪肝患者迎曙光

思思夜话
2026-07-05 10:27:32
全网愤怒!狂批世界杯有黑幕:严查最烂的裁判 巴拉圭跟流氓没两样

全网愤怒!狂批世界杯有黑幕:严查最烂的裁判 巴拉圭跟流氓没两样

风过乡
2026-07-05 08:01:40
里斯蒂奇:比分虽然是1-1,但我感觉像赢了四个一样

里斯蒂奇:比分虽然是1-1,但我感觉像赢了四个一样

懂球帝
2026-07-05 22:08:23
乌克兰发动大规模袭击 !过去24小时,超过200架无人机袭击莫斯科地区,还打击圣彼得堡石油基础设施

乌克兰发动大规模袭击 !过去24小时,超过200架无人机袭击莫斯科地区,还打击圣彼得堡石油基础设施

每日经济新闻
2026-07-05 22:25:40
中国摩托车在非洲的真实现状:被印度摩托车打得完全没有招架之力

中国摩托车在非洲的真实现状:被印度摩托车打得完全没有招架之力

抽象派大师
2026-07-04 00:42:49
我一直记得

我一直记得

真话情报局
2026-06-24 11:47:25
有人预测:明后年,中国的二手房或将面临这3个结局,太真实

有人预测:明后年,中国的二手房或将面临这3个结局,太真实

平说财经
2026-07-05 19:45:55
一级文物惊现TCL标识,官方喊冤:从未授权

一级文物惊现TCL标识,官方喊冤:从未授权

辉哥说动漫
2026-07-06 02:14:41
伊朗已故最高领袖哈梅内伊儿子现身葬礼

伊朗已故最高领袖哈梅内伊儿子现身葬礼

参考消息
2026-07-05 19:28:09
都体:意足协设立国家队技术总监一职,有意聘请马尔蒂尼担任

都体:意足协设立国家队技术总监一职,有意聘请马尔蒂尼担任

懂球帝
2026-07-05 15:53:06
心理学上有个词叫:墨菲定律(男女关系铁律,无论和谁在一起,都要明白这两个潜规则)

心理学上有个词叫:墨菲定律(男女关系铁律,无论和谁在一起,都要明白这两个潜规则)

心理观察局
2026-07-05 09:18:04
蒯曼燃尽将3战张本美和!挽救6赛点+浪费6赛点,国乒开启围剿模式

蒯曼燃尽将3战张本美和!挽救6赛点+浪费6赛点,国乒开启围剿模式

排球黄金眼
2026-07-05 12:27:38
中国人民大学:蒋方舟硕士论文存在不规范问题,未发现学术不端,暂停其导师招生资格一年

中国人民大学:蒋方舟硕士论文存在不规范问题,未发现学术不端,暂停其导师招生资格一年

南方都市报
2026-07-05 22:22:31
世界杯也救不了中国电视市场!一季度全球增长6%,中国依然萎靡

世界杯也救不了中国电视市场!一季度全球增长6%,中国依然萎靡

杰夫视点
2026-07-03 22:15:49
2026-07-06 05:04:49
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
484文章数 53关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

四川深夜连发3次超4级地震 居民外出躲避回屋再遇地震

头条要闻

四川深夜连发3次超4级地震 居民外出躲避回屋再遇地震

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

本地
健康
数码
艺术
游戏

本地新闻

国内足球之旅?这座小城给你高分答案

听说少吃点能抗衰老?专家讲解!

数码要闻

Intel Xe3P核显越来越近!Linux曝光新进展

艺术要闻

伊朗超高层方案惊艳世界,曾获国际大奖!

《漫威争锋》美国队长性感皮肤遭修改 粉丝们生气了

无障碍浏览 进入关怀版