实测美团LongCat-2.0，国产芯片长出来的万亿大模型|调用|编程|key|工作流|上下文|知名企业|longcat

实测美团LongCat-2.0，国产芯片长出来的万亿大模型

2026-07-01 18:32:11　来源: 卡尔的AI沃茨

北京举报

分享至

是的，我的Claude又被封了，

急急国王的我又开始盯上国产模型的API了，刚好美团发布了LongCat-2.0。

就这样说吧，一个总参数 1.6 万亿，每个token只激活约 480亿参数的MoE模型，

从预训练到大规模部署，全程跑在5万张国产算力芯片上，跑了一个多月，吃掉超过 35 万亿 tokens，全程无回滚，没有一次不可恢复的 loss 突刺。

这真的发生了。。。

可能有些朋友对这件事没太大感觉，我帮你把时间往回拉两年。

那会儿英伟达的A100，H100这些高端卡被卡脖子。

整个行业最焦虑的问题，都不是国产卡好不好用，

是个更要命的问题，没有英伟达，我们还能不能接着做大模型。

所以LongCat-2.0这次做出来的意义从来不是它是不是今天最强的模型。

是它把一条特别难的链路，完整跑通了一遍。（人类撰写声明）

从训练到大规模部署，官方口径都是国产算力，同时也已经接到了API和开发者工具里。

这个分量，比多刷几个benchmark第一要重。

时间点还赶得巧。

Claude各种封号限流，8号马上还有来一波大的，

现在都有点心灰意冷，想做 API 战士了。但是纯API的话，Claude就不能作为主力模型了，它肯定是一个辅助的专注于UI和出计划的模型。这样就需要第三个模型融入到我的工作流里面，

一个独立在CodeX和Claude之外，永远不会被卡壳的模型。

就在这个节骨眼上，冒出来一个能开源、还能直接接进现有工作流的国产万亿模型，就很爽了。

当然，LongCat-2.0不是全面SOTA。

倒不是说它一发布，明天大家就能彻底告别Claude。

像是IFEval，GPQA-diamond这种更偏通用能力和知识推理的项目，它跟Gemini 3.1 Pro，GPT-5.5还点有差距。轮到Agent场景版本强度就上来了，在Terminal-Bench 2.1和SWE-bench Pro这类编程任务上，它基本追平Gemini 3.1 Pro。在FORTE这种通用Agent任务上，也跟Claude Opus 4.6五五开了。

LongCat-2.0还拥有最大输出的128K。以及最高提供到了1M上下文。

它这次花心思的地方，是怎么让模型在又长又乱的任务里还稳定出结果。

是一个叫LSA的稀疏注意力机制，面对超长输入时，模型不再一个字一个字从头硬啃。毕竟Agent干活要读代码库，翻文档，还要记住前面十几步操作，还要继续调工具等等。LSA解决的就是这个问题。

另一个叫N-gram Embedding，

就是让模型不只盯着单个词，还更在意几个词连在一起时的意思，对局部语境更敏感一点。

这些改动指向的都是同一件事。

为了让LongCat-2.0在长上下文，工具调用，在Agent工作流里干活。

如果你今天就想用上LongCat-2.0的话很简单，

如果原来就是OpenAI Compatible或Anthropic API生态，就是换个base_url，换个API key，换个模型名。

就能开始调用了。

base_url="https://api.longcat.chat/openai"
model="LongCat-2.0"
api_key=LONGCAT_API_KEY


base_url="https://api.longcat.chat/anthropic"
model="LongCat-2.0"

第一个测试，

我直接把LongCat-2.0接进Claude Code，丢给它一个杂乱的工作文件夹，让它帮我整理。

它要先读懂我每个目录的作用，分清哪些是代码，文档，素材，测试等等等再判断哪些能动，哪些不能动。能不能在不破坏项目引用，配置路径和运行逻辑的前提下，给出一套合理的重组方案。

从提示语就看得出来是纯纯语音输入的了。

从评估到执行，LongCat-2.0没有上来就改文件，

是先根据我的目标和要求，把整理原则完整拆解出来。

在思考过程中，我也发现它会像调用不同层级的stack 一样，分阶段处理问题。

先理解项目结构，再判断文件用途。

再然后就是结合测试，产品，规划，文档等不同维度进行分析，

还会参考我本地已有的工具和资料，

把杂乱的文件夹逐步还原成一个清晰的工作系统。

第二个，接进Codex，直接跑一个Agent工作流。

让它联网搜资料，整理大纲，再调用我的Skill，最后生成一份演示文稿，非常常见的case。

模型的好坏直接决定了HTML PPT里面的内容编排，会不会出现那种整页只有一行字的AI味页面。

那LongCat-2.0先是去联网搜索了一大堆官方文档的资料，

确认这个模型到底是什么，有什么特点，适合放进什么样的内容结构里。

接着，它又检查了我当前环境里已经有哪些 Skills，每个 Skill 能做什么，调用规则是什么。

在把资料来源，工具能力和任务目标都理解清楚之后，它才开始做整体规划。

它在这个过程中明显不是那种先做了再说的那种敷衍怪，

确实是在完成了资料收集，工具盘点，结构规划，再进入真正的生成阶段。

在规划完成之后，它也知道应该如何调用这些Skills，按照对应流程去生成文稿内容和演示结构。

从背景介绍，到核心能力，再到测试过程和结论，整体是连贯还一致的。

这也是我觉得LongCat-2.0这次最值得看的地方。

一个全程国产算力训练出来的万亿模型，带到了开发者可以直接上手测试的位置，没有停在参数表，是直接能接到Claude Code和Codex上用的。

我不知道这是不是一个大周期的开始。

说实话我也不敢这么早下结论。

但在Claude疯狂封号的背景下，看到一个国产模型不吃压力，可以开源，可以 API 接入，可以接入这些真实工作流里，

我确实会觉得这又有点乐观起来了。

当然，LongCat-2.0的基础能力离顶级的闭源模型还有差距，

Agent实测上也还要继续跑。

但至少今天，我觉得可以认真给它记一笔。

我希望未来有一天，

我们不用再因为一个海外模型封号就全员恐慌，

也不用战战兢兢地担心哪天工作流突然断掉。

至少今天看起来，

路不是空的。

@ 作者 / 卡尔 & yc星辰

最后，感谢你看到这里如果喜欢这篇文章，不妨顺手给我们点赞｜在看｜转发｜评论

如果想要第一时间收到推送，不妨给我个星标

如果你有更有趣的玩法，欢迎在评论区聊聊

更多的内容正在不断填坑中……

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.