是的,我的Claude又被封了,
急急国王的我又开始盯上国产模型的API了,刚好美团发布了LongCat-2.0。
就这样说吧,一个总参数 1.6 万亿,每个token只激活约 480亿参数的MoE模型,
从预训练到大规模部署,全程跑在5万张国产算力芯片上,跑了一个多月,吃掉超过 35 万亿 tokens,全程无回滚,没有一次不可恢复的 loss 突刺。
这真的发生了。。。
![]()
可能有些朋友对这件事没太大感觉,我帮你把时间往回拉两年。
那会儿英伟达的A100,H100这些高端卡被卡脖子。
整个行业最焦虑的问题,都不是国产卡好不好用,
是个更要命的问题,没有英伟达,我们还能不能接着做大模型。
所以LongCat-2.0这次做出来的意义从来不是它是不是今天最强的模型。
是它把一条特别难的链路,完整跑通了一遍。(人类撰写声明)
从训练到大规模部署,官方口径都是国产算力,同时也已经接到了API和开发者工具里。
这个分量,比多刷几个benchmark第一要重。
时间点还赶得巧。
Claude各种封号限流,8号马上还有来一波大的,
现在都有点心灰意冷,想做 API 战士了。但是纯API的话,Claude就不能作为主力模型了,它肯定是一个辅助的专注于UI和出计划的模型。这样就需要第三个模型融入到我的工作流里面,
一个独立在CodeX和Claude之外,永远不会被卡壳的模型。
就在这个节骨眼上,冒出来一个能开源、还能直接接进现有工作流的国产万亿模型,就很爽了。
当然,LongCat-2.0不是全面SOTA。
倒不是说它一发布,明天大家就能彻底告别Claude。
像是IFEval,GPQA-diamond这种更偏通用能力和知识推理的项目,它跟Gemini 3.1 Pro,GPT-5.5还点有差距。轮到Agent场景版本强度就上来了,在Terminal-Bench 2.1和SWE-bench Pro这类编程任务上,它基本追平Gemini 3.1 Pro。在FORTE这种通用Agent任务上,也跟Claude Opus 4.6五五开了。
LongCat-2.0还拥有最大输出的128K。以及最高提供到了1M上下文。
![]()
它这次花心思的地方,是怎么让模型在又长又乱的任务里还稳定出结果。
是一个叫LSA的稀疏注意力机制,面对超长输入时,模型不再一个字一个字从头硬啃。毕竟Agent干活要读代码库,翻文档,还要记住前面十几步操作,还要继续调工具等等。LSA解决的就是这个问题。
![]()
另一个叫N-gram Embedding,
就是让模型不只盯着单个词,还更在意几个词连在一起时的意思,对局部语境更敏感一点。
![]()
这些改动指向的都是同一件事。
为了让LongCat-2.0在长上下文,工具调用,在Agent工作流里干活。
如果你今天就想用上LongCat-2.0的话很简单,
如果原来就是OpenAI Compatible或Anthropic API生态,就是换个base_url,换个API key,换个模型名。
就能开始调用了。
base_url="https://api.longcat.chat/openai"
model="LongCat-2.0"
api_key=LONGCAT_API_KEYbase_url="https://api.longcat.chat/anthropic"
model="LongCat-2.0"
![]()
![]()
第一个测试,
我直接把LongCat-2.0接进Claude Code,丢给它一个杂乱的工作文件夹,让它帮我整理。
它要先读懂我每个目录的作用,分清哪些是代码,文档,素材,测试等等等再判断哪些能动,哪些不能动。能不能在不破坏项目引用,配置路径和运行逻辑的前提下,给出一套合理的重组方案。
从提示语就看得出来是纯纯语音输入的了。
![]()
从评估到执行,LongCat-2.0没有上来就改文件,
是先根据我的目标和要求,把整理原则完整拆解出来。
在思考过程中,我也发现它会像调用不同层级的stack 一样,分阶段处理问题。
![]()
先理解项目结构,再判断文件用途。
再然后就是结合测试,产品,规划,文档等不同维度进行分析,
还会参考我本地已有的工具和资料,
把杂乱的文件夹逐步还原成一个清晰的工作系统。
![]()
![]()
第二个,接进Codex,直接跑一个Agent工作流。
让它联网搜资料,整理大纲,再调用我的Skill,最后生成一份演示文稿,非常常见的case。
模型的好坏直接决定了HTML PPT里面的内容编排,会不会出现那种整页只有一行字的AI味页面。
那LongCat-2.0先是去联网搜索了一大堆官方文档的资料,
确认这个模型到底是什么,有什么特点,适合放进什么样的内容结构里。
![]()
接着,它又检查了我当前环境里已经有哪些 Skills,每个 Skill 能做什么,调用规则是什么。
在把资料来源,工具能力和任务目标都理解清楚之后,它才开始做整体规划。
![]()
它在这个过程中明显不是那种先做了再说的那种敷衍怪,
确实是在完成了资料收集,工具盘点,结构规划,再进入真正的生成阶段。
在规划完成之后,它也知道应该如何调用这些Skills,按照对应流程去生成文稿内容和演示结构。
![]()
![]()
![]()
![]()
![]()
从背景介绍,到核心能力,再到测试过程和结论,整体是连贯还一致的。
这也是我觉得LongCat-2.0这次最值得看的地方。
一个全程国产算力训练出来的万亿模型,带到了开发者可以直接上手测试的位置,没有停在参数表,是直接能接到Claude Code和Codex上用的。
我不知道这是不是一个大周期的开始。
说实话我也不敢这么早下结论。
但在Claude疯狂封号的背景下,看到一个国产模型不吃压力,可以开源,可以 API 接入,可以接入这些真实工作流里,
我确实会觉得这又有点乐观起来了。
当然,LongCat-2.0的基础能力离顶级的闭源模型还有差距,
Agent实测上也还要继续跑。
但至少今天,我觉得可以认真给它记一笔。
我希望未来有一天,
我们不用再因为一个海外模型封号就全员恐慌,
也不用战战兢兢地担心哪天工作流突然断掉。
至少今天看起来,
路不是空的。
@ 作者 / 卡尔 & yc星辰
最后,感谢你看到这里如果喜欢这篇文章,不妨顺手给我们点赞|在看|转发|评论
如果想要第一时间收到推送,不妨给我个星标
如果你有更有趣的玩法,欢迎在评论区聊聊
更多的内容正在不断填坑中……
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.