![]()
DeepSeek、智谱、MiniMax 抢先开席「年夜饭」。
作者 / 企鹅
除夕夜还没到,「大模型春晚」就已经拉开帷幕。
2 月 11 日,国产选手智谱 AI、MiniMax 与 DeepSeek 几乎押注同一时间窗口,似乎谁都不想带着「落后一个代际」的焦虑跨入新年。
昨日多位用户发现,DeepSeek 在网页端和 App 端推送了新一轮灰度测试。上下文窗口长度从此前 V3.1 版本的 128K token 增加到 1M token,知识截止日期也从 2024 年 7 月更新至 2025 年 5 月。外界普遍认为这是 V4 正式亮相前的热身。
随后,智谱在深夜揭晓了此前以「Pony Alpha」代号并在 OpenRouter 上匿名登顶的神秘模型便是 GLM-5。而在这一周前,「Pony Alpha 到底是谁」的猜测席卷了整个开发者社区,GPT-5 偷跑、Claude 5 内测……各种版本的阴谋论轮番上演。
GLM-5 是智谱新一代的旗舰基座模型,面向 Agentic Engineering 打造。在 Coding 与 Agent 能力上,智谱方表示 GLM-5 已「取得开源 SOTA 表现」。它在真实编程场景的使用体感逼近 Claude Opus 4.5,擅长复杂系统工程与长程 Agent 任务。
与此同时,Minimax 也传来消息,M2.5 模型的正式上线已提上日程。目前 M2.5 模型已在海外 MiniMax Agent 产品进行内测。有拿到 M2.5 内测资格的人在社交平台分享了使用感受,称其是「真正的 SOTA 模型,和 Opus 4.6 打的有来有回」。
![]()
三家此次模型的对比/新物种绘图
或许这份「春节档」之争要从 2025 年的 1 月 20 日说起,DeepSeek 发布的 R1 模型掀起了一场关于算法效率的惊天骇浪。时隔一年,DeepSeek V4 再借灰度测试打开一场「心理战」,而智谱与 Minimax 在春节前的密集入场,更像是面对「焦虑」顺势而来的「截击」。
01. DeepSeek:静默灰度,悬念留给 V4
具体来看,DeepSeek 一步跨到 1M ,对齐了此前 Google Gemini 系列触及的百万级门槛。
要知道,128K 大约能处理一本普通小说,而 1M 是它的近 8 倍,理论上可以一次性处理《三体》三部曲这样体量的超长文本。
同时 DeepSeek 模型的回复风格也有着微妙变化,灰度版模型在自我介绍中将自身回复风格概括为「热情、细腻,尽可能让答案对你有帮助」。新版本支持图片、PDF、Word、Excel、PPT 等多格式文件上传,支持联网搜索(需手动开启),App 端支持语音输入。
![]()
DeepSeek 模型的「自我介绍」
不过多模态能力仍未加入,这也是社区反馈中的一个「小遗憾」。
早在一个月前,DeepSeek 团队发布了《Conditional Memory via Scalable Lookup》论文,并开源了对应的实现库 Engram。核心思路是用条件记忆将知识查找的复杂度压缩到近似 O(1)。技术路线与这次灰度测试中「超长上下文」的能力方向高度吻合。
同时在 GitHub 的更新中 V4 也初现端倪:其 FlashMLA 仓库中出现了名为 「Model 1」 的模型标识,在百余个文件中被反复调用。且Model 1 模型的 KV 缓存布局、稀疏性算法及 FP8 解码方式均与 V3.2 存在显著差异,明显像是一次架构级重构而非增量迭代。此前外媒也曾爆料,DeepSeek 计划于 2 月中旬发布下一代旗舰模型 V4。
02.智谱:Pony马甲下的GLM-5
相对于DeepSeek的「烟雾弹」,智谱的牌面则明朗得多。
智谱的 GLM-5 采用了 MoE 混合专家架构,总参数量达到 745B(7450 亿),大约是上一代 GLM-4.7 的两倍。包含 256 个专家,每次推理激活其中 8 个,激活参数约 44B,与 DeepSeek V3.2 的 5.4% 基本持平。通过稀疏激活设计,GLM-5 实际推理延迟被控制在了一个可用的水平, 有 WaveSpeed AI 的博主反馈,实际体感上首 token 延迟已接近 30-70B 密集模型的水平。
架构层面,GLM-5 继承了两项来自 DeepSeek 的核心技术。
第一是DeepSeek 稀疏注意力(DSA),通过 Lightning Indexer 轻量级组件快速扫描所有历史 token 并打分,仅挑选相关性最高的 Top-k 个 token 进行完整注意力计算,在处理超长文本时大幅降低计算开销;其次是多 Token 预测(MTP),提升模型的生成效率。这两项技术在 vLLM 推理框架的代码提交中被开源社区发现,GLM-5 的实现逻辑被直接映射到了 DeepSeek-V3 的组件上。
值得注意的是,GLM-5 在编程与 agent 能力直逼 Claude Opus 4.5,但 API 成本却只有后者的四十分之一。
在业内公认的主流基准测试中取得开源模型最高分数。在 SWE-bench-Verified 和 Terminal Bench 2.0 中分别获得 77.8 和 56.2 的开源模型最高分数,性能表现超过 Gemini 3.0 Pro。
![]()
GLM-5 性能评测对比图
在 Agent 能力维度,GLM-5 拿下了开源模型的SOTA表现。
BrowseComp(联网检索与信息理解)、MCP-Atlas(工具调用与多步骤任务执行)、τ²-Bench(复杂多工具场景下的规划与执行)三项评测均为开源最高分。这三项基准覆盖了 Agentic Engineering 的核心要求:模型不只是能写代码、交付工程,还要在长程任务中维持目标一致性,管理资源调度,处理多步骤之间的依赖关系。
换言之,GLM-5 瞄准的不是「能用」,而是「能扛活」的 Agentic Ready 基座。
智谱首席科学家唐杰在 1 月 8 日的内部信中,将 2026 年定义为「全面回归基础模型研究」的一年,并明确提出四个聚焦方向:GLM-5 的推出、全新的模型架构设计、更强泛化能力的强化学习(RL),以及对在线学习与持续学习的前瞻布局。受 GLM-5 即将发布的消息刺激,智谱港股在公布前两日暴涨近 60%。
03.MiniMax:小参数,大野心
同一天,MiniMax 也没有闲着。
2 月 11 日,MiniMax 向部分用户开放了 M2.5 的内测资格。
M2.5 的前身是 2025 年 12 月 23 日发布的 M2.1。M2.1 总参数 230B,仅激活 10B,主打多语言编程能力,在 SWE-bench 多语言测试上表现超过了 Claude Sonnet 4.5,但 M2 系列的定价仅为 Claude Sonnet 4.5 的 8%,速度却快一倍。MiniMax M2(2025 年 10 月正式开源)在 Artificial Analysis 综合智能基准中拿到了全球开源模型第一的总分。
目前M2.5 的具体参数官方尚未披露。而社区讨论主要集中在两个方面:总参数能否从 M2.1 的 230B 推到 300B 量级,拉近与 GLM-5 在复杂任务上的体感差距;以及MCP工具调用能否真正可靠,M2.1 被用户普遍反映「不爱调工具」「格式错误调不对」,这在 Agent 场景下几乎是硬伤。
![]()
在 agent 界面已可以选择 M2.5
MiniMax 在 2026 年初的产品节奏相当密集。1 月 29 日,公司发布了 Music 2.5 音乐大模型和面向长程陪伴场景的 M2-her 模型。Music 2.5 凭借段落级强控制和物理级高保真技术,更是被国内的一家科技媒体称为「AI 界的格莱美」。加上此前推出的 Agent Desktop 桌面端、Hailuo 2.3 视频模型,MiniMax 的多模态生态正在快速补齐。
从竞争策略看,MiniMax 走的是一条与智谱截然不同的路。
智谱用 745B 的参数规模证明「中国也能做前沿级大模型」,MiniMax 则坚持用极小的激活参数(10B 量级)去逼近大模型的天花板。创始人闫俊杰在多个场合强调「Intelligence with Everyone」的愿景,即让更多人以更低的成本获得 AI 能力的加持。
04.「春节档」之争
去年春节,DeepSeek R1 的横空出世改变了全球 AI 竞争格局。今年业内也在观望:谁会复刻 R1 的辉煌?
从 2 月11 日来的信息密度来看,答案或许不是某一个模型,可能是属于集体的质变。
智谱用一周的匿名测试和一夜的正式揭幕,把 GLM-5 送上了 OpenRouter 热度榜首,在 BrowseComp、MCP-Atlas 等 Agent 基准上交出了与 Claude Opus 4.5 正面交手的成绩单;DeepSeek 没有发布会、没有博客,只用一次静默的灰度更新便将上下文推到百万 token 量级,留下的悬念比答案更多;而 MiniMax 还没亮出 M2.5 的全部底牌,但 M2 系列一直坚持的方向很明确:用尽可能小的激活参数,把性价比压到极限。这条路能走多远,M2.5 是一次关键检验。
除夕夜还没到,但大模型的「年夜饭」已经端上了桌。至于谁是这桌上的「主菜」,我们可以等藏在后厨里的其他「硬菜」揭晓后,再做定夺。
![]()
头图来源 / 三国演义
排版运营 /Teagan
- End -
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.