DeepSeek悄悄更新，百万级上下文|调用|智能体|工作流|新论文|deepseek

分享至

DeepSeek 又“悄悄”升级了。没有官宣、没有长文技术报告，只是在和用户的对话里，承认自家旗舰模型的上下文窗口从 12.8 万 token 拉大到“超过 100 万”，知识截止时间也从 2024 年 7 月推进到 2025 年 5 月。

几乎同一时间，另一家大模型核心玩家智谱 AI（Zhipu AI）正式推出新旗舰 GLM‑5：参数规模翻倍、采用 DeepSeek 自研的稀疏注意力机制、主打长文本和智能体能力，且全程在华为昇腾芯片和 MindSpore 框架上完成训练。这意味着，本土大模型在“长记忆”“强推理”和“算力脱钩”三个维度，都在向全球前沿贴近。

资本市场已经给出了第一轮反馈：智谱作为“全球大模型第一股”登陆港交所后，首日收涨约 12%–13%，市值接近 580 亿港元，随后在 GLM‑5 预期与发布的持续刺激下，股价阶段性最高涨幅被多家媒体统计为接近或超过翻倍。南华早报则指出，在 GLM‑5 即将发布的消息拉动下，智谱股价在短短五个交易日涨幅超过 40%。

一边是在应用层已经“现象级”的 DeepSeek，把模型的“记性”和知识库整体往前推；另一边是刚刚完成 IPO 的智谱，通过新一代架构冲击技术上限、拉动港股情绪。再叠加“杭州六小龙”所代表的地方产业集群，2026 年春节前后的这轮更新，更像是中国大模型产业进入“长文本博弈”的一个时间锚点。

一、上下文从十万到百万，DeepSeek 把“记忆”做大之后能干什么

在大模型世界里，“上下文窗口”是一个很技术、却又非常实际的指标：它决定了模型在一次对话或一次任务中，能同时“看见”多少文本。

此前多家第三方测评和工具文档都指出，DeepSeek 系列主力模型（V3/V3.2、Reasoner、Coder V2）在 2025 年前后的公开规格，普遍在 64K–128K token 级别：API 或实验版本最高支持约 12.8 万 token，大部分产品化界面有效窗口在 6.4 万 token 左右。这已经足以覆盖数十万字的中文文本，但在超长代码仓库、法律文书总包、跨多轮长周期对话里，仍然需要各种拆分、检索和“补记忆”的工程式方案。

从本周三开始，DeepSeek 的聊天机器人在多次回复中确认，其上下文窗口从 128K 提升到“超过 100 万” token，约是此前的近十倍。这使得它在名义上正式跨入与 Anthropic 部分企业版 Claude、OpenAI GPT‑4.1 等同级的“百万级长上下文俱乐部”。

与此同时，DeepSeek 还把模型的知识截止时间从 2024 年 7 月推进到 2025 年 5 月。对普通用户而言，这意味着能直接在对话中调取到更接近当下的公共事件、开源项目和技术资料，而无需一遍遍贴最新材料给模型。

大上下文带来的直接改变，可以分三类看：

其一是“单次任务的上限”被抬高。过去需要手动分成十几段喂给模型的年报、源码库或科研论文集，如今理论上可以“一锅端”地塞进一次调用，让模型在完整语境内做综合分析，而不是在“分块–拼接”中累积误差。

其二是“多轮记忆”的成本被压低。在 RAG 检索、长期对话和复杂 Agent 工作流里，如何在有限上下文中留住关键节点，一直是开发者的必修课。百万级窗口并不等于可以不做检索，但明显缓解了“上一轮刚说的，下一轮就忘”的体验，也给基于长对话日志的自动化 Agent 打开了更大空间。

其三是“工程调优”的重点会发生迁移。DeepSeek 自 2025 年起就在 V3.1–V3.2 里引入了 DeepSeek Sparse Attention（DSA）的长文本加速机制：通过一个轻量级的 Lightning Indexer 对历史 token 做相关性打分，只把 Top‑K（如 2048 个）高相关 token 送入真正昂贵的注意力计算，从而在几乎不损失精度的前提下，把长上下文推理的算力成本砍掉一半左右。

也因此，百万级上下文对 DeepSeek 自身并不只是“把窗口数字改大”，它必须叠加稀疏注意力、缓存管理和调用策略的系统性升级，才能避免在实际使用中出现延迟飙升、回复崩溃等问题。当前关于这次升级的内部细节，DeepSeek 并未通过官网或论文公开，社交账号也未发布公告。这使得它更像一次“在生产环境里直接刷版本”的灰度放量，技术端和产品端还会在接下来几周不断被开发者倒逼出更多说明。

对于已经大规模采用 DeepSeek 的开发者而言，更现实的问题反而不是“能不能用到 100 万 token”，而是如何在成本、时延和质量三者之间重新平衡——用多少检索，保留多少原文，哪些环节用稀疏注意力，哪些仍然坚持“精读”。

二、GLM‑5 接棒，智谱用 DeepSeek 稀疏注意力把智能体和算力效率往前推

与 DeepSeek 的“静默升级”不同，智谱对 GLM‑5 的推出是一次从资本市场到技术社群的全链路动员。

根据智谱和第三方站点公开信息，GLM‑5 采用的是大规模 Mixture‑of‑Experts（MoE）架构：总参数规模约 7450 亿，推理时每次激活约 440 亿参数，通过 256 个专家中选取少数参与计算，实现“总参数做天花板、有效参数控成本”的折中。相比 GLM‑4.5/4.6 代，其总参数数目翻倍，但单位推理成本并未线性放大。

更受行业关注的一点，是 GLM‑5 直接复用了 DeepSeek 团队发明的 DeepSeek Sparse Attention 机制：即前文提到的 Lightning Indexer + 稀疏多潜在注意力（Sparse MLA）两段式结构，先用低维 FP8 相似度快速筛选出最相关的历史 token，再在有限子集上做精细注意力计算。这是 DeepSeek 在 V3.2‑Exp 中率先实用化的技术，如今被宿敌兼合作方引入自家旗舰，某种程度上给中国大模型阵营树立了一个“国内互相复用前沿架构”的样板。

从定位看，GLM‑5 延续了 GLM‑4.5 的“推理+编码+智能体一体化”路线，但进一步强调 agentic intelligence：内置规划、多步工具调用、网络检索和工作流管理能力，瞄准的是自动化开发、运维、数据处理和业务流程编排等场景。这一点与 DeepSeek 主推的“高性价比通用 Reasoner”形成互补，也与 OpenAI、Anthropic 在海外强调 Agent 平台的趋势高度同构。

更关键的，是它背后的算力故事。官方资料显示，GLM‑5 全程在华为昇腾芯片上、结合 MindSpore 框架完成训练和推理适配，实现了从底层硬件到软件栈对美国高端 GPU 的“去依赖”。这不仅是技术路线选择，更是对当前出口管制环境的一种正面回应：在算力受限的前提下，通过 MoE + 稀疏注意力把“有效算力”最大化，成为中国大模型能否长期维持迭代节奏的关键。

资本市场对这一套组合拳的反馈非常直接。1 月 8 日，智谱以“全球大模型第一股”的身份在港交所挂牌，发行价 116.2 港元，首日收盘约 131.5 港元，上涨 12%–13%，市值接近 580 亿港元。招股说明书显示，公司 2022–2024 年营收从 5741 万元增至约 3.12 亿元，三年复合增速约 130%，但同期净亏损累计接近 30 亿元以上，主要用于大规模算力和研发投入。

随着 GLM‑5 架构细节在 vLLM PR、社区分析和媒体报道中不断曝光，包括“参数翻倍”“采用 DeepSeek 稀疏注意力”“推理效率大幅提升”等关键信息陆续坐实，香港市场出现新一轮情绪放大：有机构统计，智谱股价在春节前后最高阶段性涨幅达到 200%，市值一度冲至 1500 亿港元，是 IPO 时的 3 倍。南华早报也提到，仅在 GLM‑5 预期驱动下，智谱股价在 5 个交易日内涨幅便超过 40%。

从技术轨迹回看，GLM‑5 并不是凭空起跳。2025 年发布的 GLM‑4.5 已经在多项推理与 Coding 基准上做到“全球第三、国内第一、开源模型第一”，并率先在一个开源模型中原生融合推理、编码和 Agent 能力，采用高参数效率的 MoE 架构，开放 MIT 许可权重。这套“开源+高性价比”的打法，为 GLM‑4.6 在海外开发者社区积累了需求基础，也为 GLM‑5 进入更高参数规模和更复杂架构争取了试错空间。

现在，这条路线和 DeepSeek 的“极致性价比+稀疏注意力+长上下文”路线发生了明显交汇：一边是被复用的关键组件，一边是被对标的总体体验，二者都在围绕“如何用有限算力承载越来越长的上下文和越来越复杂的智能体任务”反复打磨。

三、杭州六小龙、港股 IPO 与长文本技术，中国大模型的下一轮博弈

如果把 DeepSeek 和智谱这次同步上新的时间点往前拉，会发现背后是一张更大的中国 AI 产业版图。

地理坐标上，DeepSeek 来自杭州。过去两年，“杭州六小龙”这个说法被媒体和地方政府频繁提及：包括 DeepSeek、游戏科学（Game Science）、宇树科技（Unitree Robotics）、DEEP Robotics、BrainCo、Manycore Tech 等一批聚焦 AI、机器人和新形态内容生产的公司，被视作阿里之后杭州科技产业的第二波增长曲线。

杭州方面在 2025 年推出了《杭州人工智能产业链高质量发展行动计划》，提出围绕算力、通用大模型和 AI 应用三个方向，计划每年撬动超过 3000 亿元人民币相关投入，并通过“雏鹰计划”等政策为早期科技企业提供资金、场地和人才支持。 DeepSeek、宇树等公司都是这套政策组合的典型受益者：一端连着高风险、高投入的大模型研发，另一端连着国产机器人、游戏内容等“能看见现金流”的落地场景。

资本坐标上，则是“全球大模型第一股”智谱在香港的上市。按 2024 年收入统计，智谱在中国独立通用大模型开发商中排第一，在所有通用大模型厂商中排第二，市占率约 6.6%；但其 2024 年亏损约 30 亿元，2025 年上半年收入 1.91 亿元、净亏损 24 亿元，R&D 占比持续高企。这意味着，资本市场必须愿意为“未来算力和模型迭代”买单，才能支撑这条路走下去。

从这个意义上说，DeepSeek 把上下文窗口直接拉到百万级，智谱在 GLM‑5 中彻底押注 MoE+稀疏注意力+本土算力，并不只是单一公司的产品决策，而是在当下技术与地缘现实之下，中国大模型共同面对的约束条件下的一种集体选择：

一是“长文本”和“智能体”正在成为下一阶段通用能力的核心战场。无论是企业知识库、业务流程自动化，还是科研、编程与合成媒体生产，都需要模型能在长时间跨度、长文本输入下保持稳定推理能力。这迫使各家不得不围绕上下文窗口、稀疏注意力、RAG 与缓存体系做系统性创新。

二是“算力脱钩”正在从口号变成工程现实。GLM‑5 全流程在华为昇腾 + MindSpore 上完成训练验证了国产全栈算力在 7000 亿级 MoE 模型上的可行性，而 DeepSeek 稀疏注意力通过在 vLLM 等推理框架中落地，为在现有 GPU 存量算力下扩大上下文和推理深度提供了范式。这两条线结合起来，使得“在有限国产算力上跑出具备全球竞争力的大模型”从理论可能变成可复制路径。

三是“地方产业集群 + 海外资本市场”的双轮驱动愈发清晰。杭州以“六小龙”为抓手，强化本地 AI 与机器人生态；香港则以智谱、MiniMax 等 IPO 为起点，尝试为中国大模型公司提供一个与纳斯达克平行的估值与融资坐标系。对创业者来说，这既意味着更多的政策和资金支持，也意味着在技术、产品和商业化节奏上的“资本倒逼”。

回到这次新闻本身：DeepSeek 没有大张旗鼓开发布会，就把上下文和知识截止时间整体往前推了一年；智谱在聚光灯下给 GLM‑5 摆出完整的技术叙事，从架构到算力，到港股股价的波动曲线。两者一静一动，却共同指向一个事实——中国大模型的竞争，已经从“能不能做出来”转向“能否在长文本、长周期任务和复杂 Agent 场景里跑得又快又省”。

接下来，真正值得关注的，可能不只是参数数字和上下文上限，还包括：这些技术会以什么样的 API、开源模型、企业解决方案形式，渗入普通开发者和企业的日常工作流；以及在算力与监管的多重约束下，中国大模型能否在全球范围内压缩与美国头部厂商之间的“体验差距窗口期”。

在这一轮博弈中，百万级上下文、DeepSeek 稀疏注意力、GLM‑5 与港股 IPO，只是开局阶段打下的一串标记。真正的长局，才刚刚开始。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.