国产大模型同日转向：参数竞赛结束，工程化时代开启|模态|上下文|智能体|新论文|kimi

国产大模型同日转向：参数竞赛结束，工程化时代开启

2026-01-28 21:21:57　来源: 雷科技

广东举报

分享至

1 月 27 日，两家最受关注的国内大模型初创公司，几乎同时放出了各自最新、也是分量最重的一次开源更新：

DeepSeek 发布并开源了 DeepSeek-OCR 2，这是其在去年震动行业的 DeepSeek-OCR 基础上的一次关键升级；Kimi 同样发布并开源了 K2.5，继续推进其超长上下文、多模态与「智能体化」路线。

表面看，这是两次方向不同的模型迭代。

DeepSeek-OCR 2 重新回答「模型究竟该如何『读』信息」，通过新的视觉编码机制，让大模型学习人类的视觉逻辑，把原本昂贵、冗长的文本输入压缩为更高密度的「视觉语义」。

简单来说，它试图改变 AI「读文档」的方式，让模型不用再把一整本文件拆成成千上万个字「硬读」，而是像人一样先看版面、抓重点，再理解含义。这意味着，将来让 AI 帮你读长文档、查资料、扒表格，可能会更快、更便宜，也更靠谱。

图片来源：DeepSeek

Kimi K2.5 则走向另一个方向：不只回答问题，而是把 AI 往「能干活」的方向再推一步。更长的记忆、更强的多模态理解，再加上对复杂任务的拆解和执行能力，指向的是一种更接近「数字助理」的体验，而不是一个只会对话的聊天窗口。

Kimi 就宣称其为迄今最智能、最全能的模型，同时支持视觉与文本输入、思考与非思考模式、对话与 Agent 任务。

图片来源：Kimi

一个聚焦语言模型输入效率的变革，一个聚焦通用智能与复杂任务协作能力。但放在同一时间点，它们共同指向了一个更重要的问题：大模型的能力升级，正在从「参数和对话能力」，转向更底层、更工程化的能力重构。

AI 正在升级的，已经不只是更聪明的大脑。

从输入到干活的进化，国产 AI 的两条升级路线

去年发布的 DeepSeek-OCR，第一次让行业意识到，大模型基于单词和 Token 逐个输入的方式本身可以被重做。到了最新发布的 DeepSeek-OCR 2，更是解决了一个更具体、也更困难的问题：模型到底该怎么「读」一份复杂文档。

过去，AI 处理文档的方式非常机械。无论是 PDF、合同还是财报，本质上都是先被拆成一段段文字，再按顺序塞进模型里。这种方式的问题很明显：

一方面，长文档会迅速消耗上下文窗口，成本高、效率低；另一方面，表格、多栏排版、注释和正文之间的关系，经常在「拆字」的过程中被破坏。

DeepSeek 在 OCR-2 中给出的答案，是进一步强化其「视觉编码」思路，不再把文档当作一串文字，而是当作一个需要被「阅读」的视觉对象。

相比一代，OCR 2 的关键变化不只是压缩率，而是引入了更接近人类阅读习惯的逻辑，从上一代的 CLIP（切片）架构转向以 Qwen2 为基础的 LM（语言模型）视觉编码器。模型不再是同时、平均地处理整页内容，而是学会区分结构：

哪里是标题，哪里是表格，哪些信息彼此相关，哪些需要先读、哪些可以后看。

运作示意图，图片来源：DeepSeek

换句话说，它开始理解「版面本身就是信息的一部分」。

这种变化带来的直接价值，并不体现在「模型更聪明」这样的抽象评价上，而是体现在一系列非常具体的体验提升上。比如，当你让 AI 帮你快速看完一份几十页的报告时，它不再需要把每一个字都读完，才能给出结论；在处理复杂表格时，也不再频繁出现列错位、字段错配的问题。

更重要的是，由于输入被高度压缩，同样的任务可以用更低的成本、更短的时间完成。这也是为什么 DeepSeek-OCR 2 对真正的 AI 应用来说意义更大，它有潜力让 AI 更适合被放进真实的文档流程里，无论是检索、比对、摘要，还是结构化信息抽取。

在这个意义上，OCR 2 解决的不是一个模型能力问题，而是一个长期存在的「用起来不顺」的问题。

而相比 DeepSeek-OCR 2 把 AI 的「输入端」重做了一遍，Kimi K2.5 关注的，则是 AI 代理完成复杂任务的能力。

事实上，今天问题问得再复杂，AI 也能回答；可一旦涉及多步骤、多材料、需要反复引用上下文的任务，模型就很容易「忘前忘后」，或者停留在建议层面。AI 的能力已经相当成熟，不过很多用户还都是类似的体验。

Kimi 在 K2.5 中，继续把重心放在「长记忆 + 多模态 + 智能体」这条路线上，本质上是在尝试让 AI 从「答题模式」，走向「执行模式」。

一方面，超长上下文让模型可以在更长时间内记住对话、资料和中间结论，减少反复解释的成本；另一方面，多模态能力让 AI 不只处理文字，还能理解图片、界面截图甚至更复杂的输入形式。

更关键的，是对「智能体」能力的持续强化。Kimi 不再只是回答你「应该怎么做」，而是尝试把任务拆解成多个步骤，并且实现了「Agent 集群」，能在不同阶段调用不同能力，最终给出一个相对完整的结果。这种能力，决定了 AI 能否真正进入工作流，而不是只停留在咨询助手的位置。

图片来源：Kimi

这也是 Kimi K2.5 强调自己「更全能」的原因所在。它追求的，并不是某一个能力点的极限，而是能否承接更长、更复杂、更接近真实工作的任务链条。

大模型这一轮，开始卷「能不能真的用起来」

从 DeepSeek-OCR 2 和 Kimi K2.5 往外看，会发现最近半年的一批主流大模型，升级方向其实异常一致。无论是 OpenAI 的 GPT-5.2、Anthropic 的 Claude 4.5，还是 Google 的 Gemini 3，再到字节跳动的豆包 1.8、阿里巴巴的千问 Qwen3-Max-Thinking，它们不约而同地把重心从「模型有多强」，挪到了一个更现实的问题上：

让 AI 更深一步进入真实的工作环境。

这也是为什么，这一轮升级很少再强调参数规模和单点能力，而是反复围绕几件事打磨：记得住、看得懂、接得住流程、干得完事情。

首先被集体拉高的，是「记忆」这件事。

过去，大模型更像是短期对话高手，擅长当下回答，却很难长期协作。一旦任务变长、材料变多，就需要用户不断重复背景。最近这一批模型的升级，几乎都在解决这个痛点：更长的上下文、更稳定的状态保持，让模型能够跟着任务一路往前走，而不是走两步就「失忆」。

GPT-5.2 把长上下文和不同推理模式直接产品化，Kimi K2.5 则把超长上下文嵌进智能体流程，让模型在多步骤执行中记住中间结果。这些变化都在让 AI 不再只是回答一个问题，而是有能力帮用户做好一件事。

其次，是对「看」这件事的重新理解。

如果说过去的多模态更多是「能识图」，那么现在的升级重点，是「能不能看懂」。DeepSeek-OCR 2 代表的，是一种更激进也更务实的方向：不再把视觉当成文字的前置步骤，而是直接把视觉当作信息本身，让模型像人一样先理解结构、版面和关系，再进入语义层。

这种变化并不只发生在文档场景。无论是 GPT、Claude 还是 Gemini，都在强化对截图、界面、复杂图像的理解能力。

图片来源：Gemini

现实世界的信息，本来就不是一行一行排好的文本。当模型开始真正理解「图像里信息是怎么组织的」，AI 才可能更自然地嵌入真实环境，而不是只活在纯文本的对话框里。

再往下，是这一轮升级里最容易被忽视、却最关键的变化：AI 的角色转移。

过去，大模型更像是「顾问」，给建议、给答案，但不负责结果。而现在，越来越多模型开始被设计成「执行者」。Kimi K2.5 强调智能体，本质上是在让模型学会拆任务、接工具、跑流程；GPT-5.2 把不同推理模式与工具调用结合，也是在降低「从建议到执行」的断层。

当 AI 开始接手的是一整段流程，而不是某一个问题，对它的价值判断标准也随之改变，关键在于「说得对不对」，而在于能不能跑完、稳不稳。这也是为什么，这一轮升级中，「工程化」的重要性被反复提到。

国内 AI 在这一点上动作尤为明显。DeepSeek、Kimi、千问、豆包，都在强调模型是否好部署、是否好接入现有系统、是否能跑在真实业务里。另一方面，国内外 AI 过去一年都在强调通过更强的产品封装，把复杂能力隐藏在界面和服务之下。实际上目标一致，都是让 AI 不再停留在「演示」，而是「可用」「好用」。

写在最后

没有哪个模型做到了「通用智能（AGI）」，但把时间线再拉长一点看，更多变化发生在不那么「夺目」的地方：输入方式被重新设计，任务开始被拆解和接管，模型被要求在更长时间、更复杂流程中保持稳定。

当模型开始被认真地放进真实的日常生活和工作环境中，被反复验证、反复调用，它的价值衡量标准也随之改变。不再是谁的参数更大、回答更惊艳，而是谁更省成本、更少出错、更值得长期依赖。

从这个角度看，DeepSeek-OCR 2 和 Kimi K2.5 的意义，并不只在于它们各自解决了什么问题，而在于它们代表了一种更现实的共识：AI 迈入真实世界的下一步，必须迈出问答。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.