DeepSeek开源新成果！把长文档压缩成图片，降低大模型处理成本|编码器|ocr|上下文|deepseek|图像生成基础模型

DeepSeek开源新成果！把长文档压缩成图片，降低大模型处理成本

2025-10-20 18:17:59　来源: DeepTech深科技

北京举报

分享至

DeepSeek 开源新成果了。

这次他们发布了一个名为 DeepSeek-OCR 的模型，尝试用一种新颖的“上下文光学压缩”方法，来解决当前大语言模型处理长篇文档时效率不高、成本过高的问题。

我们知道，大语言模型在处理几千字、几万字甚至更长的文本时，计算量会急剧增加，对算力和内存的要求非常高。这成了限制它们在很多需要处理海量文档场景中应用的一个瓶颈。

DeepSeek-OCR 的思路，就是想绕开这个难题。DeepSeek 团队指出，人类在阅读文档时，视觉系统扮演了至关重要的角色，能够快速捕捉和压缩页面布局、段落结构等信息。那么，机器是否也能模拟这一过程？DeepSeek-OCR 正是对这一设想的初步探索。

它的核心想法是，能不能不直接把长长的文字序列喂给语言模型？而是先把这些文字内容渲染成一张图片，然后利用高效的视觉模型对这张图片进行压缩和理解，最后只把压缩后的、数量少得多的视觉特征交给语言模型去“解压”和处理。

因此，它不只是个 OCR 工具，更像是一个为大模型打造的“视觉预处理器”，一个能把成千上万个文本 token 高效打包成几百个视觉 token 的压缩引擎。

DeepSeek-OCR 的架构设计主要由两大核心组件构成：DeepEncoder（深度编码器）和 DeepSeek-3B-MoE-A570M（一个拥有 30 亿参数、激活 5.7 亿参数的混合专家模型）解码器。

DeepEncoder 是整个系统的关键所在。它的设计目标在于，在处理高分辨率输入图像的同时，保持较低的激活内存，并实现极高的压缩比。为了达到这一目的，DeepEncoder 融合了两种成熟的视觉模型架构：SAM（Segment Anything Model）和 CLIP（Contrastive Language–Image Pre-training）。前者以窗口注意力机制（window attention）见长，擅长处理局部细节，构成了编码器的前半部分；后者则依赖密集的全局注意力机制（global attention），能够捕获整体知识信息。

两者之间，通过一个 16 倍下采样的卷积压缩模块进行桥接。一张高分辨率的文档图片输入后，首先由 SAM 高效地处理海量、分散的视觉特征，然后这些特征在进入计算成本高昂的全局注意力网络之前，被大幅压缩。这一“先分后总、先粗后精”的设计，有效解决了高分辨率图像处理中常见的内存溢出和 token 数量爆炸的问题。

而解码端则采用了 DeepSeek 自家的混合专家（Mixture-of-Experts, MoE）架构。MoE 模型通过将任务分发给不同的专家网络，能够在保持模型整体规模可控的前提下，实现强大的表达能力。在 DeepSeek-OCR 中，这个拥有约 5.7 亿激活参数的解码器，负责将 DeepEncoder 输出的压缩视觉 token“解压”还原为精准的文本序列。

为了验证这一新范式的有效性，DeepSeek 在 Fox 和 OmniDocBench 等 OCR 基准上检验了其压缩-解压过程是否可靠且信息无损。在针对包含 600 到 1,300 个文本 token 的英文文档测试中，DeepSeek-OCR 仅使用 64 或 100 个视觉 token 即可完成处理。数据显示，当压缩比（原始文本 token 数与所用视觉 token 数的比值）低于 10 倍时，模型的 OCR 解码精度可保持在 97% 以上。即使在压缩比达到 20 倍的情况下，准确率也依然能维持在 60% 左右。

在更侧重实际应用场景的 OmniDocBench 测试中，DeepSeek-OCR 的表现同样突出。相较于 GOT-OCR2.0（平均每页使用 256 个 token）和 MinerU2.0（平均每页使用超过 6000 个 token）等其他端到端模型，DeepSeek-OCR 在使用更少视觉 token 的情况下，整体性能达到了业界先进水平。

除了文本识别性能，DeepSeek-OCR 还具备较强的“深度解析”能力。这得益于其训练数据中包含了图表、化学分子式、几何图形等多样化的视觉内容。因此，模型不仅能识别标准文本，还能对文档中嵌入的复杂元素进行结构化解析。例如，它可以将报告中的图表转换为表格数据，将化学文献中的分子式输出为 SMILES 格式，或解析几何图形中的线段关系。这种超越传统文本识别的能力，拓展了其在金融、科研、教育等专业领域的应用空间。

值得注意的是，DeepSeek 已将 DeepSeek-OCR 的核心代码和模型权重开源，据其技术报告披露，在生产环境中，单张 A100-40G GPU 每日可处理超过 20 万页的文档数据。

当然，作为一项探索性的工作，DeepSeek-OCR 目前也存在一些局限。报告指出，当压缩比超过 10 倍后，模型性能会开始下降。这可能是因为长文档的复杂布局在高度压缩后信息损失增多，或是低分辨率图像导致文本细节模糊。此外，虽然模型展现了对多种元素的解析能力，但在处理一些极端复杂的版面时，其性能仍有提升空间。

而且，OCR 任务虽然提供了清晰的压缩-解压缩映射和可量化的评估指标，但文档识别与真实的多轮对话理解存在本质差异。前者主要考验模型的感知和解码能力，后者还涉及推理、记忆检索、上下文关联等更复杂的认知过程。

一份文档的各段落间相对独立，而对话的轮次间存在强依赖关系。将对话历史光学化后，模型能否依然保持对早期关键信息的有效检索，需要专门的“大海捞针”（needle-in-a-haystack）测试来验证。技术报告坦言，他们计划在未来进行数字文本与光学文本交错的预训练实验，以及长上下文检索准确性评估。

不过，DeepSeek-OCR 仍然是一个具有相当重要价值的工作，除了是一款性能出色的 OCR 工具，它还为视觉与语言两种模态的深度融合提供了新的思路。过去，视觉和语言通常被作为独立的输入源来处理，而 DeepSeek-OCR 的实践表明，两者或许可以互为信息压缩和解压的媒介。基于这一范式，未来或可探索将多轮对话的历史记录动态渲染成图像，以期用更低的成本管理更长的对话历史。同样，海量知识库也有可能被压缩成一系列紧凑的视觉索引，以提升模型的知识检索效率。

参考资料：

1.https://github.com/deepseek-ai/DeepSeek-OCR/tree/main

运营/排版：何晨龙

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.