DeepSeek新模型“杀疯了”！用视觉压缩文字，开源即获5.7k Star，Karpathy直呼：Tokenizer必须被淘汰|视图|上下文|deepseek

DeepSeek新模型“杀疯了”！用视觉压缩文字，开源即获5.7k Star，Karpathy直呼：Tokenizer必须被淘汰

2025-10-21 16:39:16　来源: CSDN

北京举报

分享至

整理 | 苏宓

出品 | CSDN（ID：CSDNnews）

大模型如今最大的问题之一就是——遇到长文本就吃不消。倘若你丢给它 100K token 文档，它就会卡顿、占用大量内存，甚至花费飙升。其实这不是模型本身的问题，而是 Transformer 的注意力机制决定了，处理长序列的计算量会急速上升。

现在想象一下，如果你不把整段文字直接喂给模型，而是先把它画成一张图像再让模型“看”，结果会不会不同？

这不，DeepSeek 的最新研究就专注于这个点。它在开源领域再下一城，于今日推出了一款新型文字识别模型——DeepSeek OCR。官方解释它是：“一款从大模型视角出发，用于研究视觉编码器作用的模型”。

DeepSeek OCR 的独特之处在于用视觉方式压缩文本内容。它并不是把视觉当作附加功能，而是将视觉当作文本压缩层。换句话说，它可以先把整页文字渲染成图像，再让模型去“读”这些图像，从而高效提取文字信息。

此模型一经发布，引起国内外技术圈的广泛关注，相关话题也迅速攀升至各个科技热榜中。

论文地址：https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
开源地址：https://github.com/deepseek-ai/DeepSeek-OCR

DeepSeek OCR 究竟是什么？

不难看出，DeepSeek OCR 的出现，旨在解决大模型处理长文本时的算力瓶颈。

正如上文所提及的，它的核心思路是把文本先转换成图像，再由模型读取图像信息。

乍一听，不少人可能觉得奇怪，但其实很直观：一页文字可能需要几千个文本 token，但压缩成图像后，只需要几百个视觉 token，就能表示同样的信息，压缩率大约 10 倍。

DeepSeek 团队想试一试：能不能让模型读懂这张压缩图像，并准确还原原文？压缩能做到多极致才会“崩掉”？他们的实验，就是围绕这个问题展开的。

经过这次的研究，其得出结论，用图像表示文本，反而比直接处理文字序列更节省计算资源。

DeepSeek 官方称，这一新模型在许多文档解析基准测试中取得了领先成绩，而且单块 NVIDIA A100 GPU 每天可处理约 20 万页文档，效率极高。

对此，OpenAI 前联合创始人 Andrej Karpathy 也对这一研究方向非常认同，其直言「Tokenizer 必须被淘汰」，还称自己也忍不住想要开发一款只接受图像输入的 NanoChat 了。他还甚赞道：

我挺喜欢这篇新的 DeepSeek-OCR 论文的。它确实是一个不错的 OCR 模型（可能比 dots 差一点），数据收集等环节也有，但这些其实无关紧要。

对我来说，更有意思的地方是——作为一个本质上是计算机视觉研究者、暂时扮作自然语言人的人——像素是不是比文本更适合作为大模型的输入。也就是说，文本 token 在输入端是否其实很浪费、甚至糟糕。

也许更合理的做法是：大模型的所有输入都应该是图像。即便你手头只有纯文本，也可以先把文本渲染成图像再输入模型，这样有几个好处：

信息压缩更多（论文中提到）→ 上下文窗口更短，效率更高
信息流更通用 → 不只是文本，还可以包含粗体、彩色文字、任意图片
可以默认使用双向注意力处理输入，不必局限于自回归注意力 → 更强大
去掉 tokenizer（输入端）！！我早就吐槽过 tokenizer 有多讨厌。它丑陋、独立、不端到端，把 Unicode、字节编码的历史包袱和安全/越狱风险都“引入”模型内部。两个肉眼看起来完全一样的字符，内部却可能变成两个不同的 token。一个笑脸表情被当作奇怪的 token，而不是完整的像素笑脸及其带来的迁移学习效果。
Tokenizer 必须被淘汰。

OCR 只是众多有用的“视觉→文本”任务之一。而“文本→文本”的任务，也可以设计成“视觉→文本”的任务，而不是反过来。

在很多场景下，用户输入仍然是图像，但解码器（助手回应）保持文本输出。要让输出也变成像素就不那么显而易见了——而且你是否真的希望这样也值得考虑。

现在，我甚至忍不住想开发一个只接受图像输入的 NanoChat……

在社交媒体上，还有用户在亲身体验后，发表感慨：“太棒了！我刚刚使用这个优秀的新开源模型将 400 页 PDF 转换为 markdown 格式。不到 4 分钟就完成了！”

另一位 AI 用户评论道：

震撼！

中国的 DeepSeek 又一次突破了极限！

一整本百科全书，竟然可以压缩成一张高分辨率的图像！

这是令人瞠目结舌的重大突破。DeepSeek-OCR 发布了一个拥有30 亿参数的视觉-语言模型，它以惊人的光学压缩技术模糊了文本与视觉的界限！

这不仅仅是一次 OCR 升级，而是对机器感知和处理数据方式的一次根本性革命。

支撑 DeepSeek-OCR 的两大核心构成

这种“将文字转为图像再识别”的做法，DeepSeek 在论文中将其称之为“上下文光学压缩”（Context Optical Compression）。

据 Deepseek 介绍，DeepSeek-OCR 内部技术由两部分组成：一个是名为 DeepEncoder 的视觉编码器，另一个是 DeepSeek-3B-MoE 的解码器。

DeepEncoder 编码器专为高分辨率输入设计，既能保持较低的激活开销，又能输出极少量的 token，其本身拥有 3.8 亿参数，用来分析每张图像并生成压缩表示。它结合了：

SAM-base（8000 万参数）：采用窗口注意力机制，用于局部感知。可以把它理解为扫描图像的细节部分。
CLIP-large（3 亿参数）：采用密集注意力机制，用于全局理解。这部分负责捕捉更广的布局和上下文信息。
在两者之间有一个 16 倍卷积压缩器，在将视觉 token 输入到全局注意力模块之前，对它们进行压缩。

例如，一张 1024×1024 像素的图像最初包含 4096 个 token，经过 SAM 处理后，经压缩器缩减至仅 256 个 token，再交由计算量更高的 CLIP 模型处理。因此，该模型避免了视觉 Transformer 中常见的激活内存爆炸问题。

解码器部分是一个拥有30 亿参数的 MoE 模型（即 DeepSeek3B-MoE-A570M），每个 token 实际激活约5.7 亿参数，每步会激活 64 个专家中的 6 个。它从压缩后的视觉 token 中重建文本。因此，它实际上是一个视觉到文本的 Transformer，但训练数据涵盖了大量文档、公式、图表、化学结构，甚至多语言 PDF。

多分辨率设计

此外，Deepseek OCR 可在不同分辨率下工作。在较低分辨率时，每张图仅需 64 个视觉 token；在高分辨率下最多需要 400 个。相比之下，传统 OCR 系统通常需要数千个 token 才能完成相同任务。

DeepEncoder 支持两种模式：原生模式（native modes）和动态模式（dynamic modes）。

在原生模式下，它提供四种配置：

Tiny：输入分辨率 512×512 像素，输出 64 个 token；
Small：输入分辨率为 640×640 像素，输出 100 个 token；
Base：输入分辨率为 1024×1024 像素，输出 256 个 token；
Large：输入分辨率为 1280×1280 像素，输出 400 个 token。

动态模式包括Gundam和Gundam-Master，它们将多块局部视图与全局视图相结合。

在这种模式下，Gundam 的输出为n×100 + 256 个 token，或n×256 + 400 个 token，其中 n 的取值范围为 2 到 9。

对于带有填充的模式（padded modes），DeepSeek 团队还提供了一个用于计算有效 token 数的公式——有效 token 数通常低于原始 token 数，并与图像的宽高比有关。这些模式的设计使 AI 开发者和研究人员能够根据页面内容的复杂度，灵活分配 token 预算，在性能与成本之间找到平衡。

压缩效果

值得注意的是，DeepSeek-OCR 能识别的语言和内容非常丰富，它除了支持普通印刷文本（包括中文、英文在内的 100 多种语言）之外，还能深入解析复杂排版的图像信息。

具体来说，它可以识别表格或财务报表中的文字、图表和示意图中的信息，甚至能够读出化学分子式、数学公式和几何图形。既能保留原始排版，也能输出纯文本，同时具备一般性图像描述能力。

根据官方解释的训练数据构成来看，模型在训练时用了：

OCR 1.0 数据（3000 万页）：真实文档 PDF，涵盖 100 多种语言
OCR 2.0 数据：合成但有结构的内容，如图表、公式、几何图形等
通用视觉数据（20%）：保持模型的图像理解能力
纯文本数据（10%）：保持语言质量

因此其具备理解各种视觉文档的能力。

整体而言，在 Fox 基准测试（压缩测试）中，DeepSeek-OCR 在压缩视觉 token 时恢复文本准确性的能力如下：

当使用100 个视觉 token时：

文本量在 600–700 token 的页面，压缩比约6.7×，精度可达98.5%；
文本量在 900–1000 token 的页面，压缩比约9.7×，精度可达96.8%。

当使用64 个视觉 token时，随着压缩比增加，精度会下降：

例如，对于 1200–1300 token 的页面，压缩比约19.7×，精度下降至59.1%。

也就是说，在10 倍压缩率下，模型仍能保持约97% 的精度，几乎可以视为无损。即便在20 倍压缩的情况下，准确率也能达到约60%——考虑到压缩幅度，这已经相当惊人了。

在OmniDocBench基准测试中，Deepseek OCR 仅用 100 个视觉 token 就超过了 GOT-OCR 2.0 的性能；当使用不到 800 个 token 时，也胜过需要每页 6000 多个 token 的 MinerU 2.0。

与传统 OCR 工具相比，DeepSeek-OCR 最大的不同在于思路和架构。

DeepSeek-OCR 改变了人们对长上下文处理的思路。它不再一味地去扩展注意力窗口，而是提出：干脆把内容用视觉方式压缩掉。

对大语言模型开发者来说，这意味着：

更低的内存消耗：视觉 token 更紧凑；
更快的推理速度：token 更少 → 计算量（FLOPs）更少；
更自然的遗忘机制：旧的上下文可以按比例降采样；
更容易的多模态融合：模型本身就把文字视作图像。

而对于 OCR 研究者来说，这则是一个全新的 SOTA（最先进）系统——性能超越了更庞大的 MinerU 2.0 和 GOT-OCR2.0，同时运行更快、占用内存更少。

正因此，DeepSeek-OCR 发布仅短短几个小时后，便在 GitHub 上斩获了 5.7k Star。

同时在 Hugging Face 趋势榜上排在第二：

至此，你是否已经上手体验了这一新模型？

参考：

论文地址：https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

https://github.com/deepseek-ai/DeepSeek-OCR

https://huggingface.co/deepseek-ai/DeepSeek-OCR

https://x.com/karpathy/status/1980397031542989305

https://www.marktechpost.com/2025/10/20/deepseek-just-released-a-3b-ocr-model-a-3b-vlm-designed-for-high-performance-ocr-and-structured-document-conversion/

https://github.com/deepseek-ai/DeepSeek-OCR

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.