
整理 | 苏宓
出品 | CSDN(ID:CSDNnews)
大模型如今最大的问题之一就是——遇到长文本就吃不消。倘若你丢给它 100K token 文档,它就会卡顿、占用大量内存,甚至花费飙升。其实这不是模型本身的问题,而是 Transformer 的注意力机制决定了,处理长序列的计算量会急速上升。
现在想象一下,如果你不把整段文字直接喂给模型,而是先把它画成一张图像再让模型“看”,结果会不会不同?
这不,DeepSeek 的最新研究就专注于这个点。它在开源领域再下一城,于今日推出了一款新型文字识别模型——DeepSeek OCR。官方解释它是:“一款从大模型视角出发,用于研究视觉编码器作用的模型”。
DeepSeek OCR 的独特之处在于用视觉方式压缩文本内容。它并不是把视觉当作附加功能,而是将视觉当作文本压缩层。换句话说,它可以先把整页文字渲染成图像,再让模型去“读”这些图像,从而高效提取文字信息。
此模型一经发布,引起国内外技术圈的广泛关注,相关话题也迅速攀升至各个科技热榜中。
![]()
论文地址:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
开源地址:https://github.com/deepseek-ai/DeepSeek-OCR
![]()
DeepSeek OCR 究竟是什么?
不难看出,DeepSeek OCR 的出现,旨在解决大模型处理长文本时的算力瓶颈。
正如上文所提及的,它的核心思路是把文本先转换成图像,再由模型读取图像信息。
乍一听,不少人可能觉得奇怪,但其实很直观:一页文字可能需要几千个文本 token,但压缩成图像后,只需要几百个视觉 token,就能表示同样的信息,压缩率大约 10 倍。
DeepSeek 团队想试一试:能不能让模型读懂这张压缩图像,并准确还原原文?压缩能做到多极致才会“崩掉”?他们的实验,就是围绕这个问题展开的。
经过这次的研究,其得出结论,用图像表示文本,反而比直接处理文字序列更节省计算资源。
DeepSeek 官方称,这一新模型在许多文档解析基准测试中取得了领先成绩,而且单块 NVIDIA A100 GPU 每天可处理约 20 万页文档,效率极高。
![]()
对此,OpenAI 前联合创始人 Andrej Karpathy 也对这一研究方向非常认同,其直言「Tokenizer 必须被淘汰」,还称自己也忍不住想要开发一款只接受图像输入的 NanoChat 了。他还甚赞道:
我挺喜欢这篇新的 DeepSeek-OCR 论文的。它确实是一个不错的 OCR 模型(可能比 dots 差一点),数据收集等环节也有,但这些其实无关紧要。
对我来说,更有意思的地方是——作为一个本质上是计算机视觉研究者、暂时扮作自然语言人的人——像素是不是比文本更适合作为大模型的输入。也就是说,文本 token 在输入端是否其实很浪费、甚至糟糕。
也许更合理的做法是:大模型的所有输入都应该是图像。即便你手头只有纯文本,也可以先把文本渲染成图像再输入模型,这样有几个好处:
信息压缩更多(论文中提到)→ 上下文窗口更短,效率更高
信息流更通用 → 不只是文本,还可以包含粗体、彩色文字、任意图片
可以默认使用双向注意力处理输入,不必局限于自回归注意力 → 更强大
去掉 tokenizer(输入端)!!我早就吐槽过 tokenizer 有多讨厌。它丑陋、独立、不端到端,把 Unicode、字节编码的历史包袱和安全/越狱风险都“引入”模型内部。两个肉眼看起来完全一样的字符,内部却可能变成两个不同的 token。一个笑脸表情被当作奇怪的 token,而不是完整的像素笑脸及其带来的迁移学习效果。
Tokenizer 必须被淘汰。
OCR 只是众多有用的“视觉→文本”任务之一。而“文本→文本”的任务,也可以设计成“视觉→文本”的任务,而不是反过来。
在很多场景下,用户输入仍然是图像,但解码器(助手回应)保持文本输出。要让输出也变成像素就不那么显而易见了——而且你是否真的希望这样也值得考虑。
现在,我甚至忍不住想开发一个只接受图像输入的 NanoChat……
![]()
在社交媒体上,还有用户在亲身体验后,发表感慨:“太棒了!我刚刚使用这个优秀的新开源模型将 400 页 PDF 转换为 markdown 格式。不到 4 分钟就完成了!”
![]()
另一位 AI 用户评论道:
震撼!
中国的 DeepSeek 又一次突破了极限!
一整本百科全书,竟然可以压缩成一张高分辨率的图像!
这是令人瞠目结舌的重大突破。DeepSeek-OCR 发布了一个拥有30 亿参数的视觉-语言模型,它以惊人的光学压缩技术模糊了文本与视觉的界限!
这不仅仅是一次 OCR 升级,而是对机器感知和处理数据方式的一次根本性革命。
![]()
![]()
支撑 DeepSeek-OCR 的两大核心构成
这种“将文字转为图像再识别”的做法,DeepSeek 在论文中将其称之为“上下文光学压缩”(Context Optical Compression)。
据 Deepseek 介绍,DeepSeek-OCR 内部技术由两部分组成:一个是名为 DeepEncoder 的视觉编码器,另一个是 DeepSeek-3B-MoE 的解码器。
DeepEncoder 编码器专为高分辨率输入设计,既能保持较低的激活开销,又能输出极少量的 token,其本身拥有 3.8 亿参数,用来分析每张图像并生成压缩表示。它结合了:
SAM-base(8000 万参数):采用窗口注意力机制,用于局部感知。可以把它理解为扫描图像的细节部分。
CLIP-large(3 亿参数):采用密集注意力机制,用于全局理解。这部分负责捕捉更广的布局和上下文信息。
在两者之间有一个 16 倍卷积压缩器,在将视觉 token 输入到全局注意力模块之前,对它们进行压缩。
例如,一张 1024×1024 像素的图像最初包含 4096 个 token,经过 SAM 处理后,经压缩器缩减至仅 256 个 token,再交由计算量更高的 CLIP 模型处理。因此,该模型避免了视觉 Transformer 中常见的激活内存爆炸问题。
![]()
解码器部分是一个拥有30 亿参数的 MoE 模型(即 DeepSeek3B-MoE-A570M),每个 token 实际激活约5.7 亿参数,每步会激活 64 个专家中的 6 个。它从压缩后的视觉 token 中重建文本。因此,它实际上是一个视觉到文本的 Transformer,但训练数据涵盖了大量文档、公式、图表、化学结构,甚至多语言 PDF。
![]()
多分辨率设计
此外,Deepseek OCR 可在不同分辨率下工作。在较低分辨率时,每张图仅需 64 个视觉 token;在高分辨率下最多需要 400 个。相比之下,传统 OCR 系统通常需要数千个 token 才能完成相同任务。
![]()
DeepEncoder 支持两种模式:原生模式(native modes)和动态模式(dynamic modes)。
在原生模式下,它提供四种配置:
Tiny:输入分辨率 512×512 像素,输出 64 个 token;
Small:输入分辨率为 640×640 像素,输出 100 个 token;
Base:输入分辨率为 1024×1024 像素,输出 256 个 token;
Large:输入分辨率为 1280×1280 像素,输出 400 个 token。
![]()
动态模式包括Gundam和Gundam-Master,它们将多块局部视图与全局视图相结合。
在这种模式下,Gundam 的输出为n×100 + 256 个 token,或n×256 + 400 个 token,其中 n 的取值范围为 2 到 9。
![]()
对于带有填充的模式(padded modes),DeepSeek 团队还提供了一个用于计算有效 token 数的公式——有效 token 数通常低于原始 token 数,并与图像的宽高比有关。这些模式的设计使 AI 开发者和研究人员能够根据页面内容的复杂度,灵活分配 token 预算,在性能与成本之间找到平衡。
![]()
压缩效果
值得注意的是,DeepSeek-OCR 能识别的语言和内容非常丰富,它除了支持普通印刷文本(包括中文、英文在内的 100 多种语言)之外,还能深入解析复杂排版的图像信息。
具体来说,它可以识别表格或财务报表中的文字、图表和示意图中的信息,甚至能够读出化学分子式、数学公式和几何图形。既能保留原始排版,也能输出纯文本,同时具备一般性图像描述能力。
根据官方解释的训练数据构成来看,模型在训练时用了:
OCR 1.0 数据(3000 万页):真实文档 PDF,涵盖 100 多种语言
OCR 2.0 数据:合成但有结构的内容,如图表、公式、几何图形等
通用视觉数据(20%):保持模型的图像理解能力
纯文本数据(10%):保持语言质量
因此其具备理解各种视觉文档的能力。
整体而言,在 Fox 基准测试(压缩测试)中,DeepSeek-OCR 在压缩视觉 token 时恢复文本准确性的能力如下:
当使用100 个视觉 token时:
文本量在 600–700 token 的页面,压缩比约6.7×,精度可达98.5%;
文本量在 900–1000 token 的页面,压缩比约9.7×,精度可达96.8%。
当使用64 个视觉 token时,随着压缩比增加,精度会下降:
例如,对于 1200–1300 token 的页面,压缩比约19.7×,精度下降至59.1%。
也就是说,在10 倍压缩率下,模型仍能保持约97% 的精度,几乎可以视为无损。即便在20 倍压缩的情况下,准确率也能达到约60%——考虑到压缩幅度,这已经相当惊人了。
![]()
![]()
在OmniDocBench基准测试中,Deepseek OCR 仅用 100 个视觉 token 就超过了 GOT-OCR 2.0 的性能;当使用不到 800 个 token 时,也胜过需要每页 6000 多个 token 的 MinerU 2.0。
![]()
![]()
与传统 OCR 工具相比,DeepSeek-OCR 最大的不同在于思路和架构。
DeepSeek-OCR 改变了人们对长上下文处理的思路。它不再一味地去扩展注意力窗口,而是提出:干脆把内容用视觉方式压缩掉。
对大语言模型开发者来说,这意味着:
更低的内存消耗:视觉 token 更紧凑;
更快的推理速度:token 更少 → 计算量(FLOPs)更少;
更自然的遗忘机制:旧的上下文可以按比例降采样;
更容易的多模态融合:模型本身就把文字视作图像。
而对于 OCR 研究者来说,这则是一个全新的 SOTA(最先进)系统——性能超越了更庞大的 MinerU 2.0 和 GOT-OCR2.0,同时运行更快、占用内存更少。
正因此,DeepSeek-OCR 发布仅短短几个小时后,便在 GitHub 上斩获了 5.7k Star。
![]()
同时在 Hugging Face 趋势榜上排在第二:
![]()
至此,你是否已经上手体验了这一新模型?
参考:
论文地址:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
https://github.com/deepseek-ai/DeepSeek-OCR
https://huggingface.co/deepseek-ai/DeepSeek-OCR
https://x.com/karpathy/status/1980397031542989305
https://www.marktechpost.com/2025/10/20/deepseek-just-released-a-3b-ocr-model-a-3b-vlm-designed-for-high-performance-ocr-and-structured-document-conversion/
https://github.com/deepseek-ai/DeepSeek-OCR
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.