DeepSeek-OCR 2重磅发布：AI学会“人类视觉逻辑”，以因果流解读图片|推理|ocr|新论文|deepseek

DeepSeek-OCR 2重磅发布：AI学会“人类视觉逻辑”，以因果流解读图片

分享至

DeepSeek发布新一代光学字符识别系统，通过让AI以类似人类的逻辑顺序理解图像，在视觉识别领域实现技术突破。这一进展可能重塑文档处理、图表分析等依赖复杂视觉理解的应用场景。

27日，DeepSeek发布了DeepSeek-OCR 2系统。该系统采用名为DeepEncoder V2的新方法，使AI能够像人类一样按照逻辑顺序“看”图像。这项技术的核心创新在于改变了传统AI处理图像的方式。DeepEncoder V2让AI基于图像含义动态重新排列图像片段，而非传统的从左到右刚性扫描。这种方法模仿了人类追随场景逻辑流的方式。

根据DeepSeek公布的技术报告，DeepSeek-OCR 2在多项关键指标上展现出显著优势。在OmniDocBench v1.5基准测试中，该模型取得了91.09%的成绩，相较于前代DeepSeek-OCR提升了3.73%。

值得注意的是，该模型在保持极高精度的同时，严格控制了计算成本，其视觉Token数量被限制在256至1120之间，这一上限与Google的Gemini-3 Pro保持一致。在实际生产环境中，该模型在处理在线用户日志和PDF预训练数据时的重复率分别下降了2.08%和0.81%，显示出极高的实用成熟度。

DeepSeek-OCR 2重磅发布

模拟人类视觉的“因果流”逻辑

根据DeepSeek公布的技术报告，现有的视觉语言模型（VLMs）通常采用固定的光栅扫描顺序（光栅扫描顺序）处理图像切片，即机械地从左上角扫描至右下角。DeepSeek团队指出，这种方式引入了不必要的归纳偏差，与人类视觉感知背道而驰。人类在阅读复杂文档、表格或追踪螺旋线条时，视线是受语义理解驱动的“因果流”，后一次注视往往因果依赖于前一次注视，而非单纯的空间坐标移动。

受此认知机制启发，DeepSeek-OCR 2的核心组件DeepEncoder V2被设计用于赋予编码器因果推理能力。通过引入可学习的“因果流查询”（Causal Flow Queries），模型能够在进入LLM解码器进行内容解释之前，先在编码阶段就对视觉信息进行智能重排序。这实际上构建了一个两级级联的1D因果推理结构：首先由编码器在语义上重组视觉Token，随后由解码器对有序序列进行自回归推理。这种设计不仅符合光学文本、表格和公式的非线性布局特征，还有效弥补了2D图像结构与1D语言建模之间的鸿沟。

弃用CLIP架构，转向LLM式编码器

DeepEncoder V2在架构上实施了重大变革，将DeepEncoder中原有的CLIP组件替换为紧凑的LLM式架构（具体为Qwen2-0.5B）。为了实现并行处理，新架构引入了一组可学习的查询向量，称为“因果流Token”，并将原始视觉Token作为前缀拼接到序列中。

该架构采用了一种定制化的注意力掩码（Attention Mask）策略：

视觉Token部分：保留双向注意力机制，确保模型能够像CLIP一样拥有全局感受野，捕捉图像的整体特征。
因果流Token部分：采用因果注意力机制（类似Decoder-only LLM），每个查询Token只能关注之前的Token。

通过这种设计，视觉Token保持了信息的全局交互，而因果流Token则获得了重排序视觉信息的能力。DeepSeek-OCR 2采用了多裁剪策略（Multi-crop strategy），根据图像分辨率不同，最终输入LLM的重排序视觉Token总数在256到1120之间。这一数量级显著低于部分竞品高达6000以上的Token消耗，在保证高性能的同时大幅降低了计算开销。

性能显著提升与生产环境验证

在OmniDocBench v1.5的综合评估中，DeepSeek-OCR 2表现优异。数据显示，在同样的训练数据源下，新模型相较于DeepSeek-OCR基线模型取得了3.73%的性能提升。特别是在阅读顺序（Reading Order）的编辑距离（Edit Distance）指标上，DeepSeek-OCR 2从0.085显著降低至0.057，这直接验证了DeepEncoder V2在逻辑重排序方面的有效性。

除了基准测试，DeepSeek还披露了该模型在实际生产管线中的表现。DeepSeek-OCR 2主要服务于DeepSeek-LLMs的在线OCR服务及PDF预训练数据处理。在没有真值（Ground Truth）的生产环境中，重复率（Repetition Rate）是衡量质量的核心指标。数据显示，在处理在线用户日志图像时，DeepSeek-OCR 2将重复率从6.25%降低至4.17%;在PDF数据生产中，重复率从3.69%降至2.88%。这表明新模型在生成高质量、低冗余的文本数据方面具备极高的实用价值。

通向原生多模态与真正的2D推理

DeepSeek-OCR 2的发布不仅是一次OCR性能的升级，更具有深远的架构探索意义。DeepEncoder V2初步验证了使用语言模型架构作为视觉编码器的潜力。这种架构天然继承了LLM社区在基础设施优化方面的成果，如混合专家（MoE）架构和高效注意力机制。

DeepSeek团队认为，这为迈向统一的全模态编码器提供了一条有希望的路径。未来，单一编码器可能通过配置特定模态的可学习查询，在同一参数空间内实现对图像、音频和文本的特征提取与压缩。DeepSeek-OCR 2所展示的“两个级联的1D因果推理器”模式，通过将2D理解分解为“阅读逻辑推理”和“视觉任务推理”两个互补子任务，或许代表了实现真正2D推理的一种突破性架构方法。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.