网易首页 > 网易号 > 正文 申请入驻

刚刚,DeepSeek又探索新架构了,开源OCR 2

0
分享至





机器之心编辑部

嘿!刚刚,DeepSeek 又更新了!

这次是更新了十月份推出的 DeepSeek-OCR 模型(参见:太强了!DeepSeek 刚刚开源新模型,用视觉方式压缩一切)。

当时 DeepSeek-OCR 的出世,引起了大家对视觉压缩的关注与讨论,而这一次,DeepSeek 对视觉编码下手了。

可以说,刚刚发布的 DeepSeek-OCR 2 通过引入 DeepEncoder V2 架构,实现了视觉编码从「固定扫描」向「语义推理」的范式转变!

当然,和 DeepSeek 几乎每次发布一样,这一次同样也是模型和技术报告齐开源。



  • 项目地址:https://github.com/deepseek-ai/DeepSeek-OCR-2
  • 论文地址:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
  • 模型地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

这项研究的三位作者分别是魏浩然、孙耀峰、李宇琨。

具体来说,该研究的核心创新在于将原本基于 CLIP 的编码器替换为轻量级语言模型(Qwen2-500M),并引入了具有因果注意力机制的「因果流查询」

这种设计打破了传统模型必须按从左到右、从上到下的栅格顺序处理图像的限制,赋予了编码器根据图像语义动态重排视觉 Token 的能力。通过这种两级级联的 1D 因果推理结构(编码器重排与译码器解析),模型能够更精准地还原复杂文档(如带表格、公式和多栏布局)的自然阅读逻辑。

这就像是为机器装上了「人类的阅读逻辑」,让 AI 不再只是生搬硬套地扫描图像。对比之下,传统的 AI 就像一个死板的复印机,不管页面内容多复杂,都只能从左上角到右下角按行扫描。

在维持极高数据压缩效率的同时,DeepSeek-OCR 2 在多项基准测试和生产指标上均取得了显著突破。模型仅需 256 到 1120 个视觉 Token 即可覆盖复杂的文档页面,这在同类模型中处于极低水平,显著降低了下游 LLM 的计算开销。

在 OmniDocBench v1.5 评测中,其综合得分达到 91.09%,较前代提升了 3.73%,特别是在阅读顺序识别方面表现出了更强的逻辑性。

此外,在实际生产环境中,该模型显著降低了 OCR 识别结果的重复率,并为未来构建统一的 omni-modal(全模态)编码器提供了可行路径。是的,未来同一个 AI「大脑」或许能用同样的方法去处理声音、视频等所有模态的数据,真正实现多模态的深度统一。

DeepSeek-OCR 2 架构

如图 3 所示,DeepSeek-OCR 2 延续了 DeepSeek-OCR 的整体架构,由编码器(encoder) 和解码器(decoder) 组成。编码器负责将图像离散化为视觉 token,而解码器则在这些视觉 token 与文本提示(text prompts)的条件约束下生成输出。



两者的关键区别在于编码器部分:DeepSeek 将原有的 DeepEncoder 升级为 DeepEncoder V2。在完整保留前代能力的基础上,DeepEncoder V2 通过一种全新的架构设计,引入了因果推理能力(causal reasoning)

DeepEncoder V2

DeepEncoder V2 的第一个组成部分是视觉分词器(vision tokenizer)。延续了 DeepEncoder 的设计,DeepSeek 采用了一种由参数规模为 8000 万的 SAM-base 与两层卷积层组成的架构。相比 DeepEncoder,DeepSeek 将最终卷积层的输出维度从 1024 降至 896,以与后续处理流程保持一致。

在 DeepEncoder 中,视觉分词器之后接入的是一个 CLIP ViT,用于进一步压缩和建模视觉语义。DeepEncoder V2 对这一组件进行了重新设计,将其改造为一种类 LLM 的架构,并引入了双流注意力机制(dual-stream attention)。

其中,视觉 token 采用双向注意力,以保留 CLIP 所具备的全局建模能力;而新引入的因果流查询(causal flow queries) 则使用因果注意力。这些可学习的查询 token 被作为后缀追加在视觉 token 之后,每个查询都可以关注所有视觉 token 以及其之前的查询 token。通过保持查询 token 与视觉 token 数量一致,该设计在不改变 token 总数的前提下,对视觉特征施加语义上的排序与蒸馏约束。最终,只有因果查询 token 的输出会被送入 LLM 解码器。

从整体上看,该架构实际上构建了一种两阶段级联的因果推理机制:首先,编码器通过可学习查询对视觉 token 进行语义重排;随后,LLM 解码器在这一有序序列之上执行自回归推理。与依赖位置编码施加刚性空间顺序的传统编码器不同,这种因果排序查询能够更自然地贴合连续的视觉语义,并与 LLM 的单向注意力模式高度一致。该设计有望在二维空间结构与一维因果语言建模之间搭建起一座桥梁。



为更直观地展示 DeepEncoder V2 的注意力机制,图 5 对其注意力掩码进行了可视化。该注意力掩码由两个相互区分的区域组成。

左侧区域对原始视觉 token 采用双向注意力机制(类似于 ViT),使任意 token 都可以与其他所有 token 建立可见性,从而实现完整的全局建模;右侧区域则针对因果流 token 使用因果注意力(三角形掩码,与纯解码器 LLM 完全一致),其中每个 token 只能关注其之前的 token。



DeepSeek-MoE Decoder

由于 DeepSeek-OCR 2 的改进重点主要集中在编码器 上,并未对解码器部分进行升级。遵循这一设计原则,模型继续沿用 DeepSeek-OCR 的解码器 —— 一个参数规模为 30 亿的 MoE 结构,其中约 5 亿参数在推理时处于激活状态。

训练数据与训练流程

在数据层面,DeepSeek-OCR 2 沿用了与 DeepSeek-OCR 相同的数据源,由 OCR 1.0、OCR 2.0 以及通用视觉数据组成,其中 OCR 数据占混合训练数据的 80%。同时引入了以下两项改进:

  • 针对 OCR 1.0 数据采用了更均衡的采样策略,并按内容类型(正文、公式和表格)以 3:1:1 的比例对页面进行划分;
  • 通过合并语义相似的类别(例如统一「插图说明」和「插图标题」)来优化布局检测的标签。

在训练阶段,DeepSeek-OCR 2 主要分为三个阶段来完成:(1)编码器预训练;(2)查询增强;(3)解码器专门化

其中第一阶段使视觉分词器(tokenizer)和 LLM 风格的编码器获得特征提取、token 压缩和 token 重排的基础能力。第二阶段进一步加强编码器的 token 重排能力,同时增强了视觉知识的压缩。第三阶段冻结编码器参数,仅优化解码器,从而在相同的 FLOPs 下实现更高的数据吞吐量。

接着来看细节。

首先是训练 DeepEncoder V2。遵循 DeepSeek-OCR 和 Vary 的方法,使用语言建模目标来训练 DeepEncoder V2,将编码器与轻量级解码器耦合,通过预测下一个 token 进行联合优化。采用了 768×768 和 1024×1024 两种分辨率的数据加载器。视觉分词器初始化自 DeepEncoder,LLM 风格的编码器则初始化自 Qwen2-0.5B-base。预训练完成后,仅保留编码器参数用于后续阶段。

本阶段使用 AdamW 优化器,学习率采用余弦退火,从 1e-4 降至 1e-6,在 160 台 A100 GPU(20 个节点 × 8 台 GPU)上以 640 的批大小训练 40k 次迭代(采用长度为 8K 的序列打包,约包含 1 亿个图文对样本)。

其次是查询增强。在 DeepEncoder V2 预训练之后,将其与 DeepSeek-3B-A500M 整合为最终的流水线。冻结视觉分词器(SAM-conv 结构),并联合优化 LLM 编码器和 LLM 解码器以增强查询表示。本阶段通过多裁剪策略将两种分辨率统一到单个数据加载器中。此外采用 4 阶段流水线并行:视觉分词器(PP0)、LLM 风格编码器(PP1)以及 DeepSeek-LLM 层(PP2-3 每阶段 6 层)。

本阶段利用 160 台 GPU(每台 40GB 显存),配置了 40 个数据并行副本(每个副本 4 台 GPU),过程中使用相同的优化器,以 1280 的全局批大小进行训练,学习率在 15k 次迭代中从 5e-5 退火至 1e-6。

最后是LLM 持续训练。为了快速消耗训练数据,本阶段冻结 DeepEncoder V2 的所有参数,仅更新 DeepSeek-LLM 的参数。本阶段加速了训练(在相同全局批大小下,训练速度提升了一倍多),同时有助于 LLM 更好地理解 DeepEncoder V2 重排后的视觉 token。

承接第二阶段,本阶段进行了另一次学习率退火,从 1e-6 降至 5e-8,共训练 20k 次迭代。

评估结果

团队选用 OmniDocBench v1.5 作为主要评测基准,该基准包含 1355 页文档,覆盖中英文两种语言的 9 大主要类别,包括杂志、学术论文、研究报告等。凭借其多样化的测试样本与严格的评测标准,OmniDocBench 为验证 DeepSeek-OCR 2 的整体性能,尤其是 DeepEncoder V2 的有效性,提供了一个可靠有效的平台。

如表 1 所示,在使用最小视觉 token 上限(的情况下,DeepSeek-OCR 2 仍取得了 91.09% 的领先性能。与 DeepSeek-OCR 基线模型相比,在采用相似训练数据来源的前提下,其性能提升了 3.73%,验证了新设计架构的有效性。



此外,除了整体性能提升,阅读顺序(R-order)指标上的编辑距离(Edit Distance,ED)也显著下降,从 0.085 降至 0.057。这表明,新的 DeepEncoder V2 能够根据图像信息更有效地选择并排列初始视觉 token。

进一步如表 2 所示,在相同的视觉 token 预算(1120)条件下,DeepSeek-OCR 2 在文档解析任务中的 ED(0.100)低于 Gemini-3 Pro(0.115)。这进一步证明了新模型在保持高视觉 token 压缩率的同时,仍能确保更优的性能,并展现出极高的潜力。



改进空间

团队在 9 种文档类型上,对 DeepSeek-OCR 与 DeepSeek-OCR 2 进行了细致的性能对比,结果表明:DeepSeek-OCR 2 仍具有较大的提升空间,如表 3 所示。在文本识别的编辑距离(ED)指标上,DeepSeek-OCR 2 在大多数场景中优于 DeepSeek-OCR,但在某些类型上仍存在明显不足,例如报纸类文档,其 ED 超过 0.13。



团队认为主要原因有两点:

  • 视觉 token 上限较低,可能影响了文本极为密集的报纸类文档识别效果,这一问题可在未来通过增加局部裁剪(local crops)的数量来缓解;
  • 报纸类数据不足 —— 当前训练集中仅包含约 25 万条相关样本,这对于训练 DeepEncoder V2 来说仍然不够充分。

当然,在阅读顺序(R-order)这一指标上,DeepSeek-OCR 2 在所有类别中始终优于 DeepSeek-OCR,这进一步验证了所提出的「视觉因果流」编码器设计的有效性。

实际应用

DeepSeek-OCR 主要面向两类生产场景:一是为 DeepSeek-LLM 提供图像 / 文档读取能力的在线 OCR 服务,二是用于批量 PDF 处理的预训练数据流水线。在比较了 DeepSeek-OCR 2 与 DeepSeek-OCR 在真实生产环境中的表现后发现,由于生产环境中无法获得标准答案,因此团队主要采用「重复率」作为核心质量指标。

如表 4 所示,相比前代模型,DeepSeek-OCR 2 在实际可用性方面有了显著提升:在在线用户日志图像中,重复率从 6.25% 降至 4.17%;在 PDF 数据生产场景中,重复率从 3.69% 降至 2.88%。



这些结果进一步验证了 DeepSeek-OCR 2 架构的有效性,尤其体现了其在逻辑性视觉理解方面的优势。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
22岁吴宜泽:媒体虚假报道!父母没有为了我卖房子 目标成为世界第一

22岁吴宜泽:媒体虚假报道!父母没有为了我卖房子 目标成为世界第一

东方不败然多多
2026-05-16 09:55:31
波多野结衣公开择偶标准,想嫁给中国男人,她远比你想象的更优秀

波多野结衣公开择偶标准,想嫁给中国男人,她远比你想象的更优秀

花哥扒娱乐
2026-05-14 20:10:50
24岁女子领证6小时后丈夫车祸瘫痪!照顾他19年想要个孩子,丈夫却说……

24岁女子领证6小时后丈夫车祸瘫痪!照顾他19年想要个孩子,丈夫却说……

上观新闻
2026-05-15 21:18:44
被队友坑惨!哈登超库里!米切尔堪称犯罪,坎宁安21+2+8拖进抢七

被队友坑惨!哈登超库里!米切尔堪称犯罪,坎宁安21+2+8拖进抢七

Tracy的篮球博物馆
2026-05-16 10:04:32
特斯拉突然甩出“五毛七电价”!1299元包6年2300度电

特斯拉突然甩出“五毛七电价”!1299元包6年2300度电

阿芒娱乐说
2026-05-16 09:18:54
真实事件!普京女婿被俄罗斯亿万富翁欺负,普京助理找上门

真实事件!普京女婿被俄罗斯亿万富翁欺负,普京助理找上门

马尔科故事会
2024-11-05 13:56:12
日本赠予普京的秋田犬因年迈去世,曾在记者会上凶猛护主

日本赠予普京的秋田犬因年迈去世,曾在记者会上凶猛护主

红星新闻
2026-05-15 15:33:14
【陈晓旭】常慧法师解释:“林黛玉”剃度后,为什么还会死了呢?

【陈晓旭】常慧法师解释:“林黛玉”剃度后,为什么还会死了呢?

年之父
2026-05-13 03:05:04
酸了!日本征召23位留洋球员踢世界杯 再创纪录 仍有17大名将落选

酸了!日本征召23位留洋球员踢世界杯 再创纪录 仍有17大名将落选

我爱英超
2026-05-15 14:11:02
深圳地铁再砸25亿救万科地产,押上底裤的续命局能成功吗?

深圳地铁再砸25亿救万科地产,押上底裤的续命局能成功吗?

李将平老师
2026-05-15 16:16:04
中美谈了2个多小时,但这个问题,中方说透了:没得商量

中美谈了2个多小时,但这个问题,中方说透了:没得商量

甜到你心坎
2026-05-16 05:18:37
效仿22年阿圭罗!日本队世界杯名单公布,森保一:考虑带南野拓实一同前往

效仿22年阿圭罗!日本队世界杯名单公布,森保一:考虑带南野拓实一同前往

懂个球
2026-05-16 00:00:19
何九华宣布当爸,私生活被扒底朝天,其实2个月前王鸥已把话说透

何九华宣布当爸,私生活被扒底朝天,其实2个月前王鸥已把话说透

临云史策
2026-05-15 10:56:24
国民党永远也不会有执政的机会,叫一声他们是混睡虫最贴切。

国民党永远也不会有执政的机会,叫一声他们是混睡虫最贴切。

天气观察站
2026-05-16 07:07:27
解放军是世界第一,美媒罕见承认:五大能力集一体,美军都做不到

解放军是世界第一,美媒罕见承认:五大能力集一体,美军都做不到

Ck的蜜糖
2026-05-15 19:19:34
曝央视与国际足联谈判成功!7.4亿买下世界杯转播权 1天内签约

曝央视与国际足联谈判成功!7.4亿买下世界杯转播权 1天内签约

念洲
2026-05-15 07:46:29
合川呆呆再登热搜!母亲节杀鸡宴翻车,网友再一再二,没再三再四

合川呆呆再登热搜!母亲节杀鸡宴翻车,网友再一再二,没再三再四

黔乡小姊妹
2026-05-16 09:31:39
郭碧婷、向佐分居多年频传婚变 向太揭夫妻私下相处模式

郭碧婷、向佐分居多年频传婚变 向太揭夫妻私下相处模式

达达哥
2026-05-14 09:44:29
国际油价大涨4%,美油本周累涨超10%

国际油价大涨4%,美油本周累涨超10%

每日经济新闻
2026-05-16 09:37:01
特朗普结束访华,大赞中南海景致:若待得惯都不想走

特朗普结束访华,大赞中南海景致:若待得惯都不想走

澎湃新闻
2026-05-15 18:28:12
2026-05-16 10:32:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13006文章数 142650关注度
往期回顾 全部

科技要闻

直降千元起步!苹果华为率先开启618让利

头条要闻

特朗普抵京当晚在机场执勤的礼兵震动外网 详情披露

头条要闻

特朗普抵京当晚在机场执勤的礼兵震动外网 详情披露

体育要闻

35岁坎特,干了一件这辈子最吵的事

娱乐要闻

张嘉译和老婆的差距让人心酸

财经要闻

造词狂魔贾跃亭

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

房产
手机
本地
数码
旅游

房产要闻

老黄埔热销之下,珠江春,为何去化仅3成?

手机要闻

小米打头阵、各家排队上!国产安卓的UI审美要统一了

本地新闻

用苏绣的方式,打开江西婺源

数码要闻

5年打磨:前苹果设计师透露AirPods Max研发细节

旅游要闻

首届中国新文创市集暨潮玩游园会在京开幕

无障碍浏览 进入关怀版