网易首页 > 网易号 > 正文 申请入驻

刚刚,DeepSeek又探索新架构了,开源OCR 2

0
分享至





机器之心编辑部

嘿!刚刚,DeepSeek 又更新了!

这次是更新了十月份推出的 DeepSeek-OCR 模型(参见:太强了!DeepSeek 刚刚开源新模型,用视觉方式压缩一切)。

当时 DeepSeek-OCR 的出世,引起了大家对视觉压缩的关注与讨论,而这一次,DeepSeek 对视觉编码下手了。

可以说,刚刚发布的 DeepSeek-OCR 2 通过引入 DeepEncoder V2 架构,实现了视觉编码从「固定扫描」向「语义推理」的范式转变!

当然,和 DeepSeek 几乎每次发布一样,这一次同样也是模型和技术报告齐开源。



  • 项目地址:https://github.com/deepseek-ai/DeepSeek-OCR-2
  • 论文地址:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
  • 模型地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

这项研究的三位作者分别是魏浩然、孙耀峰、李宇琨。

具体来说,该研究的核心创新在于将原本基于 CLIP 的编码器替换为轻量级语言模型(Qwen2-500M),并引入了具有因果注意力机制的「因果流查询」

这种设计打破了传统模型必须按从左到右、从上到下的栅格顺序处理图像的限制,赋予了编码器根据图像语义动态重排视觉 Token 的能力。通过这种两级级联的 1D 因果推理结构(编码器重排与译码器解析),模型能够更精准地还原复杂文档(如带表格、公式和多栏布局)的自然阅读逻辑。

这就像是为机器装上了「人类的阅读逻辑」,让 AI 不再只是生搬硬套地扫描图像。对比之下,传统的 AI 就像一个死板的复印机,不管页面内容多复杂,都只能从左上角到右下角按行扫描。

在维持极高数据压缩效率的同时,DeepSeek-OCR 2 在多项基准测试和生产指标上均取得了显著突破。模型仅需 256 到 1120 个视觉 Token 即可覆盖复杂的文档页面,这在同类模型中处于极低水平,显著降低了下游 LLM 的计算开销。

在 OmniDocBench v1.5 评测中,其综合得分达到 91.09%,较前代提升了 3.73%,特别是在阅读顺序识别方面表现出了更强的逻辑性。

此外,在实际生产环境中,该模型显著降低了 OCR 识别结果的重复率,并为未来构建统一的 omni-modal(全模态)编码器提供了可行路径。是的,未来同一个 AI「大脑」或许能用同样的方法去处理声音、视频等所有模态的数据,真正实现多模态的深度统一。

DeepSeek-OCR 2 架构

如图 3 所示,DeepSeek-OCR 2 延续了 DeepSeek-OCR 的整体架构,由编码器(encoder) 和解码器(decoder) 组成。编码器负责将图像离散化为视觉 token,而解码器则在这些视觉 token 与文本提示(text prompts)的条件约束下生成输出。



两者的关键区别在于编码器部分:DeepSeek 将原有的 DeepEncoder 升级为 DeepEncoder V2。在完整保留前代能力的基础上,DeepEncoder V2 通过一种全新的架构设计,引入了因果推理能力(causal reasoning)

DeepEncoder V2

DeepEncoder V2 的第一个组成部分是视觉分词器(vision tokenizer)。延续了 DeepEncoder 的设计,DeepSeek 采用了一种由参数规模为 8000 万的 SAM-base 与两层卷积层组成的架构。相比 DeepEncoder,DeepSeek 将最终卷积层的输出维度从 1024 降至 896,以与后续处理流程保持一致。

在 DeepEncoder 中,视觉分词器之后接入的是一个 CLIP ViT,用于进一步压缩和建模视觉语义。DeepEncoder V2 对这一组件进行了重新设计,将其改造为一种类 LLM 的架构,并引入了双流注意力机制(dual-stream attention)。

其中,视觉 token 采用双向注意力,以保留 CLIP 所具备的全局建模能力;而新引入的因果流查询(causal flow queries) 则使用因果注意力。这些可学习的查询 token 被作为后缀追加在视觉 token 之后,每个查询都可以关注所有视觉 token 以及其之前的查询 token。通过保持查询 token 与视觉 token 数量一致,该设计在不改变 token 总数的前提下,对视觉特征施加语义上的排序与蒸馏约束。最终,只有因果查询 token 的输出会被送入 LLM 解码器。

从整体上看,该架构实际上构建了一种两阶段级联的因果推理机制:首先,编码器通过可学习查询对视觉 token 进行语义重排;随后,LLM 解码器在这一有序序列之上执行自回归推理。与依赖位置编码施加刚性空间顺序的传统编码器不同,这种因果排序查询能够更自然地贴合连续的视觉语义,并与 LLM 的单向注意力模式高度一致。该设计有望在二维空间结构与一维因果语言建模之间搭建起一座桥梁。



为更直观地展示 DeepEncoder V2 的注意力机制,图 5 对其注意力掩码进行了可视化。该注意力掩码由两个相互区分的区域组成。

左侧区域对原始视觉 token 采用双向注意力机制(类似于 ViT),使任意 token 都可以与其他所有 token 建立可见性,从而实现完整的全局建模;右侧区域则针对因果流 token 使用因果注意力(三角形掩码,与纯解码器 LLM 完全一致),其中每个 token 只能关注其之前的 token。



DeepSeek-MoE Decoder

由于 DeepSeek-OCR 2 的改进重点主要集中在编码器 上,并未对解码器部分进行升级。遵循这一设计原则,模型继续沿用 DeepSeek-OCR 的解码器 —— 一个参数规模为 30 亿的 MoE 结构,其中约 5 亿参数在推理时处于激活状态。

训练数据与训练流程

在数据层面,DeepSeek-OCR 2 沿用了与 DeepSeek-OCR 相同的数据源,由 OCR 1.0、OCR 2.0 以及通用视觉数据组成,其中 OCR 数据占混合训练数据的 80%。同时引入了以下两项改进:

  • 针对 OCR 1.0 数据采用了更均衡的采样策略,并按内容类型(正文、公式和表格)以 3:1:1 的比例对页面进行划分;
  • 通过合并语义相似的类别(例如统一「插图说明」和「插图标题」)来优化布局检测的标签。

在训练阶段,DeepSeek-OCR 2 主要分为三个阶段来完成:(1)编码器预训练;(2)查询增强;(3)解码器专门化

其中第一阶段使视觉分词器(tokenizer)和 LLM 风格的编码器获得特征提取、token 压缩和 token 重排的基础能力。第二阶段进一步加强编码器的 token 重排能力,同时增强了视觉知识的压缩。第三阶段冻结编码器参数,仅优化解码器,从而在相同的 FLOPs 下实现更高的数据吞吐量。

接着来看细节。

首先是训练 DeepEncoder V2。遵循 DeepSeek-OCR 和 Vary 的方法,使用语言建模目标来训练 DeepEncoder V2,将编码器与轻量级解码器耦合,通过预测下一个 token 进行联合优化。采用了 768×768 和 1024×1024 两种分辨率的数据加载器。视觉分词器初始化自 DeepEncoder,LLM 风格的编码器则初始化自 Qwen2-0.5B-base。预训练完成后,仅保留编码器参数用于后续阶段。

本阶段使用 AdamW 优化器,学习率采用余弦退火,从 1e-4 降至 1e-6,在 160 台 A100 GPU(20 个节点 × 8 台 GPU)上以 640 的批大小训练 40k 次迭代(采用长度为 8K 的序列打包,约包含 1 亿个图文对样本)。

其次是查询增强。在 DeepEncoder V2 预训练之后,将其与 DeepSeek-3B-A500M 整合为最终的流水线。冻结视觉分词器(SAM-conv 结构),并联合优化 LLM 编码器和 LLM 解码器以增强查询表示。本阶段通过多裁剪策略将两种分辨率统一到单个数据加载器中。此外采用 4 阶段流水线并行:视觉分词器(PP0)、LLM 风格编码器(PP1)以及 DeepSeek-LLM 层(PP2-3 每阶段 6 层)。

本阶段利用 160 台 GPU(每台 40GB 显存),配置了 40 个数据并行副本(每个副本 4 台 GPU),过程中使用相同的优化器,以 1280 的全局批大小进行训练,学习率在 15k 次迭代中从 5e-5 退火至 1e-6。

最后是LLM 持续训练。为了快速消耗训练数据,本阶段冻结 DeepEncoder V2 的所有参数,仅更新 DeepSeek-LLM 的参数。本阶段加速了训练(在相同全局批大小下,训练速度提升了一倍多),同时有助于 LLM 更好地理解 DeepEncoder V2 重排后的视觉 token。

承接第二阶段,本阶段进行了另一次学习率退火,从 1e-6 降至 5e-8,共训练 20k 次迭代。

评估结果

团队选用 OmniDocBench v1.5 作为主要评测基准,该基准包含 1355 页文档,覆盖中英文两种语言的 9 大主要类别,包括杂志、学术论文、研究报告等。凭借其多样化的测试样本与严格的评测标准,OmniDocBench 为验证 DeepSeek-OCR 2 的整体性能,尤其是 DeepEncoder V2 的有效性,提供了一个可靠有效的平台。

如表 1 所示,在使用最小视觉 token 上限(的情况下,DeepSeek-OCR 2 仍取得了 91.09% 的领先性能。与 DeepSeek-OCR 基线模型相比,在采用相似训练数据来源的前提下,其性能提升了 3.73%,验证了新设计架构的有效性。



此外,除了整体性能提升,阅读顺序(R-order)指标上的编辑距离(Edit Distance,ED)也显著下降,从 0.085 降至 0.057。这表明,新的 DeepEncoder V2 能够根据图像信息更有效地选择并排列初始视觉 token。

进一步如表 2 所示,在相同的视觉 token 预算(1120)条件下,DeepSeek-OCR 2 在文档解析任务中的 ED(0.100)低于 Gemini-3 Pro(0.115)。这进一步证明了新模型在保持高视觉 token 压缩率的同时,仍能确保更优的性能,并展现出极高的潜力。



改进空间

团队在 9 种文档类型上,对 DeepSeek-OCR 与 DeepSeek-OCR 2 进行了细致的性能对比,结果表明:DeepSeek-OCR 2 仍具有较大的提升空间,如表 3 所示。在文本识别的编辑距离(ED)指标上,DeepSeek-OCR 2 在大多数场景中优于 DeepSeek-OCR,但在某些类型上仍存在明显不足,例如报纸类文档,其 ED 超过 0.13。



团队认为主要原因有两点:

  • 视觉 token 上限较低,可能影响了文本极为密集的报纸类文档识别效果,这一问题可在未来通过增加局部裁剪(local crops)的数量来缓解;
  • 报纸类数据不足 —— 当前训练集中仅包含约 25 万条相关样本,这对于训练 DeepEncoder V2 来说仍然不够充分。

当然,在阅读顺序(R-order)这一指标上,DeepSeek-OCR 2 在所有类别中始终优于 DeepSeek-OCR,这进一步验证了所提出的「视觉因果流」编码器设计的有效性。

实际应用

DeepSeek-OCR 主要面向两类生产场景:一是为 DeepSeek-LLM 提供图像 / 文档读取能力的在线 OCR 服务,二是用于批量 PDF 处理的预训练数据流水线。在比较了 DeepSeek-OCR 2 与 DeepSeek-OCR 在真实生产环境中的表现后发现,由于生产环境中无法获得标准答案,因此团队主要采用「重复率」作为核心质量指标。

如表 4 所示,相比前代模型,DeepSeek-OCR 2 在实际可用性方面有了显著提升:在在线用户日志图像中,重复率从 6.25% 降至 4.17%;在 PDF 数据生产场景中,重复率从 3.69% 降至 2.88%。



这些结果进一步验证了 DeepSeek-OCR 2 架构的有效性,尤其体现了其在逻辑性视觉理解方面的优势。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
闲鱼不愧是全国最大的黑市,网民:只有你想不到,没有你买不到

闲鱼不愧是全国最大的黑市,网民:只有你想不到,没有你买不到

小熊侃史
2026-01-16 07:40:07
好消息!上海此地将告别“无地铁时代”!这条新线正在建设中

好消息!上海此地将告别“无地铁时代”!这条新线正在建设中

上海交通
2026-01-27 17:12:44
教育部党组任免!南农大领导班子调整

教育部党组任免!南农大领导班子调整

TOP大学来了
2026-01-27 22:11:46
2-0,少一人仍赢,霍芬海姆完胜德甲4冠王,豪取4连胜,逼近前二

2-0,少一人仍赢,霍芬海姆完胜德甲4冠王,豪取4连胜,逼近前二

侧身凌空斩
2026-01-28 05:29:53
新华社评李亚鹏:为他人做好事 不该被现实压垮

新华社评李亚鹏:为他人做好事 不该被现实压垮

看看新闻Knews
2026-01-28 01:17:20
开国上将许世友之孙:中国首位火箭军女博士,长相俊美,为人低调

开国上将许世友之孙:中国首位火箭军女博士,长相俊美,为人低调

文史达观
2026-01-15 14:50:48
1分50秒连追8分逆袭反杀!CBA本赛季最疯狂一幕:新疆都被打懵了

1分50秒连追8分逆袭反杀!CBA本赛季最疯狂一幕:新疆都被打懵了

篮球快餐车
2026-01-28 06:34:57
太牛了!山东强势逆转黑马,高诗岩苏醒,小将3分钟砍11分真猛啊

太牛了!山东强势逆转黑马,高诗岩苏醒,小将3分钟砍11分真猛啊

萌兰聊个球
2026-01-27 21:55:37
哈梅内伊为什么慌了

哈梅内伊为什么慌了

臧启玉律师
2026-01-26 11:13:42
WTT多哈支线赛:国乒遭遇首败!女单2-3被逆转,18岁新人连失三局

WTT多哈支线赛:国乒遭遇首败!女单2-3被逆转,18岁新人连失三局

郝小小看体育
2026-01-28 07:01:45
山西焦煤集团原董事长武华太一审获刑15年,专题片披露细节

山西焦煤集团原董事长武华太一审获刑15年,专题片披露细节

上观新闻
2026-01-27 13:39:08
26年央视春晚嘉宾名单曝光,牛鬼蛇神混子引争议

26年央视春晚嘉宾名单曝光,牛鬼蛇神混子引争议

杜鱂手工制作
2026-01-06 18:48:05
曝章泽天父母2011年已离婚,父亲已重组家庭有小女儿,妈妈在卖药

曝章泽天父母2011年已离婚,父亲已重组家庭有小女儿,妈妈在卖药

古希腊掌管月桂的神
2026-01-25 15:42:46
狂揽1.4亿月活,汽水音乐凭免费逆袭腾讯网易?

狂揽1.4亿月活,汽水音乐凭免费逆袭腾讯网易?

Tech星球
2026-01-27 14:18:28
北京一女子担心死后丈夫再娶,一千元把房子卖给儿子,去世后丈夫被赶出家门,法院结果出乎意料

北京一女子担心死后丈夫再娶,一千元把房子卖给儿子,去世后丈夫被赶出家门,法院结果出乎意料

神奇故事
2026-01-27 23:40:26
十亿级用户争夺战:除了编程,Excel才是AI真正的“杀手级”应用场景

十亿级用户争夺战:除了编程,Excel才是AI真正的“杀手级”应用场景

华尔街见闻官方
2026-01-26 21:10:38
美国62岁夫妇在上海丢失6万,清洁工阿姨如数奉还,夫妇坚称少2万

美国62岁夫妇在上海丢失6万,清洁工阿姨如数奉还,夫妇坚称少2万

城事录主
2026-01-09 14:44:54
李思思现身邢台主持,又矮又胖,1米7看着就像1米5,脸还变圆润了

李思思现身邢台主持,又矮又胖,1米7看着就像1米5,脸还变圆润了

小娱乐悠悠
2026-01-26 11:36:45
以色列递交给美国的伊朗处决证据,为何引发全球哗然?

以色列递交给美国的伊朗处决证据,为何引发全球哗然?

老马拉车莫少装
2026-01-25 08:06:06
早已杀青却播出无望的7部剧,部部可惜,尤其是最后一部

早已杀青却播出无望的7部剧,部部可惜,尤其是最后一部

小Q侃电影
2026-01-25 13:16:28
2026-01-28 07:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12202文章数 142550关注度
往期回顾 全部

科技要闻

Anthropic将融资200亿美元、估值3500亿美元

头条要闻

特朗普被指投下"第二次关税炸弹" 引发韩国强烈不安

头条要闻

特朗普被指投下"第二次关税炸弹" 引发韩国强烈不安

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

张雨绮风波持续发酵,曝多个商务被取消

财经要闻

多地对垄断行业"近亲繁殖"出手了

汽车要闻

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

教育
旅游
房产
时尚
军事航空

教育要闻

这后劲你就等吧

旅游要闻

缙云·巫山时序丨刘红梅:河旁古村

房产要闻

实景兑现在即!绿城,在海棠湾重新定义终极旅居想象!

这些韩系穿搭最适合普通人!多穿深色、衣服基础,简洁耐看

军事要闻

美海军"林肯"号航母打击群抵达中东地区

无障碍浏览 进入关怀版