临近春节,DeepSeek 又有新动作了。
就在刚刚,DeepSeek 在 HuggingFace 和 GitHub 上开源新模型OCR 2,并附上了完整的论文。
和初代 OCR 主打视觉压缩不同,这是一种旨在改进视觉-语言模型(VLMs)中视觉编码方式的新型模型。核心创新在于引入了 DeepEncoder V2,通过模拟人类的视觉因果推理能力,解决了传统模型在处理复杂文档布局时的局限性。
传统的 VLMs 通常按固定的光栅扫描顺序(从左上到右下)处理图像,这种僵化的方式不符合我们的视觉感知,人类是基于内容的灵活扫描,而且在处理复杂布局,如表格、公式、多栏文本时会引入错误的信息。
而 OCR 2,就是利用新型编码器 DeepEncoder V2,给了模型「视觉因果流 Visual Causal Flow」的能力,让模型能够根据图像内容,动态地重新排序视觉 Token。
DeepEncoder V2 是 OCR 2 模型的关键创新,它的设计有以下几个特点。
1️⃣ 抛弃了上一代 DeepEncoder 中使用的 CLIP 模块,转而使用一个紧凑的 LLM 架构(基于 Qwen2-0.5B)作为视觉编码器。
2️⃣ 混合注意力机制,视觉 Token 上使用双向注意力,类似于 ViT。在因果流查询,引入可学习的查询 Token,能够关注到所有视觉 Token 和之前的查询,从而实现对视觉信息的逻辑重排序。
3️⃣ 级联因果推理,这种设计形成了一个两级级联结构,编码器通过查询 Token 对视觉信息进行语义重排序,随后的 LLM 解码器则基于这个有序序列进行推理。
4️⃣ Token 压缩,输入给 LLM 的视觉 Token 数量控制在 256 到 1120 之间。这个数量级既保留了 OCR 的高压缩比,又做到了 Gemini 3 Pro 的最大视觉 Token 预算能做的事。
基于全新的架构设计和训练,DeepSeek-OCR 2 在多个指标上展现了显著提升。
1️⃣ 基准测试,在 OmniDocBench v1.5 上,DeepSeek-OCR 2 的整体性能达到 91.09%,相比初代基线提升了 3.73%。
2️⃣ 阅读顺序,编辑距离从 0.085 显著降低至 0.057,证明了模型在理解视觉逻辑顺序方面的进步。
3️⃣ 生产环境表现,在实际应用中,重复率大幅下降,例如在线用户日志数据中从 6.25% 降至 4.17%,表明模型的实用性和稳定性更强。
4️⃣ 效率,在保持高性能的同时,使用了极低的视觉 Token 预算,最多 1120 个,相比其他模型效率更高。
未来,DeepSeek 打算通过两个 1D 因果推理器的级联,探索实现真正的 2D 图像理解和推理。
论文:https://github.com/deepseek-ai/DeepSeek-OCR-2
![]()
![]()
![]()
![]()
![]()
![]()
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.