DeepSeek发布DeepSeek-OCR-2，Qwen引领视觉创新潮流|ocr|新论文|image|deepseek

DeepSeek发布DeepSeek-OCR-2，Qwen引领视觉创新潮流

分享至

昨天的开源社区真的热闹炸了，两大国产 AI 头部厂商同时“秀肌肉”。

Kimi 发布了K2.5，视觉编程能力明显跃迁，给一张截图、一个录屏，就能直接复刻网页和 App，还有一个核心自主式智能体蜂群 Agent Swarm 范式，较单一智能体执行速度提升了4.5倍；

而 DeepSeek 则直接掀桌子，发布DeepSeek-OCR-2，用 LLM 架构彻底替掉传统 CLIP 视觉编码器。这是一条更激进、也更底层的路线。

如果说 Kimi K2.5 是把“看懂界面 → 写代码”这件事推到实用阶段，那 DeepSeek-OCR-2 则是在挑战一个更底层的问题：

AI，能不能像人一样“读文档”？

答案是：可以，而且这次是真的不一样了。

（PS：今天先着重分享 DeepSeek-OCR-2，至于 Kimi K2.5 放到后面有机会搭配 Kimi CLI 再为大家伙专门写一篇文章分享。）

项目背景

我们都知道 CLIP 的强项是“看大概”，比如它能一眼认出“这是一张猫的照片”，但它不擅长“按顺序细读”。

这导致传统模型在处理复杂文档（如多栏排版、嵌套表格）时，经常会出现语序错乱。

CLIP 看图，更像：一眼扫全局，抓整体语义。

而 OCR 真正需要的是：像人一样，一块一块读。

所以 DeepSeek-OCR-2，它把视觉编码器换成了 Qwen2-0.5B。

这意味着，它用一个擅长因果推理的小型 LLM，去替代了擅长全局匹配的视觉模型。这就好比以前是让“照相机”去读文章，现在直接请来了“阅读理解专家”。

这种让语言模型去学看图的思路，真的是太野了。

核心创新

DeepSeek-OCR-2 的核心创新，叫：

Visual Causal Flow（视觉因果流）

听着很学术，翻成人话其实很直白：

AI 不再按固定顺序“扫图”，而是先规划“怎么读”,也就是「智能阅读」。

具体怎么做：

第一步（全局感知）：通过双向注意力机制，让模型先“看”一遍全图，搞清楚哪里是标题，哪里是配图，哪里是表格。
第二步（路径规划）：模型生成一组“因果流 Token”，就像导航一样，规划出一条符合语义逻辑的阅读路径。
结果：即使是报纸那种复杂的“迷宫式”排版，它也能按照正确的阅读顺序把文字还原出来。

Qwen2-0.5B 虽然是语言模型，但它天生擅长处理序列和因果关系。DeepSeek 证明了，让 LLM 跨界来做视觉编码，能更好地理解图像中的“逻辑结构”。

快速入手

要想先体验，那么HuggingFace上无疑就会有一堆DEMO可用。

DEMO01：https://huggingface.co/spaces/merterbak/DeepSeek-OCR-Demo

DEMO02：https://huggingface.co/spaces/prithivMLmods/DeepSeek-OCR-2-Demo

如果想本地部署或部署到服务器上，可参考以下步骤：

① 克隆项目

git clone https://github.com/deepseek-ai/DeepSeek-OCR-2.git

② 安装依赖

下载vllm轮子：https://github.com/vllm-project/vllm/releases/tag/v0.8.5

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118pip install vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whlpip install -r requirements.txtpip install flash-attn==2.7.3 --no-build-isolation

③ vLLM推理

cd DeepSeek-OCR2-master/DeepSeek-OCR2-vllm# 图像：流式输出python run_dpsk_ocr2_image.py# pdf：并行处理python run_dpsk_ocr2_pdf.py# 批量评估基准测试（即 OmniDocBench v1.5）python run_dpsk_ocr2_eval_batch.py

或 Transformers 推理

from transformers import AutoModel, AutoTokenizerimport torchimport osos.environ["CUDA_VISIBLE_DEVICES"] = '0'model_name = 'deepseek-ai/DeepSeek-OCR-2'tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)model = AutoModel.from_pretrained(model_name, _attn_implementation='flash_attention_2', trust_remote_code=True, use_safetensors=True)model = model.eval().cuda().to(torch.bfloat16)# prompt = "\nFree OCR. "prompt = "\n<|grounding|>Convert the document to markdown. "image_file = 'your_image.jpg'output_path = 'your/output/dir'res = model.infer(tokenizer, prompt=prompt, image_file=image_file, output_path = output_path, base_size = 1024, image_size = 768, crop_mode=True, save_results = True)

性能与效率

虽然换了架构，但 DeepSeek-OCR-2 依然保持了极高的效率，简直是“加量不加价”。

在同等视觉 token 预算下，DeepSeek-OCR-2 的表现非常离谱。

因为它懂逻辑，所以它不需要像传统模型那样生成海量的 Patch Token 来覆盖全图。

对比 GOT-OCR2.0：仅需 100 个 Token 就能达到对方 256 个 Token 的效果。
对比 MinerU：不到 800 个 Token 就能干翻对方 7000 个 Token 的精度。

这意味着推理速度极快，生成的废话极少。

吞吐量惊人，速度：单卡 A100 每天可处理 20 万页文档。吞吐：达到 2500 tokens/s。

在 OmniDocBench v1.5 上：

综合得分：91.09%
相比上一代：+3.73%
阅读顺序识别：逻辑明显更强

Vision Encoder 从 CLIP 的 300M 换成 Qwen2-0.5B 的 500M，只多了 200M 参数，换来的是质的飞跃。

最最最关键的是，总参数量还是3B，保持轻量级！

DeepSeek 这一波操作给多模态领域指了一条新路：视觉理解不一定非要用 ViT，LLM 本身可能就是最好的视觉编码器。

这波，不只是 OCR 的进化，而是多模态架构的一次方向性验证。

它总是有一堆新想法，给我们带来的也都是超级酷的硬核技术。

目前，该项目已经全量开源。如果你是对文档处理有需求，或者对多模态技术感兴趣，可以去 GitHub 上点个 Star，亲自试一试这个“更像人类”的 OCR。

• GitHub：https://github.com/deepseek-ai/DeepSeek-OCR-2 • HuggingFace：https://huggingface.co/deepseek-ai/DeepSeek-OCR-2 • 论文：https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.