![]()
昨天的开源社区真的热闹炸了,两大国产 AI 头部厂商同时“秀肌肉”。
Kimi 发布了K2.5,视觉编程能力明显跃迁,给一张截图、一个录屏,就能直接复刻网页和 App,还有一个核心自主式智能体蜂群 Agent Swarm 范式,较单一智能体执行速度提升了4.5倍;
![]()
而 DeepSeek 则直接掀桌子,发布DeepSeek-OCR-2,用 LLM 架构彻底替掉传统 CLIP 视觉编码器。这是一条更激进、也更底层的路线。
![]()
如果说 Kimi K2.5 是把“看懂界面 → 写代码”这件事推到实用阶段,那 DeepSeek-OCR-2 则是在挑战一个更底层的问题:
AI,能不能像人一样“读文档”?
答案是:可以,而且这次是真的不一样了。
(PS:今天先着重分享 DeepSeek-OCR-2,至于 Kimi K2.5 放到后面有机会搭配 Kimi CLI 再为大家伙专门写一篇文章分享。)
项目背景
我们都知道 CLIP 的强项是“看大概”,比如它能一眼认出“这是一张猫的照片”,但它不擅长“按顺序细读”。
这导致传统模型在处理复杂文档(如多栏排版、嵌套表格)时,经常会出现语序错乱。
CLIP 看图,更像:一眼扫全局,抓整体语义。
而 OCR 真正需要的是:像人一样,一块一块读。
所以 DeepSeek-OCR-2,它把视觉编码器换成了 Qwen2-0.5B。
![]()
这意味着,它用一个擅长因果推理的小型 LLM,去替代了擅长全局匹配的视觉模型。这就好比以前是让“照相机”去读文章,现在直接请来了“阅读理解专家”。
这种让语言模型去学看图的思路,真的是太野了。
核心创新
DeepSeek-OCR-2 的核心创新,叫:
Visual Causal Flow(视觉因果流)
听着很学术,翻成人话其实很直白:
AI 不再按固定顺序“扫图”,而是先规划“怎么读”,也就是「智能阅读」。
具体怎么做:
- 第一步(全局感知):通过双向注意力机制,让模型先“看”一遍全图,搞清楚哪里是标题,哪里是配图,哪里是表格。
- 第二步(路径规划):模型生成一组“因果流 Token”,就像导航一样,规划出一条符合语义逻辑的阅读路径。
- 结果:即使是报纸那种复杂的“迷宫式”排版,它也能按照正确的阅读顺序把文字还原出来。
Qwen2-0.5B 虽然是语言模型,但它天生擅长处理序列和因果关系。DeepSeek 证明了,让 LLM 跨界来做视觉编码,能更好地理解图像中的“逻辑结构”。
快速入手
要想先体验,那么HuggingFace上无疑就会有一堆DEMO可用。
DEMO01:https://huggingface.co/spaces/merterbak/DeepSeek-OCR-Demo
![]()
DEMO02:https://huggingface.co/spaces/prithivMLmods/DeepSeek-OCR-2-Demo
![]()
如果想本地部署或部署到服务器上,可参考以下步骤:
① 克隆项目
git clone https://github.com/deepseek-ai/DeepSeek-OCR-2.git② 安装依赖
下载vllm轮子:https://github.com/vllm-project/vllm/releases/tag/v0.8.5
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118pip install vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whlpip install -r requirements.txtpip install flash-attn==2.7.3 --no-build-isolation③ vLLM推理
cd DeepSeek-OCR2-master/DeepSeek-OCR2-vllm# 图像:流式输出python run_dpsk_ocr2_image.py# pdf:并行处理python run_dpsk_ocr2_pdf.py# 批量评估基准测试(即 OmniDocBench v1.5)python run_dpsk_ocr2_eval_batch.py或 Transformers 推理
from transformers import AutoModel, AutoTokenizerimport torchimport osos.environ["CUDA_VISIBLE_DEVICES"] = '0'model_name = 'deepseek-ai/DeepSeek-OCR-2'tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)model = AutoModel.from_pretrained(model_name, _attn_implementation='flash_attention_2', trust_remote_code=True, use_safetensors=True)model = model.eval().cuda().to(torch.bfloat16)# prompt = "
\nFree OCR. "prompt = "
\n<|grounding|>Convert the document to markdown. "image_file = 'your_image.jpg'output_path = 'your/output/dir'res = model.infer(tokenizer, prompt=prompt, image_file=image_file, output_path = output_path, base_size = 1024, image_size = 768, crop_mode=True, save_results = True)性能与效率虽然换了架构,但 DeepSeek-OCR-2 依然保持了极高的效率,简直是“加量不加价”。
在同等视觉 token 预算下,DeepSeek-OCR-2 的表现非常离谱。
![]()
因为它懂逻辑,所以它不需要像传统模型那样生成海量的 Patch Token 来覆盖全图。
- 对比 GOT-OCR2.0:仅需 100 个 Token 就能达到对方 256 个 Token 的效果。
- 对比 MinerU:不到 800 个 Token 就能干翻对方 7000 个 Token 的精度。
这意味着推理速度极快,生成的废话极少。
吞吐量惊人,速度:单卡 A100 每天可处理 20 万页 文档。吞吐:达到 2500 tokens/s。
![]()
![]()
在 OmniDocBench v1.5 上:
- 综合得分:91.09%
- 相比上一代:+3.73%
- 阅读顺序识别:逻辑明显更强
Vision Encoder 从 CLIP 的 300M 换成 Qwen2-0.5B 的 500M,只多了 200M 参数,换来的是质的飞跃。
最最最关键的是,总参数量还是3B,保持轻量级!
DeepSeek 这一波操作给多模态领域指了一条新路:视觉理解不一定非要用 ViT,LLM 本身可能就是最好的视觉编码器。
这波,不只是 OCR 的进化,而是多模态架构的一次方向性验证。
它总是有一堆新想法,给我们带来的也都是超级酷的硬核技术。
目前,该项目已经全量开源。如果你是对文档处理有需求,或者对多模态技术感兴趣,可以去 GitHub 上点个 Star,亲自试一试这个“更像人类”的 OCR。
• GitHub:https://github.com/deepseek-ai/DeepSeek-OCR-2 • HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2 • 论文:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.