网易首页 > 网易号 > 正文 申请入驻

DeepSeek发布DeepSeek-OCR-2,Qwen引领视觉创新潮流

0
分享至



昨天的开源社区真的热闹炸了,两大国产 AI 头部厂商同时“秀肌肉”。

Kimi 发布了K2.5,视觉编程能力明显跃迁,给一张截图、一个录屏,就能直接复刻网页和 App,还有一个核心自主式智能体蜂群 Agent Swarm 范式,较单一智能体执行速度提升了4.5倍;



而 DeepSeek 则直接掀桌子,发布DeepSeek-OCR-2,用 LLM 架构彻底替掉传统 CLIP 视觉编码器。这是一条更激进、也更底层的路线。



如果说 Kimi K2.5 是把“看懂界面 → 写代码”这件事推到实用阶段,那 DeepSeek-OCR-2 则是在挑战一个更底层的问题:

AI,能不能像人一样“读文档”?

答案是:可以,而且这次是真的不一样了。

(PS:今天先着重分享 DeepSeek-OCR-2,至于 Kimi K2.5 放到后面有机会搭配 Kimi CLI 再为大家伙专门写一篇文章分享。)

项目背景

我们都知道 CLIP 的强项是“看大概”,比如它能一眼认出“这是一张猫的照片”,但它不擅长“按顺序细读”。

这导致传统模型在处理复杂文档(如多栏排版、嵌套表格)时,经常会出现语序错乱。

CLIP 看图,更像:一眼扫全局,抓整体语义

而 OCR 真正需要的是:像人一样,一块一块读

所以 DeepSeek-OCR-2,它把视觉编码器换成了 Qwen2-0.5B。



这意味着,它用一个擅长因果推理的小型 LLM,去替代了擅长全局匹配的视觉模型。这就好比以前是让“照相机”去读文章,现在直接请来了“阅读理解专家”。

这种让语言模型去学看图的思路,真的是太野了。

核心创新

DeepSeek-OCR-2 的核心创新,叫:

Visual Causal Flow(视觉因果流)

听着很学术,翻成人话其实很直白:

AI 不再按固定顺序“扫图”,而是先规划“怎么读”,也就是「智能阅读」。

具体怎么做:

  • 第一步(全局感知):通过双向注意力机制,让模型先“看”一遍全图,搞清楚哪里是标题,哪里是配图,哪里是表格。
  • 第二步(路径规划):模型生成一组“因果流 Token”,就像导航一样,规划出一条符合语义逻辑的阅读路径。
  • 结果:即使是报纸那种复杂的“迷宫式”排版,它也能按照正确的阅读顺序把文字还原出来。

Qwen2-0.5B 虽然是语言模型,但它天生擅长处理序列和因果关系。DeepSeek 证明了,让 LLM 跨界来做视觉编码,能更好地理解图像中的“逻辑结构”。

快速入手

要想先体验,那么HuggingFace上无疑就会有一堆DEMO可用。

DEMO01:https://huggingface.co/spaces/merterbak/DeepSeek-OCR-Demo



DEMO02:https://huggingface.co/spaces/prithivMLmods/DeepSeek-OCR-2-Demo



如果想本地部署或部署到服务器上,可参考以下步骤:

① 克隆项目

git clone https://github.com/deepseek-ai/DeepSeek-OCR-2.git

② 安装依赖

下载vllm轮子:https://github.com/vllm-project/vllm/releases/tag/v0.8.5

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118pip install vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whlpip install -r requirements.txtpip install flash-attn==2.7.3 --no-build-isolation

③ vLLM推理

cd DeepSeek-OCR2-master/DeepSeek-OCR2-vllm# 图像:流式输出python run_dpsk_ocr2_image.py# pdf:并行处理python run_dpsk_ocr2_pdf.py# 批量评估基准测试(即 OmniDocBench v1.5)python run_dpsk_ocr2_eval_batch.py

或 Transformers 推理

from transformers import AutoModel, AutoTokenizerimport torchimport osos.environ["CUDA_VISIBLE_DEVICES"] = '0'model_name = 'deepseek-ai/DeepSeek-OCR-2'tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)model = AutoModel.from_pretrained(model_name, _attn_implementation='flash_attention_2', trust_remote_code=True, use_safetensors=True)model = model.eval().cuda().to(torch.bfloat16)# prompt = "\nFree OCR. "prompt = "\n<|grounding|>Convert the document to markdown. "image_file = 'your_image.jpg'output_path = 'your/output/dir'res = model.infer(tokenizer, prompt=prompt, image_file=image_file, output_path = output_path, base_size = 1024, image_size = 768, crop_mode=True, save_results = True)
性能与效率

虽然换了架构,但 DeepSeek-OCR-2 依然保持了极高的效率,简直是“加量不加价”。

在同等视觉 token 预算下,DeepSeek-OCR-2 的表现非常离谱。



因为它懂逻辑,所以它不需要像传统模型那样生成海量的 Patch Token 来覆盖全图。

  • 对比 GOT-OCR2.0:仅需 100 个 Token 就能达到对方 256 个 Token 的效果。
  • 对比 MinerU:不到 800 个 Token 就能干翻对方 7000 个 Token 的精度。

这意味着推理速度极快,生成的废话极少。

吞吐量惊人,速度:单卡 A100 每天可处理 20 万页 文档。吞吐:达到 2500 tokens/s。





在 OmniDocBench v1.5 上:

  • 综合得分:91.09%
  • 相比上一代:+3.73%
  • 阅读顺序识别:逻辑明显更强

Vision Encoder 从 CLIP 的 300M 换成 Qwen2-0.5B 的 500M,只多了 200M 参数,换来的是质的飞跃。

最最最关键的是,总参数量还是3B,保持轻量级!

DeepSeek 这一波操作给多模态领域指了一条新路:视觉理解不一定非要用 ViT,LLM 本身可能就是最好的视觉编码器。

这波,不只是 OCR 的进化,而是多模态架构的一次方向性验证。

它总是有一堆新想法,给我们带来的也都是超级酷的硬核技术。

目前,该项目已经全量开源。如果你是对文档处理有需求,或者对多模态技术感兴趣,可以去 GitHub 上点个 Star,亲自试一试这个“更像人类”的 OCR。

• GitHub:https://github.com/deepseek-ai/DeepSeek-OCR-2 • HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2 • 论文:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深圳程序员102万入宁德时代,8年狂赚近800万的价值坚守

深圳程序员102万入宁德时代,8年狂赚近800万的价值坚守

真实人物采访
2026-01-28 14:30:03
印度网友发出疑问:为何只有中国人身上没有味道?究竟是什么原因

印度网友发出疑问:为何只有中国人身上没有味道?究竟是什么原因

阿纂看事
2026-01-26 10:14:55
男子花50万向老同学购买“内部黄金”,每克仅100元?到手发现88%成分是铜

男子花50万向老同学购买“内部黄金”,每克仅100元?到手发现88%成分是铜

环球网资讯
2026-01-27 10:42:48
传奇终将落幕!本赛季打完,这9名球星大概率退役,8个曾是全明星

传奇终将落幕!本赛季打完,这9名球星大概率退役,8个曾是全明星

老侃侃球
2026-01-28 03:30:03
值得珍藏:固态电池+核聚变链+AI芯片+商业航天+光刻机+量子信息

值得珍藏:固态电池+核聚变链+AI芯片+商业航天+光刻机+量子信息

Thurman在昆明
2026-01-27 11:29:18
联盟第一!快船双杀爵士,伦纳德创NBA3大神迹,哈登轰16+10+4断

联盟第一!快船双杀爵士,伦纳德创NBA3大神迹,哈登轰16+10+4断

老侃侃球
2026-01-28 13:39:05
美国林肯号航母逼近伊朗海域!以色列发动14次空袭

美国林肯号航母逼近伊朗海域!以色列发动14次空袭

项鹏飞
2026-01-26 16:22:25
U23国足三大核心球员去向已定 徐彬去英超 李昊和杨希锁定下家

U23国足三大核心球员去向已定 徐彬去英超 李昊和杨希锁定下家

篮球看比赛
2026-01-28 09:57:40
16枚导弹全部击中,基辅电厂彻底瘫痪!乌克兰或后悔先挑起能源战

16枚导弹全部击中,基辅电厂彻底瘫痪!乌克兰或后悔先挑起能源战

谛听骨语本尊
2026-01-28 13:06:16
灵隐寺被扒个底朝天,方丈身世曝光?网友:比释永信还厉害?

灵隐寺被扒个底朝天,方丈身世曝光?网友:比释永信还厉害?

小嵩
2025-08-07 20:11:39
阿尔沙文:没想到皇马只落后巴萨1分,希望阿韦洛亚遭遇失败

阿尔沙文:没想到皇马只落后巴萨1分,希望阿韦洛亚遭遇失败

懂球帝
2026-01-27 21:08:06
印度尼帕病毒疫情已致5人感染,周边国家加强入境筛查

印度尼帕病毒疫情已致5人感染,周边国家加强入境筛查

澎湃新闻
2026-01-26 14:07:04
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
郑州失联女孩确认溺亡!哥哥发声曝家庭隐情,邻居透露生前有异常

郑州失联女孩确认溺亡!哥哥发声曝家庭隐情,邻居透露生前有异常

童童聊娱乐啊
2026-01-28 12:34:54
苹果Apple Watch高血压提醒在七国上线 涉及这些机型

苹果Apple Watch高血压提醒在七国上线 涉及这些机型

CNMO科技
2026-01-28 07:36:18
张兰不听劝,又晒孙子孙女,小玥儿太像大S,外套7000元 个子很高

张兰不听劝,又晒孙子孙女,小玥儿太像大S,外套7000元 个子很高

有范又有料
2026-01-27 15:42:10
11066个编制岗!广东启动全省事业单位集中招聘

11066个编制岗!广东启动全省事业单位集中招聘

南方都市报
2026-01-27 18:38:12
亚马逊误发内部邮件,原计划今天开展的裁员陷入混乱

亚马逊误发内部邮件,原计划今天开展的裁员陷入混乱

IT之家
2026-01-28 11:05:06
陪读妈妈反对牢A观点,脖子上的“认主项链”露馅了,老公天塌了

陪读妈妈反对牢A观点,脖子上的“认主项链”露馅了,老公天塌了

泽泽先生
2026-01-26 21:36:11
1981年韩先楚返乡探亲,遇发小闲聊,对方直言:你这官咋当的

1981年韩先楚返乡探亲,遇发小闲聊,对方直言:你这官咋当的

历史龙元阁
2026-01-28 14:10:03
2026-01-28 15:20:49
冒泡泡的鱼儿
冒泡泡的鱼儿
每天带来社会资讯
368文章数 15062关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

美方行动设想:对伊朗实施"快速、突然且干净"的打击

头条要闻

美方行动设想:对伊朗实施"快速、突然且干净"的打击

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

王祖贤入驻某音:一条7秒视频吸粉55万

财经要闻

40倍杠杆断裂!水贝一黄金平台兑付困难

汽车要闻

中国豪华车老大之争:奥迪凭啥干掉奔驰宝马?

态度原创

家居
数码
本地
时尚
公开课

家居要闻

跃式别墅 包络石木为生

数码要闻

酷冷至尊展示360“平方水排”:四颗180mm风扇方形排列

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

被章若楠、舒淇带火的毛衣,这样穿太时髦了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版