网易首页 > 网易号 > 正文 申请入驻

表格、多栏、手写全拿下:开源国产OCR不“只会认字”(附源码)

0
分享至

大家好,我是小悟。

国产模型团队 DeepSeek,把新一代的 DeepSeek-OCR-2 开源。

这个OCR,它不只是“识别率又高了几个点”,而是从根上换了个思路:让模型像人一样,带着逻辑去看一页文档,而不是像扫描仪那样机械地从左上角扫到右下角。



它解决了什么痛点?

很多人对 OCR 的印象可能还停留在“把图片里的字弄出来”。但真在工作中用过 OCR 的人,大多被下面这些情况折磨过:

  • 排版灾难:扫描一份带表格的会议纪要,导出来的 Word 里,标题跑到段落中间,表格变成一堆乱糟糟的符号,编号全乱套。
  • 手写体噩梦:拍一张手写笔记,想转成电子版,“三月五日”被识别成“三月吾日”,“张工”变成“章工”,改起来比自己重打一遍还费劲。
  • PDF 转文本之痛:几十页的 PDF 合同,想转成可编辑文档,要么花一下午手动调整格式,要么花钱买 SaaS 服务,还担心合同内容被传到别人服务器上。

这些问题的根源,是传统 OCR 工具只管“认字”,不管“结构”。

它们把页面当成一堆像素,按顺序抠出字符,却完全不管标题层级、表格结构、段落关系。结果就是:字是认出来了,但文档的逻辑已经被拆得七零八落。

而 DeepSeek-OCR-2 盯上的,就是这个被忽视太久的问题:让模型先“读懂”文档结构,再谈识别文字。




DeepSeek-OCR-2 是什么?

先简单交代一下背景:DeepSeek 在 2025 年 10 月就发布过一代 DeepSeek-OCR,当时的重点是“用视觉方式压缩长文本”。这次的 DeepSeek-OCR-2,是在它基础上的升级版,但思路完全换了一条路。

它的核心,是一个叫DeepEncoder V2的新视觉编码器。它的作用,可以简单理解成:它不再把图片粗暴地按“左上到右下”的顺序切成条。



而是先“看一眼”整页内容,理解哪里是标题、哪里是表格、哪里是正文,再按照一个更合理的逻辑顺序,把信息重新排好,交给大语言模型去处理。

这种做法,很像我们人看文档时的习惯:先看标题,再扫一眼整体结构,遇到表格会按列或按行看,遇到分栏会自动“跳读”。模型第一次在编码阶段,就开始模仿这种“带着目的去看”的方式。

从技术上说,它做了几件关键的事:

  • 换掉传统编码器:用一个小一点的语言模型(Qwen2-0.5B)替代了原来基于 CLIP 的视觉编码器,让视觉信息也能被“语言化”地处理。
  • 引入“因果流查询”:模型里新增了一组可学习的“查询 Token”,它们会像人一样,根据已经看到的内容,决定下一步该“看哪里”,从而形成一个有逻辑顺序的“阅读路径”。
  • 控制信息量:通过精巧的设计,把一整页复杂文档压缩到256~1120 个视觉 Token,既保证了信息密度,又不会让下游的大模型“消化不良”。

简单概括:DeepSeek-OCR-2 不再只是一个“认字工具”,而是一个能理解文档结构的“视觉阅读器”。



核心功能有哪些?

它的能力主要体现在以下几个方面:

  1. 复杂文档理解
  2. 在 OmniDocBench v1.5 这样的文档理解基准上,DeepSeek-OCR-2 综合得分91.09%,比上一代提升了 3.73%。
  3. 特别是在“阅读顺序”这个指标上,进步非常明显,这说明它确实更懂“先读什么、后读什么”。
  4. 高压缩下的稳定表现
  5. 它只用 256~1120 个视觉 Token 就能表示一整页文档,在相似的 Token 预算下,其文档解析效果甚至优于一些闭源模型。对于需要处理海量文档的企业来说,这意味着更低的成本和更高的效率
  6. 贴近真实的生产指标
  7. 在 DeepSeek 自己的生产环境中,在线日志和 PDF 数据处理的重复率明显下降(分别从 6.25% 降到 4.17%,3.69% 降到 2.88%)。
  8. 这个提升意味着,用它的结果去训练大模型,输入质量会更高,模型也更容易“学干净”。
  9. 多场景适配
  10. 模型提供了 Tiny / Small / Base / Large / Gundam 等不同尺寸,可以根据硬件条件和场景需求灵活选择。
  11. 其中 Gundam 版本专门针对大尺寸、复杂文档优化,能更好地处理多栏排版、图文混排的文档。
  12. 本地部署与开源生态
  13. 官方已经把模型、代码、论文全部开源, Hugging Face、gitHub 都能直接下载。
  14. 你可以很容易地在自己的机器上搭一个本地的文档解析服务,完全离线运行,特别适合对隐私敏感的场景。

本地安装

1、克隆此仓库并导航到 DeepSeek-OCR-2 文件夹git clone https://github.com/deepseek-ai/DeepSeek-OCR-2.git2、Condaconda create -n deepseek-ocr2 python=3.12.9 -yconda activate deepseek-ocr23、软件包pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118pip install vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whlpip install -r requirements.txtpip install flash-attn==2.7.3 --no-build-isolation

开源社区

项目地址:https://github.com/deepseek-ai/DeepSeek-OCR-2模型地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2论文地址:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
为什么推荐它?

推荐它,不只是因为指标好看,更因为它有几个很实际的优点:

  1. 它真的在“读”文档,而不是“认字”
  2. 它输出的结果自带结构,标题、列表、表格都给你分好了。这意味着你可以直接用它构建知识库、做文档问答,而不需要再写一堆规则去“猜”结构。
  3. 它开源得足够彻底
  4. Paper、Code、Model 全部开放,社区可以基于它做二次开发。对于企业来说,可以把这套能力完全掌控在自己手里。
  5. 它让“文档数字化”这件事变得更便宜
  6. 高压缩率意味着更低的算力成本,对于需要处理海量历史文档的机构来说,这是一个可以实实在在降本增效的工具。
  7. 它代表了一种新的方向
  8. DeepSeek 通过这次更新,把“因果推理”的思路从语言模型延伸到了视觉领域。这种尝试,对整个国产多模态生态来说,都是好事。



✍️ 写在最后

回头看,我们会发现,大模型的能力升级,正在从“能说会聊”,慢慢变成“能看懂、能干活”。

DeepSeek-OCR-2 就是这条路上一个很具体的注脚:它不追求榜单上那几个夸张的数字,而是把注意力放在一个非常朴素的问题上,怎么让机器真正“看懂”一页文档。

对于普通用户来说,它可能是你整理资料、数字化文档的得力助手。对于企业和开发者来说,它是一个可以深度集成、构建差异化能力的底层工具。



谢谢你看我的文章,既然看到这里了,如果觉得不错,随手点个赞、转发、在看三连吧,感谢感谢。那我们,下次再见。

您的一键三连,是我更新的最大动力,谢谢

山水有相逢,来日皆可期,谢谢阅读,我们再会

我手中的金箍棒,上能通天,下能探海

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
直冲24℃!浙江升温时间定了

直冲24℃!浙江升温时间定了

浙江之声
2026-02-17 10:57:40
日本“色情业”怪相:店开不下去,大久保公园却生意更好了

日本“色情业”怪相:店开不下去,大久保公园却生意更好了

这里是东京
2026-02-17 16:20:51
原来他才是毁掉刘翔真凶!因贪1200万被审判,让刘翔背负多年骂名

原来他才是毁掉刘翔真凶!因贪1200万被审判,让刘翔背负多年骂名

小熊侃史
2026-02-11 12:52:08
软件崩完物流崩!AI正在血洗股市,普通人只剩这一条活路

软件崩完物流崩!AI正在血洗股市,普通人只剩这一条活路

侃故事的阿庆
2026-02-16 22:18:13
北京男子张先生去世,年仅38岁,儿女上小学,误诊20多天错过治疗

北京男子张先生去世,年仅38岁,儿女上小学,误诊20多天错过治疗

法老不说教
2025-12-25 13:40:58
想跑没门!新疆富豪夫妇套现7亿,没等钱到账,老板娘先被带走了

想跑没门!新疆富豪夫妇套现7亿,没等钱到账,老板娘先被带走了

白浅娱乐聊
2026-01-30 16:29:01
还不如日本!除夕当天赖清德春节贺词:全英文对“中国”只字不提

还不如日本!除夕当天赖清德春节贺词:全英文对“中国”只字不提

秘密即将揭晓
2026-02-17 22:55:52
春晚宇树G1机器人8.5万元热度飙升 销售人员:非春晚同款功能 无二次开发仅可行走等

春晚宇树G1机器人8.5万元热度飙升 销售人员:非春晚同款功能 无二次开发仅可行走等

封面新闻
2026-02-17 20:37:07
太意外!38岁中国教练率意大利击败中国队夺金牌,曾婉拒回国执教

太意外!38岁中国教练率意大利击败中国队夺金牌,曾婉拒回国执教

云景侃记
2026-02-12 19:49:07
少子化+AI,正在杀死延续了70年的选拔游戏

少子化+AI,正在杀死延续了70年的选拔游戏

格致君
2026-02-14 09:21:44
红果短剧狂赚150亿,豆包反超同行,字节凭啥总能后来居上?

红果短剧狂赚150亿,豆包反超同行,字节凭啥总能后来居上?

老特有话说
2026-02-09 23:31:54
为娶英国公主,莫齐抛弃华裔未婚妻,如今岳父丢爵位,家里一团糟

为娶英国公主,莫齐抛弃华裔未婚妻,如今岳父丢爵位,家里一团糟

冷紫葉
2025-10-28 20:31:09
刚刚,全球最大对冲基金最新持仓来了

刚刚,全球最大对冲基金最新持仓来了

格隆汇
2026-02-18 00:50:14
中戏风波再升级!3人自首,4任领导落马,闫学晶没想到会连累他

中戏风波再升级!3人自首,4任领导落马,闫学晶没想到会连累他

胡一舸南游y
2026-02-14 19:11:55
人不会无缘无故患带状疱疹!研究发现:得带状疱疹,离不开这3点

人不会无缘无故患带状疱疹!研究发现:得带状疱疹,离不开这3点

荷兰豆爱健康
2026-02-15 18:21:06
刚刚!石油、黄金、白银,集体跳水!

刚刚!石油、黄金、白银,集体跳水!

中国基金报
2026-02-17 22:52:21
电车剩余3%电量寻找充电桩,车主意外遭遇无桩可用!

电车剩余3%电量寻找充电桩,车主意外遭遇无桩可用!

一丝不苟的法律人
2026-02-17 16:06:56
0.09秒绝杀!中国队创冬奥会历史,首次登上领奖台,队员哭成泪人

0.09秒绝杀!中国队创冬奥会历史,首次登上领奖台,队员哭成泪人

侃球熊弟
2026-02-18 07:14:42
笑哭!比亚迪月销21万辆,网上哀嚎遍野,内部人士:没见过世面

笑哭!比亚迪月销21万辆,网上哀嚎遍野,内部人士:没见过世面

小李车评李建红
2026-02-17 09:00:03
赵今麦,每个男人都想拥有的女孩样板。

赵今麦,每个男人都想拥有的女孩样板。

野狐馋师
2026-02-17 08:50:46
2026-02-18 08:47:00
我不叫阿哏
我不叫阿哏
分享有趣、有用的故事!
314文章数 6395关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

湘潭黄氏家族坚持9年办春节联欢会 今年200人以上参加

头条要闻

湘潭黄氏家族坚持9年办春节联欢会 今年200人以上参加

体育要闻

维尼修斯进球后罢赛 向穆帅投诉对手歧视

娱乐要闻

春节档电影首波口碑出炉!

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

问界M6更多信息:乾崑智驾ADS4.0+鸿蒙座舱5.0

态度原创

健康
家居
数码
手机
旅游

转头就晕的耳石症,能开车上班吗?

家居要闻

中古雅韵 乐韵伴日常

数码要闻

全新Siri能成为苹果的另一个杀手锏吗?

手机要闻

Google I/O 2026定档5月19日 Gemini AI将再度占据核心舞台

旅游要闻

人头攒动年味足 无棣古城喜迎开门红

无障碍浏览 进入关怀版