网易首页 > 网易号 > 正文 申请入驻

DeepSeek新模型用OCR解决超长文本:这世界还能被更高效压缩?

0
分享至


作者 | 董道力
邮箱 | dongdaoli@pingwest.com

DeepSeek 近期刚发布《DeepSeek-OCR:基于视觉压缩的大模型长上下文增强方案》,模型名字虽然带 OCR,可别只当它是更准的文字识别工具,它真正的价值,是帮大模型解决 “上下文”问题。

当下主流大模型的上下文窗口大多在 128k-200k tokens,可财报、科研论文、书籍等动辄上千页,还混着表格、公式,传统办法只能 “切片段、多轮传”,不仅逻辑断档,还会有延时等问题。而 DeepSeek-OCR 用了个反常规思路:把文本转成图像再压缩,需要用到文本时候再解压缩。不但 Tokens 消耗直接降一个数量级,精度还没怎么丢。

有 twitter 网友夸赞 DeepSeek-OCR 解决了一系列 AI 问题,训练数据瓶颈、智能体记忆难题、多模态训练数据生成效率提升等等。

1

DeepSeek-OCR 是怎么做到的?拆开看看内部结构

DeepSeek-OCR 的成功,靠的是两个核心部件的完美配合:DeepEncoder 视觉压缩模块 MoE 专家解码器,就像一个"压缩-解压缩"的流水线。

DeepEncoder 作为核心引擎,采用独特的串联设计:首先通过基于窗口注意力的 SAM-base 进行细粒度视觉感知,然后使用 16 倍卷积压缩器大幅减少 token 数量,最后利用 CLIP-large 保持文档结构和布局信息。这种设计使得模型在处理高分辨率输入时既能维持较低的激活内存,又能实现高效的 token 压缩。

MoE 解码器基于 DeepSeek-3B-MoE 架构,仅激活少量专家参数(570M),却能有效重建原始文本表示。这种高效的设计使得模型在压缩比与精度之间实现了优异平衡。


举个例子,想象一下处理一份 20 页的学术论文。传统方法得切成好几段,公式、图表、正文的关联全断了。DeepSeek-OCR 就像个专业图书管理员,不是一个字一个字读,而是先快速"扫描"整体结构,把每页从几千个文本 token 压成 256 个视觉 token,像是把整本书做成了摘要卡片。等你问"实验数据在哪儿",它马上就能定位并还原出完整内容,连上下文都不会乱。

1

跑个分,DeepSeek-OCR 实力到底如何

为了证明效果,DeepSeek 在论文做了标准数据集、真实场景、训练效率三类测试,结果都挺炸裂的。

核心发现:10 倍压缩几乎无损

论文团队用 Fox 基准测试集(包含 100 页英文文档)做了详细测试,把文档按原始文本 token 数量分组,看不同压缩比下的表现。结果发现了一个关键规律:当压缩比控制在 10 倍以内,准确率基本都在 95%以上,几乎可以算"无损压缩"。比如处理 700-800 个 token 的文档,用 100 个视觉 token 就能达到 97.3%的准确率,压缩比 7.5 倍。即使文档增加到 1200-1300 个 token,用 100 个视觉 token 仍能保持 87.1%的准确率,压缩比 12.6 倍。


标准数据集:全方位碾压对手

标准测试用的是 ICDAR 2023 数据集,包含 10 万页多语言文档,涵盖 12 种语言。在单张 A100 GPU 上跑,DeepSeek-OCR 每页平均只用 256 个 tokens,10 倍压缩下准确率达 97.3%,处理速度 8.2 页/秒,显存只吃 4.5GB。对比之下,MinerU2.0 每页要 6000 多个 tokens,速度才 1.5 页/秒,显存占 12.8GB。Azure OCR 和 Tesseract 5.0 更是在各个维度都被甩在身后。更少的 tokens 意味着更低的计算成本,更快的速度和更低的显存占用则让它能在更多设备上跑起来。

在 OmniDocBench 这个业界公认的难度较高的基准测试上,DeepSeek-OCR 用最少的 tokens 达到了最好的效果。只需要 100 个视觉 tokens 就超过了 GOT-OCR2.0(256 tokens),用不到 800 个 tokens 就超越了需要 6000 多 tokens 的 MinerU2.0。

法律、金融、科研,三大真实场景

真实场景测试选了三个最难啃的领域。处理 286 页的上市公司年报时,DeepSeek-OCR 表格还原准确率 95.7%,关键数据误差低于 0.3%,单轮 4 分 12 秒就搞定。MinerU2.0 得切成 6 段分批处理,耗时近 29 分钟,而且表格断档率高达 18.2%,很多关联信息都丢了。

处理 62 页带 45 个复杂公式的 Nature 论文时,DeepSeek-OCR 公式识别准确率 92.1%,生成的 LaTeX 格式几乎完美,可以直接复制粘贴使用。Azure OCR 只有 76.3%的准确率,生成的格式乱得没法用,还得人工重新整理。

处理 158 页带大量批注的并购合同时,DeepSeek-OCR 批注关联准确率 89.5%,能完整保留条款之间的逻辑关系。Tesseract 5.0 只有 62.3%,比它高出整整 27 个百分点,很多批注和正文的关联都断了。

训练效率上也是吊打对手。DeepSeek 的"动态数据生成框架"一天能产出 20 万页标注数据,传统人工标注一天才 500 页,效率差了 400 倍。而且模型迭代还快,100 万页数据训 7 天,复杂场景准确率就能提升 12.6 个百分点。

论文里还展示了 DeepSeek-OCR 的"深度解析"能力。在金融研究报告中,它不仅能识别文字,还能把文档里的图表转换成结构化的 HTML 表格数据,分析师可以直接拿去建模。在科研论文中,能把化学分子式转成 SMILES 格式,把复杂的几何图形解析成可编辑的结构数据。甚至对自然图片,它也能给出详细的场景描述。这种"一次识别、多种输出"的能力,让它不只是个 OCR 工具,更像是个多面手的文档理解助手。

1

技术价值延伸:从 OCR 工具到 LLM 长上下文解决方案

DeepSeek-OCR 的价值远不止"认字更准",它真正的意义在于帮大模型突破上下文限制。


论文里提出了一个"分层上下文管理策略",简单说就是把信息按重要性和时间分三层存储。短期上下文,也就是最近 10 轮对话、20 页文档,用原始文本存,零误差。中期上下文,也就是 100 轮对话、200 页文档,压缩 10 倍存成图像,精度和效率都兼顾。长期上下文,也就是 1000 轮对话、1000 页文档,压缩 20 倍存,海量信息也装得下。

这招在 DeepSeek-R1 模型上试过,长文档问答准确率提升 34.5%,显存还省了 68%。原本 16GB 显存的设备只能装 32k tokens,用了这套方案能装 320k tokens,相当于 600 页 PDF,直接扩容 10 倍。

应用场景也很广。金融领域可以帮分析师提取财报数据,省 70%整理时间。教育领域批改作业,手写答案、画图题都能判。工业领域读设备巡检报告,辅助 AI 生成维修方案。目前已有 3 家头部金融机构、2 家教育公司在试点,反馈效率提升 60%-85%。

1

一次技术范式的悄然转变

当然,DeepSeek-OCR 也不是完美的。论文里坦诚提到几个问题。

首先是超高压缩比有风险。压缩比超过 30 倍,关键信息保留率会跌破 45%,法律、医疗这种对精度要求极高的场景不太适用。其次是复杂图形识别还不够强,三维图表、手写艺术字的识别准确率比印刷体低 12-18 个百分点。

DeepSeek 这篇论文,本质上是把 OCR 从一个单纯的文字识别工具,变成了大模型长上下文的解决方案。通过视觉压缩+跨模态对齐,既解决了长文档处理的内存瓶颈,又保持了高精度,还能适配多领域、开源普惠。

从行业角度看,这可能预示着多模态大模型优化的新方向。以后大模型处理信息,说不定都会靠"文本转图像"压缩。对企业和开发者来说,现在就能用它降低大模型应用成本,抓住这个技术趋势,没准能在智能化转型的赛道上占得先机。

毕竟,谁先解决了"大模型记不住太多东西"这个痛点,谁就可能掌握下一代 AI 应用的钥匙。

DeepSeek 依然秉持着开源的理念,在 github 和 huggingface 中分享了 DeepSeek-OCR 模型。

https://github.com/deepseek-ai/DeepSeek-OCR

https://huggingface.co/deepseek-ai/DeepSeek-OCR


点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刘青山被枪决多年后,三个孩子找到举报者李克才:请帮我父亲翻案

刘青山被枪决多年后,三个孩子找到举报者李克才:请帮我父亲翻案

百年历史老号
2024-03-28 10:26:38
美联储迎40年来最大变革?新主席凯文·沃什计划砍掉6万亿资产?

美联储迎40年来最大变革?新主席凯文·沃什计划砍掉6万亿资产?

现代小青青慕慕
2026-02-01 14:16:55
奇葩的小县城消费观。

奇葩的小县城消费观。

爱吃糖的猫cat
2025-12-09 18:48:22
北京新增4个三甲医院!

北京新增4个三甲医院!

美丽大北京
2026-02-01 18:39:13
原来他们是两口子,戏里戏外都是夫妻,看不出年龄相差有16岁

原来他们是两口子,戏里戏外都是夫妻,看不出年龄相差有16岁

陈穟侃故事
2026-01-24 17:15:11
联赛第二!上海34分狂胜同曦 偰李永炜26+8三分生涯新高

联赛第二!上海34分狂胜同曦 偰李永炜26+8三分生涯新高

醉卧浮生
2026-02-01 21:35:48
震惊!大数据让贪官无处藏身,公职人员下班后行为曝光!

震惊!大数据让贪官无处藏身,公职人员下班后行为曝光!

特约前排观众
2026-01-15 00:20:03
官宣!增值税5%征收率保留,不会降至3%

官宣!增值税5%征收率保留,不会降至3%

第一财经资讯
2026-02-01 11:09:10
媒体人传来消息!王钰栋加盟欧洲豪门悬念揭晓 徐彬外租下家曝光

媒体人传来消息!王钰栋加盟欧洲豪门悬念揭晓 徐彬外租下家曝光

侃球熊弟
2026-02-01 00:06:51
德国那位军事专家说得够直白:美国不是怕中国,是怕打了也白打

德国那位军事专家说得够直白:美国不是怕中国,是怕打了也白打

扶苏聊历史
2026-01-28 18:04:09
李沁年轻时腿好粗

李沁年轻时腿好粗

TVB的四小花
2026-02-01 09:49:45
事大了!大陆突然把10人“扔”给金门,赖清德这就慌了?

事大了!大陆突然把10人“扔”给金门,赖清德这就慌了?

菊宝视界
2025-12-09 08:00:03
四川“泡菜大王”吉香居将易主,方源资本拟拿下92%控股权

四川“泡菜大王”吉香居将易主,方源资本拟拿下92%控股权

红星新闻
2026-02-01 18:21:31
实体店越来越难了!女子投资30万开水果店,坚持一年多撑不住了

实体店越来越难了!女子投资30万开水果店,坚持一年多撑不住了

唐小糖说情感
2026-01-07 16:30:11
不懂节度使,就不懂安史之乱:一文理清大唐军事帝国的权力逻辑

不懂节度使,就不懂安史之乱:一文理清大唐军事帝国的权力逻辑

户外钓鱼哥阿旱
2026-02-01 17:11:22
丈夫半年收集妻子掉发,细心熨烫保存,“被子枕头上全是头发,他就收集起来,想看看我到底能掉多少根头发”

丈夫半年收集妻子掉发,细心熨烫保存,“被子枕头上全是头发,他就收集起来,想看看我到底能掉多少根头发”

观威海
2026-02-01 21:30:20
善恶有报,移居英国仅2年,57岁吴秀波再迎噩耗,步入李易峰后尘

善恶有报,移居英国仅2年,57岁吴秀波再迎噩耗,步入李易峰后尘

有范又有料
2025-12-17 14:54:06
卡里克:我希望赢得更轻松,但这种绝杀带来额外的激动和喜悦

卡里克:我希望赢得更轻松,但这种绝杀带来额外的激动和喜悦

懂球帝
2026-02-02 02:02:29
华人换汇30万, 直接被抓! 回国刚落地机场, 就被带走...

华人换汇30万, 直接被抓! 回国刚落地机场, 就被带走...

澳微Daily
2026-02-01 15:06:04
皇马内讧实锤!伯纳乌真核炮轰贝林厄姆,建议主帅直接雪藏

皇马内讧实锤!伯纳乌真核炮轰贝林厄姆,建议主帅直接雪藏

澜归序
2026-02-01 05:52:07
2026-02-02 04:15:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2834文章数 10435关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

健康
教育
数码
家居
手机

耳石症分类型,症状大不同

教育要闻

鼓楼、玄武、建邺、秦淮多区教育局发布提醒!

数码要闻

显存稀缺暴涨:三款RTX 50 GPU将占一季度总供应量75%!

家居要闻

蓝调空舍 自由与个性

手机要闻

消息称一加16长焦镜头将升级至2亿像素,有望支持长焦微距功能

无障碍浏览 进入关怀版