网易首页 > 网易号 > 正文 申请入驻

DeepSeek开源新成果!把长文档压缩成图片,降低大模型处理成本

0
分享至

DeepSeek 开源新成果了。

这次他们发布了一个名为 DeepSeek-OCR 的模型,尝试用一种新颖的“上下文光学压缩”方法,来解决当前大语言模型处理长篇文档时效率不高、成本过高的问题。


(来源:GitHub)

我们知道,大语言模型在处理几千字、几万字甚至更长的文本时,计算量会急剧增加,对算力和内存的要求非常高。这成了限制它们在很多需要处理海量文档场景中应用的一个瓶颈。


图丨流行视觉语言模型中的典型视觉编码器(来源:GitHub)

DeepSeek-OCR 的思路,就是想绕开这个难题。DeepSeek 团队指出,人类在阅读文档时,视觉系统扮演了至关重要的角色,能够快速捕捉和压缩页面布局、段落结构等信息。那么,机器是否也能模拟这一过程?DeepSeek-OCR 正是对这一设想的初步探索。

它的核心想法是,能不能不直接把长长的文字序列喂给语言模型?而是先把这些文字内容渲染成一张图片,然后利用高效的视觉模型对这张图片进行压缩和理解,最后只把压缩后的、数量少得多的视觉特征交给语言模型去“解压”和处理。

因此,它不只是个 OCR 工具,更像是一个为大模型打造的“视觉预处理器”,一个能把成千上万个文本 token 高效打包成几百个视觉 token 的压缩引擎。

DeepSeek-OCR 的架构设计主要由两大核心组件构成:DeepEncoder(深度编码器)和 DeepSeek-3B-MoE-A570M(一个拥有 30 亿参数、激活 5.7 亿参数的混合专家模型)解码器。

DeepEncoder 是整个系统的关键所在。它的设计目标在于,在处理高分辨率输入图像的同时,保持较低的激活内存,并实现极高的压缩比。为了达到这一目的,DeepEncoder 融合了两种成熟的视觉模型架构:SAM(Segment Anything Model)和 CLIP(Contrastive Language–Image Pre-training)。前者以窗口注意力机制(window attention)见长,擅长处理局部细节,构成了编码器的前半部分;后者则依赖密集的全局注意力机制(global attention),能够捕获整体知识信息。

两者之间,通过一个 16 倍下采样的卷积压缩模块进行桥接。一张高分辨率的文档图片输入后,首先由 SAM 高效地处理海量、分散的视觉特征,然后这些特征在进入计算成本高昂的全局注意力网络之前,被大幅压缩。这一“先分后总、先粗后精”的设计,有效解决了高分辨率图像处理中常见的内存溢出和 token 数量爆炸的问题。


图丨 DeepSeek-OCR 的架构(来源:GitHub)

而解码端则采用了 DeepSeek 自家的混合专家(Mixture-of-Experts, MoE)架构。MoE 模型通过将任务分发给不同的专家网络,能够在保持模型整体规模可控的前提下,实现强大的表达能力。在 DeepSeek-OCR 中,这个拥有约 5.7 亿激活参数的解码器,负责将 DeepEncoder 输出的压缩视觉 token“解压”还原为精准的文本序列。

为了验证这一新范式的有效性,DeepSeek 在 Fox 和 OmniDocBench 等 OCR 基准上检验了其压缩-解压过程是否可靠且信息无损。在针对包含 600 到 1,300 个文本 token 的英文文档测试中,DeepSeek-OCR 仅使用 64 或 100 个视觉 token 即可完成处理。数据显示,当压缩比(原始文本 token 数与所用视觉 token 数的比值)低于 10 倍时,模型的 OCR 解码精度可保持在 97% 以上。即使在压缩比达到 20 倍的情况下,准确率也依然能维持在 60% 左右。


(来源:GitHub)

在更侧重实际应用场景的 OmniDocBench 测试中,DeepSeek-OCR 的表现同样突出。相较于 GOT-OCR2.0(平均每页使用 256 个 token)和 MinerU2.0(平均每页使用超过 6000 个 token)等其他端到端模型,DeepSeek-OCR 在使用更少视觉 token 的情况下,整体性能达到了业界先进水平。

除了文本识别性能,DeepSeek-OCR 还具备较强的“深度解析”能力。这得益于其训练数据中包含了图表、化学分子式、几何图形等多样化的视觉内容。因此,模型不仅能识别标准文本,还能对文档中嵌入的复杂元素进行结构化解析。例如,它可以将报告中的图表转换为表格数据,将化学文献中的分子式输出为 SMILES 格式,或解析几何图形中的线段关系。这种超越传统文本识别的能力,拓展了其在金融、科研、教育等专业领域的应用空间。

值得注意的是,DeepSeek 已将 DeepSeek-OCR 的核心代码和模型权重开源,据其技术报告披露,在生产环境中,单张 A100-40G GPU 每日可处理超过 20 万页的文档数据。

当然,作为一项探索性的工作,DeepSeek-OCR 目前也存在一些局限。报告指出,当压缩比超过 10 倍后,模型性能会开始下降。这可能是因为长文档的复杂布局在高度压缩后信息损失增多,或是低分辨率图像导致文本细节模糊。此外,虽然模型展现了对多种元素的解析能力,但在处理一些极端复杂的版面时,其性能仍有提升空间。

而且,OCR 任务虽然提供了清晰的压缩-解压缩映射和可量化的评估指标,但文档识别与真实的多轮对话理解存在本质差异。前者主要考验模型的感知和解码能力,后者还涉及推理、记忆检索、上下文关联等更复杂的认知过程。

一份文档的各段落间相对独立,而对话的轮次间存在强依赖关系。将对话历史光学化后,模型能否依然保持对早期关键信息的有效检索,需要专门的“大海捞针”(needle-in-a-haystack)测试来验证。技术报告坦言,他们计划在未来进行数字文本与光学文本交错的预训练实验,以及长上下文检索准确性评估。

不过,DeepSeek-OCR 仍然是一个具有相当重要价值的工作,除了是一款性能出色的 OCR 工具,它还为视觉与语言两种模态的深度融合提供了新的思路。过去,视觉和语言通常被作为独立的输入源来处理,而 DeepSeek-OCR 的实践表明,两者或许可以互为信息压缩和解压的媒介。基于这一范式,未来或可探索将多轮对话的历史记录动态渲染成图像,以期用更低的成本管理更长的对话历史。同样,海量知识库也有可能被压缩成一系列紧凑的视觉索引,以提升模型的知识检索效率。

参考资料:

1.https://github.com/deepseek-ai/DeepSeek-OCR/tree/main

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
32克金项链不翼而飞,闺蜜全程陪同报警勘察!警方:小偷就是……卖了3.4万元

32克金项链不翼而飞,闺蜜全程陪同报警勘察!警方:小偷就是……卖了3.4万元

环球网资讯
2026-03-26 13:30:10
想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

过期少女致幻录
2026-03-26 11:44:43
心酸!湖南某乡镇一位小学教师哭诉年收入73150元,评论区炸锅了

心酸!湖南某乡镇一位小学教师哭诉年收入73150元,评论区炸锅了

火山詩话
2026-03-26 09:24:48
哪吒汽车破产覆灭,最讽刺的不是200亿债务,而是这个名字本身

哪吒汽车破产覆灭,最讽刺的不是200亿债务,而是这个名字本身

蜉蝣说
2026-03-25 10:54:58
小凯文-波特:为了维护科比,我要打破阿德巴约的83分纪录

小凯文-波特:为了维护科比,我要打破阿德巴约的83分纪录

懂球帝
2026-03-26 18:48:05
伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

大象新闻
2026-03-26 09:45:03
张雪峰前女友哭红眼,喊话不要给张雪峰泼脏水,曝两人分手原因

张雪峰前女友哭红眼,喊话不要给张雪峰泼脏水,曝两人分手原因

180视角
2026-03-26 14:51:03
伊朗女药剂师拒绝撤离,空袭第10天在“精准”打击下被“误杀”

伊朗女药剂师拒绝撤离,空袭第10天在“精准”打击下被“误杀”

网易新闻出品
2026-03-26 11:16:13
勇敢发声!科威特记者联合国痛批“反以仪式”

勇敢发声!科威特记者联合国痛批“反以仪式”

Nee看
2026-03-26 14:15:21
广东报告梅大高速“5·1”塌方灾害整改落实情况:发现公路隐患1.6万余处

广东报告梅大高速“5·1”塌方灾害整改落实情况:发现公路隐患1.6万余处

封面新闻
2026-03-26 15:36:07
突发传闻:封锁霍尔木兹的伊朗关键人物被击毙

突发传闻:封锁霍尔木兹的伊朗关键人物被击毙

桂系007
2026-03-26 16:19:32
41岁张雪峰去世后续,其婚姻被扒,已离婚6年,前妻很低调

41岁张雪峰去世后续,其婚姻被扒,已离婚6年,前妻很低调

180视角
2026-03-26 13:01:03
参加世界杯,每人先交1.5万刀!特朗普政策影响多个世界杯参赛国

参加世界杯,每人先交1.5万刀!特朗普政策影响多个世界杯参赛国

全景体育V
2026-03-26 08:16:09
俄罗斯主帅:FIFA把我们禁赛了,就算加入亚足联顶多踢亚洲杯

俄罗斯主帅:FIFA把我们禁赛了,就算加入亚足联顶多踢亚洲杯

懂球帝
2026-03-26 16:30:07
正脸曝光!强闯我使馆的村田晃大3月15日刚晋升,所持刀具刃长约18厘米

正脸曝光!强闯我使馆的村田晃大3月15日刚晋升,所持刀具刃长约18厘米

中国网
2026-03-26 14:01:45
博主被陌生网友辱骂3个月,默默观察其2年半,终于找到机会碰面了

博主被陌生网友辱骂3个月,默默观察其2年半,终于找到机会碰面了

离离言几许
2026-03-26 15:01:41
中国买了欧洲1000亿人民币的飞机:东航向空客购买101架A320

中国买了欧洲1000亿人民币的飞机:东航向空客购买101架A320

观察者网
2026-03-25 18:00:06
高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

沙雕小琳琳
2026-03-26 09:41:30
张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

火山詩话
2026-03-25 09:18:58
约基奇23+21+19创纪录!掘金险胜独行侠 穆雷53+9三分赛季新高

约基奇23+21+19创纪录!掘金险胜独行侠 穆雷53+9三分赛季新高

醉卧浮生
2026-03-26 12:35:12
2026-03-26 19:20:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16491文章数 514797关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
亲子
手机
艺术
本地

旅游要闻

世界那么大,来安美如画丨「与V四季行」倒计时1天,这份春日请柬请查收→

亲子要闻

上海美华妇儿医院"康复中心"完成全面升级并正式焕新启幕

手机要闻

顶配Ultra旗舰!vivo X300 Ultra配置公布:骁龙8E5+2K/144Hz直屏、8.19mm机身

艺术要闻

哪一座桥不是风景?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

无障碍浏览 进入关怀版