网易首页 > 网易号 > 正文 申请入驻

DeepSeek开源新成果!把长文档压缩成图片,降低大模型处理成本

0
分享至

DeepSeek 开源新成果了。

这次他们发布了一个名为 DeepSeek-OCR 的模型,尝试用一种新颖的“上下文光学压缩”方法,来解决当前大语言模型处理长篇文档时效率不高、成本过高的问题。


(来源:GitHub)

我们知道,大语言模型在处理几千字、几万字甚至更长的文本时,计算量会急剧增加,对算力和内存的要求非常高。这成了限制它们在很多需要处理海量文档场景中应用的一个瓶颈。


图丨流行视觉语言模型中的典型视觉编码器(来源:GitHub)

DeepSeek-OCR 的思路,就是想绕开这个难题。DeepSeek 团队指出,人类在阅读文档时,视觉系统扮演了至关重要的角色,能够快速捕捉和压缩页面布局、段落结构等信息。那么,机器是否也能模拟这一过程?DeepSeek-OCR 正是对这一设想的初步探索。

它的核心想法是,能不能不直接把长长的文字序列喂给语言模型?而是先把这些文字内容渲染成一张图片,然后利用高效的视觉模型对这张图片进行压缩和理解,最后只把压缩后的、数量少得多的视觉特征交给语言模型去“解压”和处理。

因此,它不只是个 OCR 工具,更像是一个为大模型打造的“视觉预处理器”,一个能把成千上万个文本 token 高效打包成几百个视觉 token 的压缩引擎。

DeepSeek-OCR 的架构设计主要由两大核心组件构成:DeepEncoder(深度编码器)和 DeepSeek-3B-MoE-A570M(一个拥有 30 亿参数、激活 5.7 亿参数的混合专家模型)解码器。

DeepEncoder 是整个系统的关键所在。它的设计目标在于,在处理高分辨率输入图像的同时,保持较低的激活内存,并实现极高的压缩比。为了达到这一目的,DeepEncoder 融合了两种成熟的视觉模型架构:SAM(Segment Anything Model)和 CLIP(Contrastive Language–Image Pre-training)。前者以窗口注意力机制(window attention)见长,擅长处理局部细节,构成了编码器的前半部分;后者则依赖密集的全局注意力机制(global attention),能够捕获整体知识信息。

两者之间,通过一个 16 倍下采样的卷积压缩模块进行桥接。一张高分辨率的文档图片输入后,首先由 SAM 高效地处理海量、分散的视觉特征,然后这些特征在进入计算成本高昂的全局注意力网络之前,被大幅压缩。这一“先分后总、先粗后精”的设计,有效解决了高分辨率图像处理中常见的内存溢出和 token 数量爆炸的问题。


图丨 DeepSeek-OCR 的架构(来源:GitHub)

而解码端则采用了 DeepSeek 自家的混合专家(Mixture-of-Experts, MoE)架构。MoE 模型通过将任务分发给不同的专家网络,能够在保持模型整体规模可控的前提下,实现强大的表达能力。在 DeepSeek-OCR 中,这个拥有约 5.7 亿激活参数的解码器,负责将 DeepEncoder 输出的压缩视觉 token“解压”还原为精准的文本序列。

为了验证这一新范式的有效性,DeepSeek 在 Fox 和 OmniDocBench 等 OCR 基准上检验了其压缩-解压过程是否可靠且信息无损。在针对包含 600 到 1,300 个文本 token 的英文文档测试中,DeepSeek-OCR 仅使用 64 或 100 个视觉 token 即可完成处理。数据显示,当压缩比(原始文本 token 数与所用视觉 token 数的比值)低于 10 倍时,模型的 OCR 解码精度可保持在 97% 以上。即使在压缩比达到 20 倍的情况下,准确率也依然能维持在 60% 左右。


(来源:GitHub)

在更侧重实际应用场景的 OmniDocBench 测试中,DeepSeek-OCR 的表现同样突出。相较于 GOT-OCR2.0(平均每页使用 256 个 token)和 MinerU2.0(平均每页使用超过 6000 个 token)等其他端到端模型,DeepSeek-OCR 在使用更少视觉 token 的情况下,整体性能达到了业界先进水平。

除了文本识别性能,DeepSeek-OCR 还具备较强的“深度解析”能力。这得益于其训练数据中包含了图表、化学分子式、几何图形等多样化的视觉内容。因此,模型不仅能识别标准文本,还能对文档中嵌入的复杂元素进行结构化解析。例如,它可以将报告中的图表转换为表格数据,将化学文献中的分子式输出为 SMILES 格式,或解析几何图形中的线段关系。这种超越传统文本识别的能力,拓展了其在金融、科研、教育等专业领域的应用空间。

值得注意的是,DeepSeek 已将 DeepSeek-OCR 的核心代码和模型权重开源,据其技术报告披露,在生产环境中,单张 A100-40G GPU 每日可处理超过 20 万页的文档数据。

当然,作为一项探索性的工作,DeepSeek-OCR 目前也存在一些局限。报告指出,当压缩比超过 10 倍后,模型性能会开始下降。这可能是因为长文档的复杂布局在高度压缩后信息损失增多,或是低分辨率图像导致文本细节模糊。此外,虽然模型展现了对多种元素的解析能力,但在处理一些极端复杂的版面时,其性能仍有提升空间。

而且,OCR 任务虽然提供了清晰的压缩-解压缩映射和可量化的评估指标,但文档识别与真实的多轮对话理解存在本质差异。前者主要考验模型的感知和解码能力,后者还涉及推理、记忆检索、上下文关联等更复杂的认知过程。

一份文档的各段落间相对独立,而对话的轮次间存在强依赖关系。将对话历史光学化后,模型能否依然保持对早期关键信息的有效检索,需要专门的“大海捞针”(needle-in-a-haystack)测试来验证。技术报告坦言,他们计划在未来进行数字文本与光学文本交错的预训练实验,以及长上下文检索准确性评估。

不过,DeepSeek-OCR 仍然是一个具有相当重要价值的工作,除了是一款性能出色的 OCR 工具,它还为视觉与语言两种模态的深度融合提供了新的思路。过去,视觉和语言通常被作为独立的输入源来处理,而 DeepSeek-OCR 的实践表明,两者或许可以互为信息压缩和解压的媒介。基于这一范式,未来或可探索将多轮对话的历史记录动态渲染成图像,以期用更低的成本管理更长的对话历史。同样,海量知识库也有可能被压缩成一系列紧凑的视觉索引,以提升模型的知识检索效率。

参考资料:

1.https://github.com/deepseek-ai/DeepSeek-OCR/tree/main

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突发!深圳一上市公司董事长,被安徽颍上县监察委立案调查,并实施管护,上月他还向大学捐赠王阳明雕像

突发!深圳一上市公司董事长,被安徽颍上县监察委立案调查,并实施管护,上月他还向大学捐赠王阳明雕像

每日经济新闻
2025-11-03 23:30:08
墨西哥牛油果之都市长怀抱幼子被当众枪杀,曾誓言根除贩毒集团,该州4年7位市长遇害

墨西哥牛油果之都市长怀抱幼子被当众枪杀,曾誓言根除贩毒集团,该州4年7位市长遇害

红星新闻
2025-11-03 14:06:23
演都不演了!全红婵复出夺冠不到24小时,三大恶心情况发生了

演都不演了!全红婵复出夺冠不到24小时,三大恶心情况发生了

丁丁鲤史纪
2025-11-03 14:55:34
突发!美国海军船厂发生大规模械斗死伤惨重,核航母潜艇受损!

突发!美国海军船厂发生大规模械斗死伤惨重,核航母潜艇受损!

李博世财经
2025-11-03 17:17:48
要熬多久,我们的经济才能反弹?

要熬多久,我们的经济才能反弹?

流苏晚晴
2025-11-03 19:04:51
李在明支持率53%,高市早苗支持率82%

李在明支持率53%,高市早苗支持率82%

天真无牙
2025-11-03 13:32:06
工信部突然鼓励燃油车?给燃油车补贴,释放什么信号?

工信部突然鼓励燃油车?给燃油车补贴,释放什么信号?

大道微言
2025-11-01 08:58:16
00年空姐女神!超模身材+明星脸,这身材颜值真的绝了,你喜欢吗

00年空姐女神!超模身材+明星脸,这身材颜值真的绝了,你喜欢吗

素然追光
2025-10-17 02:45:03
伊朗披露哈马斯前领导人哈尼亚遇刺细节:一枚导弹“击穿窗户”,他当时正在打电话

伊朗披露哈马斯前领导人哈尼亚遇刺细节:一枚导弹“击穿窗户”,他当时正在打电话

环球网资讯
2025-11-03 19:44:58
从张家界赤裸裸搞钱的所长到怀化蛮横扣人的所长,都有湘西遗风

从张家界赤裸裸搞钱的所长到怀化蛮横扣人的所长,都有湘西遗风

细雨中的呼喊
2025-11-03 12:02:05
10岁患儿被切除6个器官迎来反转!舆论从网暴医生,转为网暴父母

10岁患儿被切除6个器官迎来反转!舆论从网暴医生,转为网暴父母

垛垛糖
2025-11-03 14:51:45
卫冕冠军遭绝杀!全运会浙江0-1 末轮不胜山东=出局 王钰栋被换下

卫冕冠军遭绝杀!全运会浙江0-1 末轮不胜山东=出局 王钰栋被换下

我爱英超
2025-11-03 18:46:32
四川:完全赞成、坚决拥护

四川:完全赞成、坚决拥护

新京报政事儿
2025-11-03 18:55:01
特朗普访华安排有变,他提出的时间表,中方不同意,推迟了2个月

特朗普访华安排有变,他提出的时间表,中方不同意,推迟了2个月

影孖看世界
2025-11-03 18:41:30
国民党主席位置坐稳,郑丽文摊牌了:两岸不回归和平,其他是侈谈

国民党主席位置坐稳,郑丽文摊牌了:两岸不回归和平,其他是侈谈

晓鰀爱八卦
2025-11-02 13:48:27
3换3!交易彻底失败!西部最烂球队诞生

3换3!交易彻底失败!西部最烂球队诞生

篮球实战宝典
2025-11-04 00:03:53
台湾问题已接近“临界点”,两大信号已释放,大陆可能要动手了!

台湾问题已接近“临界点”,两大信号已释放,大陆可能要动手了!

小lu侃侃而谈
2025-11-03 19:21:05
正式签协议前,美代表翻脸了,将继续对华调查,我外交部斩钉截铁

正式签协议前,美代表翻脸了,将继续对华调查,我外交部斩钉截铁

玉涵简书
2025-11-03 15:33:06
疑似张智栋前同事发文:北大高材生,成为世界闻名大毒枭

疑似张智栋前同事发文:北大高材生,成为世界闻名大毒枭

吃瓜体
2025-11-03 11:15:35
美交通部长称或因政府“停摆”关闭空域

美交通部长称或因政府“停摆”关闭空域

界面新闻
2025-11-03 22:37:43
2025-11-04 04:00:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15815文章数 514261关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

日本组建特种作战旅 主要面向海外作战

头条要闻

日本组建特种作战旅 主要面向海外作战

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

男导演曝丑闻 蒋欣的含金量还在上升

财经要闻

最新省市GDP:谁在飙升,谁掉队了?

汽车要闻

环比增长28.7% 方程豹品牌10月销量31052辆

态度原创

健康
教育
房产
手机
艺术

超声探头会加重受伤情况吗?

教育要闻

康熙身边的洋顾问

房产要闻

信达·繁花里 | 老照片征集活动 温情启幕

手机要闻

华为突然推送3.68GB大更新:Pura 80获推,你收到更新了吗?

艺术要闻

这21位欧美女神,惊艳得让人窒息!

无障碍浏览 进入关怀版