网易首页 > 网易号 > 正文 申请入驻

DeepSeek开源新成果!把长文档压缩成图片,降低大模型处理成本

0
分享至

DeepSeek 开源新成果了。

这次他们发布了一个名为 DeepSeek-OCR 的模型,尝试用一种新颖的“上下文光学压缩”方法,来解决当前大语言模型处理长篇文档时效率不高、成本过高的问题。

我们知道,大语言模型在处理几千字、几万字甚至更长的文本时,计算量会急剧增加,对算力和内存的要求非常高。这成了限制它们在很多需要处理海量文档场景中应用的一个瓶颈。

DeepSeek-OCR 的思路,就是想绕开这个难题。DeepSeek 团队指出,人类在阅读文档时,视觉系统扮演了至关重要的角色,能够快速捕捉和压缩页面布局、段落结构等信息。那么,机器是否也能模拟这一过程?DeepSeek-OCR 正是对这一设想的初步探索。

它的核心想法是,能不能不直接把长长的文字序列喂给语言模型?而是先把这些文字内容渲染成一张图片,然后利用高效的视觉模型对这张图片进行压缩和理解,最后只把压缩后的、数量少得多的视觉特征交给语言模型去“解压”和处理。

因此,它不只是个 OCR 工具,更像是一个为大模型打造的“视觉预处理器”,一个能把成千上万个文本 token 高效打包成几百个视觉 token 的压缩引擎。

DeepSeek-OCR 的架构设计主要由两大核心组件构成:DeepEncoder(深度编码器)和 DeepSeek-3B-MoE-A570M(一个拥有 30 亿参数、激活 5.7 亿参数的混合专家模型)解码器。

DeepEncoder 是整个系统的关键所在。它的设计目标在于,在处理高分辨率输入图像的同时,保持较低的激活内存,并实现极高的压缩比。为了达到这一目的,DeepEncoder 融合了两种成熟的视觉模型架构:SAM(Segment Anything Model)和 CLIP(Contrastive Language–Image Pre-training)。前者以窗口注意力机制(window attention)见长,擅长处理局部细节,构成了编码器的前半部分;后者则依赖密集的全局注意力机制(global attention),能够捕获整体知识信息。

两者之间,通过一个 16 倍下采样的卷积压缩模块进行桥接。一张高分辨率的文档图片输入后,首先由 SAM 高效地处理海量、分散的视觉特征,然后这些特征在进入计算成本高昂的全局注意力网络之前,被大幅压缩。这一“先分后总、先粗后精”的设计,有效解决了高分辨率图像处理中常见的内存溢出和 token 数量爆炸的问题。

而解码端则采用了 DeepSeek 自家的混合专家(Mixture-of-Experts, MoE)架构。MoE 模型通过将任务分发给不同的专家网络,能够在保持模型整体规模可控的前提下,实现强大的表达能力。在 DeepSeek-OCR 中,这个拥有约 5.7 亿激活参数的解码器,负责将 DeepEncoder 输出的压缩视觉 token“解压”还原为精准的文本序列。

为了验证这一新范式的有效性,DeepSeek 在 Fox 和 OmniDocBench 等 OCR 基准上检验了其压缩-解压过程是否可靠且信息无损。在针对包含 600 到 1,300 个文本 token 的英文文档测试中,DeepSeek-OCR 仅使用 64 或 100 个视觉 token 即可完成处理。数据显示,当压缩比(原始文本 token 数与所用视觉 token 数的比值)低于 10 倍时,模型的 OCR 解码精度可保持在 97% 以上。即使在压缩比达到 20 倍的情况下,准确率也依然能维持在 60% 左右。

在更侧重实际应用场景的 OmniDocBench 测试中,DeepSeek-OCR 的表现同样突出。相较于 GOT-OCR2.0(平均每页使用 256 个 token)和 MinerU2.0(平均每页使用超过 6000 个 token)等其他端到端模型,DeepSeek-OCR 在使用更少视觉 token 的情况下,整体性能达到了业界先进水平。

除了文本识别性能,DeepSeek-OCR 还具备较强的“深度解析”能力。这得益于其训练数据中包含了图表、化学分子式、几何图形等多样化的视觉内容。因此,模型不仅能识别标准文本,还能对文档中嵌入的复杂元素进行结构化解析。例如,它可以将报告中的图表转换为表格数据,将化学文献中的分子式输出为 SMILES 格式,或解析几何图形中的线段关系。这种超越传统文本识别的能力,拓展了其在金融、科研、教育等专业领域的应用空间。

值得注意的是,DeepSeek 已将 DeepSeek-OCR 的核心代码和模型权重开源,据其技术报告披露,在生产环境中,单张 A100-40G GPU 每日可处理超过 20 万页的文档数据。

当然,作为一项探索性的工作,DeepSeek-OCR 目前也存在一些局限。报告指出,当压缩比超过 10 倍后,模型性能会开始下降。这可能是因为长文档的复杂布局在高度压缩后信息损失增多,或是低分辨率图像导致文本细节模糊。此外,虽然模型展现了对多种元素的解析能力,但在处理一些极端复杂的版面时,其性能仍有提升空间。

而且,OCR 任务虽然提供了清晰的压缩-解压缩映射和可量化的评估指标,但文档识别与真实的多轮对话理解存在本质差异。前者主要考验模型的感知和解码能力,后者还涉及推理、记忆检索、上下文关联等更复杂的认知过程。

一份文档的各段落间相对独立,而对话的轮次间存在强依赖关系。将对话历史光学化后,模型能否依然保持对早期关键信息的有效检索,需要专门的“大海捞针”(needle-in-a-haystack)测试来验证。技术报告坦言,他们计划在未来进行数字文本与光学文本交错的预训练实验,以及长上下文检索准确性评估。

不过,DeepSeek-OCR 仍然是一个具有相当重要价值的工作,除了是一款性能出色的 OCR 工具,它还为视觉与语言两种模态的深度融合提供了新的思路。过去,视觉和语言通常被作为独立的输入源来处理,而 DeepSeek-OCR 的实践表明,两者或许可以互为信息压缩和解压的媒介。基于这一范式,未来或可探索将多轮对话的历史记录动态渲染成图像,以期用更低的成本管理更长的对话历史。同样,海量知识库也有可能被压缩成一系列紧凑的视觉索引,以提升模型的知识检索效率。

参考资料:

1.https://github.com/deepseek-ai/DeepSeek-OCR/tree/main

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人民大会堂最特别的房间,只用三个数字,懂的人都懂分量有多重

人民大会堂最特别的房间,只用三个数字,懂的人都懂分量有多重

贱议你读史
2026-04-30 03:40:03
俄罗斯发动全面战争以来最大规模空袭,超1400架无人机袭击乌克兰

俄罗斯发动全面战争以来最大规模空袭,超1400架无人机袭击乌克兰

山河路口
2026-05-14 16:31:39
现实版科幻片!长征六号成功发射,划破河南夜空惊现发光水母云!

现实版科幻片!长征六号成功发射,划破河南夜空惊现发光水母云!

暖心萌阿菇凉
2026-05-13 18:50:05
成人片女星许诺萨福诺夫夺欧冠将共度良宵,球员妻子爆粗回应

成人片女星许诺萨福诺夫夺欧冠将共度良宵,球员妻子爆粗回应

懂球帝
2026-05-14 15:58:14
三过草地的女红军当农民,朱老总怒斥当地领导:你知道她是谁吗?

三过草地的女红军当农民,朱老总怒斥当地领导:你知道她是谁吗?

史之铭
2026-05-07 20:06:03
随特朗普抵京:马斯克第四个下机 黄仁勋换上西装

随特朗普抵京:马斯克第四个下机 黄仁勋换上西装

看看新闻Knews
2026-05-14 01:34:05
重磅!皇马与穆帅敲定3年执教合同!只待本菲卡赛季结束后,官宣

重磅!皇马与穆帅敲定3年执教合同!只待本菲卡赛季结束后,官宣

福酱的小时光
2026-05-14 06:27:54
看到中国给了特朗普最高礼遇,欧盟干脆做了最坏的打算?

看到中国给了特朗普最高礼遇,欧盟干脆做了最坏的打算?

爆笑大聪明阿衿
2026-05-14 17:44:09
NBA球队老板手撕华裔女猎手:100亿的仙人跳 搞砸了

NBA球队老板手撕华裔女猎手:100亿的仙人跳 搞砸了

慕容律师
2026-05-13 14:15:09
酸破防了!多国上演“葡萄心理”,眼红特朗普访华被中国顶级礼遇

酸破防了!多国上演“葡萄心理”,眼红特朗普访华被中国顶级礼遇

李博世财经
2026-05-14 17:06:56
拉脱维亚总理宣布决定辞职

拉脱维亚总理宣布决定辞职

大象新闻
2026-05-14 17:06:04
俄军苏57首开记录?乌军预警机刚到手没几天,就被“斩落马下”

俄军苏57首开记录?乌军预警机刚到手没几天,就被“斩落马下”

混沌录
2026-05-13 17:57:22
俄总统新闻秘书:只要美国不再把经贸合作与乌克兰问题挂钩,俄愿同美开展商业往来

俄总统新闻秘书:只要美国不再把经贸合作与乌克兰问题挂钩,俄愿同美开展商业往来

极目新闻
2026-05-14 09:58:58
访华前,特朗普突然发现:自己把中国“看错了”,这回得加钱

访华前,特朗普突然发现:自己把中国“看错了”,这回得加钱

生性洒脱
2026-05-14 19:40:26
超萌!马斯克幼子随父现身人民大会堂

超萌!马斯克幼子随父现身人民大会堂

澎湃新闻
2026-05-14 19:29:09
中美元首会谈结束

中美元首会谈结束

澎湃新闻
2026-05-14 14:11:04
马斯克发帖炫耀:只有黄仁勋我们两个在空军一号上

马斯克发帖炫耀:只有黄仁勋我们两个在空军一号上

微微热评
2026-05-13 22:30:04
扎心!朋友孩子的班34人处于“零就业”状态,引热议

扎心!朋友孩子的班34人处于“零就业”状态,引热议

火山詩话
2026-05-13 15:02:14
通车首日就翻车!这座让台湾等了40年的大桥,竟成了谁的生日派对

通车首日就翻车!这座让台湾等了40年的大桥,竟成了谁的生日派对

菁菁子衿
2026-05-14 10:03:53
最后一刻才叫上黄仁勋,是谁想要晾着他?

最后一刻才叫上黄仁勋,是谁想要晾着他?

南风窗
2026-05-14 12:21:15
2026-05-14 20:23:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16700文章数 514955关注度
往期回顾 全部

科技要闻

马斯克说会谈很顺利 黄仁勋点赞 库克比耶

头条要闻

外媒询问中方对鲁比奥的制裁是否已经解除 外交部回应

头条要闻

外媒询问中方对鲁比奥的制裁是否已经解除 外交部回应

体育要闻

争议抽象天王山,和季后赛最稳定中锋

娱乐要闻

何九华官宣当爸!全程不提孩子妈

财经要闻

李强会见美国工商界代表

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

艺术
本地
游戏
旅游
公开课

艺术要闻

美国务卿鲁比奥点赞中式美学,实景令人惊叹!

本地新闻

用苏绣的方式,打开江西婺源

LPL第二赛段:不拖的涅槃,就是好涅槃!LNG零封LGD

旅游要闻

半价or免票?5月17日-19日,崇明这些景点参与优惠活动

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版