网易首页 > 网易号 > 正文 申请入驻

DeepSeek开源新成果!把长文档压缩成图片,降低大模型处理成本

0
分享至

DeepSeek 开源新成果了。

这次他们发布了一个名为 DeepSeek-OCR 的模型,尝试用一种新颖的“上下文光学压缩”方法,来解决当前大语言模型处理长篇文档时效率不高、成本过高的问题。


(来源:GitHub)

我们知道,大语言模型在处理几千字、几万字甚至更长的文本时,计算量会急剧增加,对算力和内存的要求非常高。这成了限制它们在很多需要处理海量文档场景中应用的一个瓶颈。


图丨流行视觉语言模型中的典型视觉编码器(来源:GitHub)

DeepSeek-OCR 的思路,就是想绕开这个难题。DeepSeek 团队指出,人类在阅读文档时,视觉系统扮演了至关重要的角色,能够快速捕捉和压缩页面布局、段落结构等信息。那么,机器是否也能模拟这一过程?DeepSeek-OCR 正是对这一设想的初步探索。

它的核心想法是,能不能不直接把长长的文字序列喂给语言模型?而是先把这些文字内容渲染成一张图片,然后利用高效的视觉模型对这张图片进行压缩和理解,最后只把压缩后的、数量少得多的视觉特征交给语言模型去“解压”和处理。

因此,它不只是个 OCR 工具,更像是一个为大模型打造的“视觉预处理器”,一个能把成千上万个文本 token 高效打包成几百个视觉 token 的压缩引擎。

DeepSeek-OCR 的架构设计主要由两大核心组件构成:DeepEncoder(深度编码器)和 DeepSeek-3B-MoE-A570M(一个拥有 30 亿参数、激活 5.7 亿参数的混合专家模型)解码器。

DeepEncoder 是整个系统的关键所在。它的设计目标在于,在处理高分辨率输入图像的同时,保持较低的激活内存,并实现极高的压缩比。为了达到这一目的,DeepEncoder 融合了两种成熟的视觉模型架构:SAM(Segment Anything Model)和 CLIP(Contrastive Language–Image Pre-training)。前者以窗口注意力机制(window attention)见长,擅长处理局部细节,构成了编码器的前半部分;后者则依赖密集的全局注意力机制(global attention),能够捕获整体知识信息。

两者之间,通过一个 16 倍下采样的卷积压缩模块进行桥接。一张高分辨率的文档图片输入后,首先由 SAM 高效地处理海量、分散的视觉特征,然后这些特征在进入计算成本高昂的全局注意力网络之前,被大幅压缩。这一“先分后总、先粗后精”的设计,有效解决了高分辨率图像处理中常见的内存溢出和 token 数量爆炸的问题。


图丨 DeepSeek-OCR 的架构(来源:GitHub)

而解码端则采用了 DeepSeek 自家的混合专家(Mixture-of-Experts, MoE)架构。MoE 模型通过将任务分发给不同的专家网络,能够在保持模型整体规模可控的前提下,实现强大的表达能力。在 DeepSeek-OCR 中,这个拥有约 5.7 亿激活参数的解码器,负责将 DeepEncoder 输出的压缩视觉 token“解压”还原为精准的文本序列。

为了验证这一新范式的有效性,DeepSeek 在 Fox 和 OmniDocBench 等 OCR 基准上检验了其压缩-解压过程是否可靠且信息无损。在针对包含 600 到 1,300 个文本 token 的英文文档测试中,DeepSeek-OCR 仅使用 64 或 100 个视觉 token 即可完成处理。数据显示,当压缩比(原始文本 token 数与所用视觉 token 数的比值)低于 10 倍时,模型的 OCR 解码精度可保持在 97% 以上。即使在压缩比达到 20 倍的情况下,准确率也依然能维持在 60% 左右。


(来源:GitHub)

在更侧重实际应用场景的 OmniDocBench 测试中,DeepSeek-OCR 的表现同样突出。相较于 GOT-OCR2.0(平均每页使用 256 个 token)和 MinerU2.0(平均每页使用超过 6000 个 token)等其他端到端模型,DeepSeek-OCR 在使用更少视觉 token 的情况下,整体性能达到了业界先进水平。

除了文本识别性能,DeepSeek-OCR 还具备较强的“深度解析”能力。这得益于其训练数据中包含了图表、化学分子式、几何图形等多样化的视觉内容。因此,模型不仅能识别标准文本,还能对文档中嵌入的复杂元素进行结构化解析。例如,它可以将报告中的图表转换为表格数据,将化学文献中的分子式输出为 SMILES 格式,或解析几何图形中的线段关系。这种超越传统文本识别的能力,拓展了其在金融、科研、教育等专业领域的应用空间。

值得注意的是,DeepSeek 已将 DeepSeek-OCR 的核心代码和模型权重开源,据其技术报告披露,在生产环境中,单张 A100-40G GPU 每日可处理超过 20 万页的文档数据。

当然,作为一项探索性的工作,DeepSeek-OCR 目前也存在一些局限。报告指出,当压缩比超过 10 倍后,模型性能会开始下降。这可能是因为长文档的复杂布局在高度压缩后信息损失增多,或是低分辨率图像导致文本细节模糊。此外,虽然模型展现了对多种元素的解析能力,但在处理一些极端复杂的版面时,其性能仍有提升空间。

而且,OCR 任务虽然提供了清晰的压缩-解压缩映射和可量化的评估指标,但文档识别与真实的多轮对话理解存在本质差异。前者主要考验模型的感知和解码能力,后者还涉及推理、记忆检索、上下文关联等更复杂的认知过程。

一份文档的各段落间相对独立,而对话的轮次间存在强依赖关系。将对话历史光学化后,模型能否依然保持对早期关键信息的有效检索,需要专门的“大海捞针”(needle-in-a-haystack)测试来验证。技术报告坦言,他们计划在未来进行数字文本与光学文本交错的预训练实验,以及长上下文检索准确性评估。

不过,DeepSeek-OCR 仍然是一个具有相当重要价值的工作,除了是一款性能出色的 OCR 工具,它还为视觉与语言两种模态的深度融合提供了新的思路。过去,视觉和语言通常被作为独立的输入源来处理,而 DeepSeek-OCR 的实践表明,两者或许可以互为信息压缩和解压的媒介。基于这一范式,未来或可探索将多轮对话的历史记录动态渲染成图像,以期用更低的成本管理更长的对话历史。同样,海量知识库也有可能被压缩成一系列紧凑的视觉索引,以提升模型的知识检索效率。

参考资料:

1.https://github.com/deepseek-ai/DeepSeek-OCR/tree/main

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“王家卫说唐嫣很装”热搜爆了!7段录音曝光,涉刘诗诗、陈道明、游本昌......

“王家卫说唐嫣很装”热搜爆了!7段录音曝光,涉刘诗诗、陈道明、游本昌......

新民周刊
2025-11-01 14:34:39
上海37岁无业男砸金店,不抢金不反抗不伤人,背后隐情让人心酸

上海37岁无业男砸金店,不抢金不反抗不伤人,背后隐情让人心酸

水泥土的搞笑
2025-11-02 07:58:58
救谁?乌军特种部队乘黑鹰直升机突袭红军城,被俄军全歼!

救谁?乌军特种部队乘黑鹰直升机突袭红军城,被俄军全歼!

胜研集
2025-11-01 18:30:20
2026年,这6大变化可能全面爆发!谁先看懂,谁就领先一步

2026年,这6大变化可能全面爆发!谁先看懂,谁就领先一步

小白鸽财经
2025-10-21 08:45:47
锁姐医美失败的瓜

锁姐医美失败的瓜

热闹吃瓜大姐
2025-10-31 19:50:29
果然,见完中方,高市早苗连续2天会见台独,外交部的回应不简单

果然,见完中方,高市早苗连续2天会见台独,外交部的回应不简单

林子说事
2025-11-02 05:56:22
用了30年的不粘不锈钢锅要复产了,预售价60元!

用了30年的不粘不锈钢锅要复产了,预售价60元!

恪守原则和底线
2025-11-01 05:10:03
秦雯袭警完整录音曝光!事后还拿下三八红旗手,多家官媒呼吁彻查

秦雯袭警完整录音曝光!事后还拿下三八红旗手,多家官媒呼吁彻查

古希腊掌管月桂的神
2025-11-02 11:38:53
1979年打越南,邓小平提前放出口风没人相信,为何唯独李光耀深信

1979年打越南,邓小平提前放出口风没人相信,为何唯独李光耀深信

南书房
2025-10-24 16:01:25
斯诺克战报!中国军团1胜2负,周跃龙大逆转,白雨露145分创纪录

斯诺克战报!中国军团1胜2负,周跃龙大逆转,白雨露145分创纪录

刘姚尧的文字城堡
2025-11-02 14:30:57
央视点名批评后破产!烧光84亿造不出一辆车,员工花5000万买零食

央视点名批评后破产!烧光84亿造不出一辆车,员工花5000万买零食

夜深爱杂谈
2025-11-01 21:32:14
活久见!山东一租客租了17年房子,房东要卖房,租客说有她的一半

活久见!山东一租客租了17年房子,房东要卖房,租客说有她的一半

恪守原则和底线
2025-10-31 15:54:46
震惊!李连杰贴了假皮肤?豪宅泳池光膀子自证清白,引发网友质疑

震惊!李连杰贴了假皮肤?豪宅泳池光膀子自证清白,引发网友质疑

火山诗话
2025-11-02 11:19:05
当中国拥有30艘055型大驱逐舰时,世界将是何种格局!

当中国拥有30艘055型大驱逐舰时,世界将是何种格局!

近史博览
2025-11-01 16:33:21
又一则励志新闻翻车了!

又一则励志新闻翻车了!

清书先生
2025-10-21 15:51:40
最新!金股名单来了

最新!金股名单来了

中国基金报
2025-11-02 12:50:11
谍战剧要卷起来啦!七部待播大剧,谁会一骑绝尘呢?

谍战剧要卷起来啦!七部待播大剧,谁会一骑绝尘呢?

君笙的拂兮
2025-11-02 14:31:54
再有钱,在权力面前屁都不是

再有钱,在权力面前屁都不是

霹雳炮
2024-08-29 21:53:04
突发特讯!外交部通告全球:就日本领导人涉台错误言行,强烈敦促日方反思纠错,罕见言辞引爆国际舆论

突发特讯!外交部通告全球:就日本领导人涉台错误言行,强烈敦促日方反思纠错,罕见言辞引爆国际舆论

在新加坡生活
2025-11-02 00:26:12
手机时代被抛弃的诺基亚,为何被黄仁勋重新捡起?

手机时代被抛弃的诺基亚,为何被黄仁勋重新捡起?

Barrons巴伦
2025-10-30 18:11:10
2025-11-02 15:47:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15807文章数 514254关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

"最快女护士"张水华获得"复出"后首个全马冠军

头条要闻

"最快女护士"张水华获得"复出"后首个全马冠军

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

离世的他曾是刘德华张学友御用班底

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

时尚
手机
教育
本地
军事航空

推广|| 每天都在穿!这件外套,轻松搞定秋冬所有搭配

手机要闻

W43周单品销量Top30出炉,苹果霸占前三

教育要闻

全国青少年信息奥赛常州考点,江苏优秀学子在此集聚,祝他们好运

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

军事要闻

俄在日本海演习击沉假想敌潜艇

无障碍浏览 进入关怀版