网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

重磅！DeepSeek再开源：视觉即压缩，100个token干翻7000个

2025-10-20 19:29:45　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：KingHZ

【新智元导读】一图胜千言！DeepSeek-OCR模型大胆探索视觉-文本压缩边界。通过少量视觉token解码出10倍以上的文本信息，这款端到端VLM架构不仅在OmniDocBench基准上碾压GOT-OCR2.0，还为LLM的长上下文问题提供高效解决方案。

DeepSeek再发新模型！

Github上，DeepSeek新建了DeepSeek-OCR仓库，目的是探索视觉-文本压缩的边界。

常言道：一图胜万言。对LLM也是如此！

在理论上，DeepSeek-OCR模型初步验证了「上下文光学压缩」的可行性——

从少量视觉token中，模型能够有效解码出超过其数量10倍的文本token。

也就是说，包含文档文本的单张图像，能以远少于等效文本的token量来表征丰富信息。

这表明通过视觉token进行光学压缩可以实现更高的压缩比。

作为连接视觉与语言的中间模态，OCR任务是视觉-文本压缩范式理想的试验场——

它在视觉与文本表征之间建立了天然的压缩-解压缩映射关系，同时提供可量化的评估指标。

在OCR任务上，DeepSeek-OCR有较高实用价值：在OmniDocBench基准测试中，仅用100个视觉token即超越GOT-OCR2.0（每页256token）；以少于800个视觉token的表现，优于MinerU2.0（平均每页6000+token）。

图(a)展示了在Fox基准测试中的压缩比（真实文本token数/模型使用的视觉token数）；图(b)展示了在OmniDocBench上的性能对比

在实际应用中，单张A100-40G显卡，可支持每日20万页以上的大语言模型/视觉语言模型训练数据生成。

新模型还能解析图表、化学方程式、简单几何图形和自然图像：

可以上下滚动的图片

在不同历史上下文阶段中，DeepSeek-OCR的视觉-文本压缩可减少7–20 倍的token，为解决大语言模型的长上下文问题提供了可行方向。

这一范式为重新思考视觉与语言模态的协同融合，进而提升大规模文本处理与智能体系统的计算效率，开辟了新的可能。

这一发现将有力推动视觉语言模型与大语言模型的未来发展。

Github：https://github.com/deepseek-ai/DeepSeek-OCR

HuggingFace：https://huggingface.co/deepseek-ai/DeepSeek-OCR

开源神器DeepSeek-OCR

探索上下文光学压缩

当前开源VLM（视觉语言模型）采用了三种主要的视觉编码器架构，但各有各的缺陷。

随着VLM的进步，许多端到端的OCR模型应运而生，根本性地改变了传统的管道架构，简化了OCR系统。

但有个核心问题：

对于一个包含1000个字的文档，至少需要多少个视觉token来解码？

这个问题对于研究「一画胜千言」的原则具有重要意义。

DeepSeek-OCR意在回答这一问题。它采用统一的端到端VLM架构，由编码器和解码器组成。

编码器（即DeepEncoder）负责提取图像特征，并对视觉表示进行token化与压缩处理。解码器则根据图像token和提示信息生成所需结果。

编码器：DeepEncoder创新架构

为了验证「上下文光学压缩」（context optical compression）的可行性，视觉编码器需要满足以下特性：

能处理高分辨率图像；
在高分辨率下保持较低的激活开销；
生成较少的视觉token；
支持多分辨率输入；
参数规模适中。

研究者提出了全新的视觉编码器DeepEncoder。DeepEncoder参数量约为3.8亿，主要由串联连接的SAM-base和CLIP-large构成。

视觉感知特征提取器，主要使用窗口注意力（window attention），主架构为8000万参数的SAM-base（patch-size 16）；

视觉知识特征提取器，采用密集全局注意力（dense global attention），主架构为3亿参数CLIP-large 。

在这两个组件之间是一个2层卷积模块，对视觉token进行16×下采样。

DeepEncoder会压缩图像打下，比如将输入大小为1024×1024的图像划分为1024/16×1024/16=4096个patch token。

编码器的前半部分由窗口注意力主导且只有80M参数，因此激活内存消耗是可接受的。

在进入全局注意力模块之前，4096个token通过压缩模块，最终token数量会减为4096/16=256，从而使得整体的激活内存消耗可控。

假设有一张包含1000个光学字符的图像，要想测试解码需要多少个视觉token，就要求模型能够支持可变数量的视觉token。

也就是说，DeepEncoder需要支持多种分辨率。

动态插值位置编码可满足上述需求。

研究者设计了多个分辨率模式，以便在模型训练过程中同时支持多种分辨率，从而实现单个DeepSeek-OCR模型支持多个分辨率的能力。

如下图4所示，DeepEncoder主要支持两种输入模式：原生分辨率和动态分辨率。每种模式下又包含多个子模式。

原生分辨率支持四种子模式：Tiny、Small、Base和Large。

动态分辨率由两种原生分辨率组合而成。

支持动态分辨率主要是为了应对超高分辨率输入（例如报纸图像）的应用需求。瓦片化（tiling）是一种二级窗口注意力方法，可以进一步有效减少激活内存消耗。

在Gundam模式下，DeepEncoder输出的视觉token数量为n×100+256，其中n为瓦片的数量

Gundam模式与四种原生分辨率模式一起训练，以实现一个模型支持多种分辨率的目标。

值得注意的是，Gundam-master模式（1024×1024的局部视图+1280×1280 的全局视图）是通过在已训练的DeepSeek-OCR模型上继续训练得到的。

下表1总结了各模式下的分辨率和token数。

解码器：DeepSeek-3B-MoE

解码器使用DeepSeekMoE，具体为DeepSeek-3B-MoE。

在推理过程中，该模型激活了6个路由专家和2个共享专家，总计激活了约5.7亿参数。

3B的DeepSeekMoE非常适合于以领域为中心的视觉语言模型（VLM）研究——

它能够获得3B模型的表达能力，同时享有类似500M小型模型的推理效率。

具体结果

在Fox基准集，研究者验证DeepSeek-OCR在文本密集型文档上的压缩与解压能力，初步探索「上下文光学压缩」的可行性与边界。

如下表2所示，在10×压缩比内，模型的解码精度可达约97%，这一结果极具潜力。

而且输出格式仍与Fox基准的格式并不完全一致，因此实际性能可能略高于测试结果。

未来，或可通过文本到图像（text-to-image）方法实现接近10×无损上下文压缩。

当压缩比超过10×时，性能开始下降，原因可能有二：

长文档布局更复杂；
长文本在512×512或640×640分辨率下出现模糊。

第一个问题可以通过将文本渲染到单页布局来缓解，而第二个问题则可能成为一种「遗忘机制」（forgetting mechanism）的自然表现。

当压缩比接近20×时，模型精度仍可维持在60%左右。

这些结果表明，光学上下文压缩（optical contexts compression）是一种极具前景且值得深入研究的方向。

更重要的是，这种方法不会带来额外的计算开销，因为它能够直接利用VLM基础设施——

多模态系统本身就内置视觉编码器，从而具备天然的支持条件。

DeepSeek-OCR还很实用，能够为LLM/VLM预训练构建数据。

在实际部署中，DeepSeek-OCR使用20个计算节点（每节点配备8张A100-40G GPU）每日可为LLM/VLM生成3300万页训练数据。

为了量化OCR性能，研究者在OmniDocBench上测试了DeepSeek-OCR，结果如表3所示。

在仅需100个视觉token（640×640分辨率）的情况下，DeepSeek-OCR超越了使用256个token的GOT-OCR2.0；
在400个token（其中285个有效 token，1280×1280分辨率）的情况下，模型在该基准测试中达到了与现有最先进模型相当的性能；
使用不到800个token（Gundam 模式），DeepSeek-OCR超过了需要近7000个视觉token的MinerU2.0。

这些结果表明，DeepSeek-OCR在实际应用中非常强大，且由于更高的 token 压缩，模型具有更高的研究上限。

如下表4所示，某些类型的文档，只需要非常少的token即可获得令人满意的性能。

对于书籍和报告类型文档，DeepSeek-OCR仅需100个视觉token即可达到良好的性能。这可能是因为这类文档中的大多数文本token数量在1,000以内，意味着视觉token压缩比不超过10×。

除了解析图表、化学方程式、简单几何图形和自然图像外，对于PDF文档，DeepSeek-OCR可以处理近100种语言。

如下图11所示，DeepSeek-OCR不仅在常见语言处理上表现出色，而且在多语言处理能力上也具有广泛的适用性，进一步增强了其在全球范围内的应用潜力。

DeepSeek-OCR具有某种程度的通用图像理解能力。

相关的可视化结果如图12所示，展示了该模型在图像描述、物体检测和语境定位（grounding）等任务中的表现。

详细结果和内容，见下列参考资料。

参考资料：

https://github.com/deepseek-ai/DeepSeek-OCR

https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

Being-VL的视觉BPE路线：把「看」和「说」真正统一起来

机器之心Pro 2025-10-09 10:59:57
0 跟贴 0
3D版ControlNet突破多模态控制，实现高精度3D资产生成

机器之心Pro 2025-09-29 16:10:08
0 跟贴 0

面向具身场景的生成式渲染器TC-Light来了，代码已开源

机器之心Pro 2025-09-25 18:44:02
0 跟贴 0

除夕重磅！千问开源Qwen3.5，最大吞吐量提升至19倍

DeepTech深科技 2026-02-16 21:37:36
1 跟贴 1
除夕迎「源神」？Qwen3.5以小胜大，大模型竞赛下半场开始了

机器之心Pro 2026-02-16 22:45:48
0 跟贴 0

阿里发布千问3.5，性能媲美Gemini 3， Token价格仅为其1/18

华尔街见闻官方 2026-02-16 18:15:01
42 跟贴 42

PosterGen：告别学术海报制作烦恼，从PDF生成可编辑PPTX学术海报

机器之心Pro 2025-09-04 18:05:43
0 跟贴 0
眼睛看到未必是真，视觉假象暗藏玄机，眼睛真的会骗人

搞笑君来了 2026-02-14 00:00:00
0 跟贴 0

让扩散模型「可解释」不再降质，开启图片编辑新思路

机器之心Pro 2025-12-16 14:37:44
0 跟贴 0
告别「面瘫」配音，InfiniteTalk开启从口型同步到全身表达新范式

机器之心Pro 2025-08-28 14:12:20
0 跟贴 0
AI遇上最强春节档 Token通胀已成必然？

财联社 2026-02-15 17:23:09
0 跟贴 0
视觉盛宴！樊振东德甲神球：都打削球了

小叶子侃球FM 2026-02-14 10:03:04
13 跟贴 13
AI催生巨量Token消耗、内存硬件紧缺算力租赁热潮下，运营商加码布局液冷服务器

每日经济新闻 2026-02-15 19:35:15
7 跟贴 7
剧透！2026春晚舞台科技感拉满

环球网资讯 2026-02-16 12:35:57
1099 跟贴 1099
好神奇！视觉的错位冲击，在看就要睡着了

讲事的少少 2026-02-15 10:45:49
1 跟贴 1
从太空望去,沙漠被照亮了,卫星图像显示,

默默世界 2026-02-16 14:37:48
1 跟贴 1
五角大楼"三号人物":美将通过实力而非对抗来威慑中国

澎湃新闻 2026-02-16 18:59:44
1617 跟贴 1617
女子将裙子穿在上半身，视觉上直接显瘦20斤，网友：上下身都互相嫌弃了吧

星沙时报 2026-02-14 10:31:59
0 跟贴 0
面壁智能开源全模态模型MiniCPM-o4.5，边看边听还能主动抢答

量子位 2026-02-05 23:20:12
0 跟贴 0
男子驾车返乡途中被猫锁在车外

极目新闻 2026-02-16 08:24:08
2889 跟贴 2889
视觉模型既懂语义，又能还原细节，南洋理工&商汤提出棱镜假说

机器之心Pro 2026-01-13 18:26:48
0 跟贴 0
比利时极简的高阶逻辑 / Nicolas Schuybroek

设计之旅 2026-02-16 12:17:52
0 跟贴 0
小伙徒手搓出一辆考斯特汽车模型，真的是太牛了

宸宸爱发明V 2026-02-15 13:44:08
4 跟贴 4
全能形态适配多元场景，这才是优秀全能本该有的样子

雷科技 2026-02-06 15:20:01
0 跟贴 0
最强开源大模型除夕登场！397B参数千问3.5超越Gemini 3

量子位 2026-02-16 19:08:19
11 跟贴 11
小鸟从小比较娇贵，必须要手养它才行，有了模型养几十只不是问题

发怒的福猫 2026-02-13 13:39:20
2 跟贴 2
实拍拉斯维加斯球幕剧院，视觉效果不一般，这设备放在中国得赔死

欢乐杠精 2026-02-15 10:47:00
0 跟贴 0
汽车厂：DeepSeek已成牛夫人，千问和豆包才是小甜甜

燃擎频道 2026-02-14 18:43:10
0 跟贴 0
充电速度快到可视化，电量肉眼可见上涨，这速度可以当暖风用了！

科创看生活 2026-02-14 09:09:26
275 跟贴 275
程序员不许写代码！OpenAI硬核实验：3人指挥AI，5个月造出百万行

新智元 2026-02-15 12:12:36
45 跟贴 45
涡扇19详细参数公开，推力逼近十二吨，歼35心脏不再是短板

超感科学 2026-02-14 11:31:36
0 跟贴 0
文本之神鸟鸟又发力了，句句不提杨子句句都是杨子

即使没有换位思考 2026-02-14 18:49:58
1 跟贴 1
年货盈门物阜民丰（新时代画卷）

中国网 2026-02-16 14:12:29
0 跟贴 0
全景视觉的Depth Anything来了！

机器之心Pro 2025-12-29 16:54:58
0 跟贴 0
仿真落地三难点：物理、视觉、交互

量子位 2025-12-12 04:34:09
0 跟贴 0
反向过年新潮流：老外扎堆来中国，单日飞三亚外国游客大增3倍

每日经济新闻 2026-02-15 11:30:33
1672 跟贴 1672
引入几何约束后，VLM跨越了「空间推理」的认知鸿沟

机器之心Pro 2026-01-12 17:17:59
0 跟贴 0
刚刚，春节杀手锏“源神”登场！

智东西 2026-02-16 19:15:13
1 跟贴 1
福建舰全体官兵祝全国人民新春快乐，福安体健

新华社 2026-02-16 12:48:45
62 跟贴 62
天机不再难测：英伟达开源AI气象模型，人人皆可预报未来15天

DeepTech深科技 2026-01-27 18:30:19
0 跟贴 0

1938年蒋介石决堤黄河，究竟淹死了多少日军？说出来你可能不信

1938年蒋介石决堤黄河，究竟淹死了多少日军？说出来你可能不信

小豫讲故事

2026-02-15 06:00:12

这真是刁民啊！大连一女子因违停被处罚，为发泄不满驾车撞向民警

这真是刁民啊！大连一女子因违停被处罚，为发泄不满驾车撞向民警

火山詩话

2026-02-15 16:25:00

纪实：四川18岁校花被51岁和尚藏禅房3个月，被解救时已神志不清

纪实：四川18岁校花被51岁和尚藏禅房3个月，被解救时已神志不清

谈史论天地

2026-02-05 12:38:12

终于跌了！金价大跳水，2月15日金条金店价新鲜出炉

终于跌了！金价大跳水，2月15日金条金店价新鲜出炉

坠入二次元的海洋

2026-02-16 10:51:00

王菲将六登春晚，还未开唱歌曲已经火了！原唱系“学霸乐队”，其讲述被选中过程：接到导演组电话称“有重量级歌手选中了你们的歌”

王菲将六登春晚，还未开唱歌曲已经火了！原唱系“学霸乐队”，其讲述被选中过程：接到导演组电话称“有重量级歌手选中了你们的歌”

每日经济新闻

2026-02-15 23:58:25

萨拉赫终于妥协！利物浦两大核心并肩作战，斯洛特帅位稳了？

萨拉赫终于妥协！利物浦两大核心并肩作战，斯洛特帅位稳了？

锐评利物浦

2026-02-16 23:44:47

朱之文女儿大婚仅1天，男方被扒底朝天，500万陪嫁传闻是冰山一角

朱之文女儿大婚仅1天，男方被扒底朝天，500万陪嫁传闻是冰山一角

寒士之言本尊

2026-02-15 11:07:01

最担心的还是来了，原来一切早有预兆，王竹卿：感谢举报的学生

最担心的还是来了，原来一切早有预兆，王竹卿：感谢举报的学生

离离言几许

2026-02-15 15:50:57

2026央视春晚：收视率高口碑差，观众意难平

2026央视春晚：收视率高口碑差，观众意难平

料峭春寒洞

2026-02-17 01:33:39

潮汕婚礼丈母娘火了，打扮娇艳比新娘还抢镜，网友：感觉有点不对

潮汕婚礼丈母娘火了，打扮娇艳比新娘还抢镜，网友：感觉有点不对

梅子的小情绪

2026-02-08 19:59:04

日媒：放书否认南京大屠杀的APA酒店老板死亡

日媒：放书否认南京大屠杀的APA酒店老板死亡

环球网资讯

2026-02-16 12:01:38

小学生“倒数第一”试卷又火了，老师:这孩子智商太高，我教不了

小学生“倒数第一”试卷又火了，老师:这孩子智商太高，我教不了

浩源的妈妈

2026-01-27 06:29:07

马伊琍做梦也想不到，43岁姚笛走了和文章一样的路，实现口碑暴涨

马伊琍做梦也想不到，43岁姚笛走了和文章一样的路，实现口碑暴涨

秋姐居

2026-02-07 09:36:47

可怕！断亲戚率高达63%！断亲现象已成为未来趋势

可怕！断亲戚率高达63%！断亲现象已成为未来趋势

另子维爱读史

2025-12-26 16:11:17

春节高速免费通行首日，有人提前两天上高速，恰好零点后通过，省1400元

春节高速免费通行首日，有人提前两天上高速，恰好零点后通过，省1400元

奇思妙想生活家

2026-02-17 04:05:07

王毅好猛，台当局暴怒！日本外交部的一句话，可把中国网友乐坏了

王毅好猛，台当局暴怒！日本外交部的一句话，可把中国网友乐坏了

东极妙严

2026-02-16 15:32:03

真正决定孩子未来的，不是学区房，不是补习班，而是你家的家风

真正决定孩子未来的，不是学区房，不是补习班，而是你家的家风

青苹果sht

2026-02-13 06:20:39

父亲给两个儿子取了同一个名字：博古之子秦刚传奇人生与时代印记

父亲给两个儿子取了同一个名字：博古之子秦刚传奇人生与时代印记

老籣说体育

2026-02-07 11:23:49

34分钟轰37分，差点搅乱联盟造星计划！你太耀眼了，但也快离开了

34分钟轰37分，差点搅乱联盟造星计划！你太耀眼了，但也快离开了

老梁体育漫谈

2026-02-16 21:59:20

董路社媒宣布！邝兆镭加盟青岛海牛，穿27号球衣，09年龄段第2人

董路社媒宣布！邝兆镭加盟青岛海牛，穿27号球衣，09年龄段第2人

奥拜尔

2026-02-16 16:24:17

AI产业主平台领航智能+时代

14546文章数 66628关注度

往期回顾全部

科技要闻

阿里除夕发布千问3.5，性能媲美Gemini 3

头条要闻

日方宣称向中方提出交涉中使馆驳斥

头条要闻

日方宣称向中方提出交涉中使馆驳斥

体育要闻

短道男子接力半决赛失误后刘少昂多次说"抱歉"

娱乐要闻

王菲六登春晚献唱水滴钻石耳环再出圈

财经要闻

2025，中国商业十大意外，黄金只排第九

汽车要闻

叫停纯屏操作工信部拟推车内实体操作件强制国标

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

房产

艺术

健康

公开课

家居要闻

中古雅韵乐韵伴日常

房产要闻

三亚新机场，又传出新消息！

艺术要闻

名家笔下话过年，别有风味！

转头就晕的耳石症，能开车上班吗？

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版