DeepSeek-OCR 发布：1个视觉token，抵得上10个文本token|ocr|上下文|deepseek|图像生成基础模型

DeepSeek-OCR 发布：1个视觉token，抵得上10个文本token

2025-10-20 20:49:02　来源: 赛博禅心

北京举报

分享至

之前和 OpenAI 的做交流，突然提了一个问题
文字，是信息压缩的最好方式吗？

当时没想太多，直到今天
DeepSeek 开源了 DeepSeek-OCR
用 10 个视觉 token，表达 100 个文本 token

github.com/deepseek-ai/DeepSeek-OCR

我突然意识到：这个问题可能有答案了
具体对比：

• DeepSeek-OCR 用 100 个 token ，超过了 GOT-OCR2.0 的 256 个 token
• DeepSeek-OCR 用 800 个 token ，超过了 MinerU2.0 的 6000+ token
• 即使压缩到 20 倍 ，准确率还有 60%

DeepSeek-OCR在不同压缩比下的准确率为什么重要

现在所有的多模态大模型都面临一个瓶颈：
token 消耗太多了

处理一页 PDF 就要消耗几千个 token
如果你想处理一本书、一份研究报告、一堆财务文档
context window 立刻就爆了
每个 token 都要算钱、消耗显存、拖慢推理速度

DeepSeek-OCR 用数据告诉你
10 倍压缩，几乎无损

信息论视角

对于这个问题
Hacker News 上展开了很大的讨论

是当前 Hacker News 上的最火话题

"为什么这种方法有效？"
"是不是文本 token 太粒状了，没接近理想的熵编码？"
"切换到视觉 token 是不是逃脱了'一次一个词'的限制？"

Hacker News 评论第一条

有个回答说的很有意思
文本 token 本质上是离散的查找表
你有个小整数（token ID）
然后查表得到一个向量

但视觉 token 是连续值向量
没有查找表
直接从图像编码成向量

这意味着什么？
文本 token 的「token 空间」是有限的
通常就 10 万个可能的 token
每个 token 对应一小段 UTF-8 字节
而且大多数分词器不会创建跨越词边界的 token

视觉 token 的「token 空间」要大得多
它是高维浮点数向量，每个维度都可以取很多值
所以视觉 token 能传达更多的 bits per token
这才是压缩的关键

图片

另一个人补充
文本 token 是子词单元
视觉 token 在语义空间
语义空间显然比子词切片压缩得多

免责声明：我不懂

还有人从视觉角度解释
人类就是通过视觉看文本的
所以文本必须有适应视觉噪声的机制
看起来相似的词不能出现在相似的上下文
否则会混淆

挺有意思的
文本为了适应视觉识别
反而在编码上有些"冗余"
而视觉 token 直接在语义空间工作
可以更高效
所以 10 倍的压缩比

从信息论角度看
其实挺合理的
DeepSeek-OCR 做的事情
是把这个直觉量化了
用实验数据证明：
一图确实胜千言

当然，我并不是这个领域的，评价不到正确与否，有懂的兄弟，还请评论区指导

怎么做到的

DeepSeek 这个东西的核心
是一个叫 DeepEncoder 的架构
380M 参数

这东西的设计很讲究
它由三部分组成
80M 的 SAM-base + 16 倍的卷积压缩器 + 300M 的 CLIP-large

DeepEncoder架构流程图

这个设计有两个关键

第一个关键是「低激活」
大部分 VLM 的视觉编码器激活值特别大
InternVL2-76B 的激活参数是 76B
Qwen2.5-VL-72B 的激活参数是 72B
DeepSeek-OCR 的解码器虽然是 3B 参数
但激活参数只有 570M
因为它用了 MoE 架构
每次只激活一部分专家
这意味着推理时显存占用小、速度快

第二个关键是「多分辨率统一」
它设计了 6 种模式
从 Tiny 模式的 64 个 token
到 Gundam 模式的 800+ 个 token
你可以根据文档复杂度选择
幻灯片用 Tiny 就够了
报纸得用 Gundam

另外值得一提的是
DeepSeek-OCR 不只能识别文字
还能「深度解析」文档里的图表、几何图形、化学式
论文里叫这个能力 OCR 2.0
比如金融报告里的图表
它能直接转成结构化数据
化学文档里的结构式
它能转成 SMILES 格式

化学结构，也不在话下

这对金融、科研、教育领域太关键了

最有想象力的部分

论文最后有个很酷的设想

用降低图像分辨率来模拟人类的记忆遗忘

这个类比特别有意思
人类记忆有个特点
越久远的事情，记得越模糊
刚发生的事，记得清清楚楚

一小时前的事，还很清晰
一天前的事，开始模糊
一周前的事，已经很模糊
一年前的事，几乎忘光了

视觉感知也是这样
10cm 的东西看得清清楚楚
20m 的东西几乎看不清
DeepSeek-OCR 提出
可以用分辨率来模拟这种衰减

DeepSeek-OCR 提出了一个对应关系
他们把不同的分辨率模式
对应到人类记忆和视觉感知的清晰度等级
这个类比是这样的

• 一小时前的事，还很清晰，对应 Gundam 模式（800+ tokens）
• 一周前的事，已经很模糊，对应 Base 模式（256 tokens）
• 一年前的事，几乎忘光了，对应 Tiny 模式（64 tokens）

记忆遗忘机制：时间维度、距离维度、分辨率维度

最近的对话用高分辨率
更早的对话逐渐降低分辨率
这样既保留了历史信息
又控制了 token 数量
远期记忆自然「淡化」
就像人类遗忘一样

这个设想论文里说还是早期阶段
但想象空间很大
如果真的能做到
就能实现「理论上无限的 context window」

因为你不需要保持所有信息的高保真度
只需要让信息随时间衰减
就像人类记忆一样

开源和局限

整个项目采用 MIT 许可证开源
代码、模型权重、技术论文全部公开

GitHub：

github.com/deepseek-ai/DeepSeek-OCR

Hugging Face：

huggingface.co/deepseek-ai/DeepSeek-OCR

说回来
这个模型也有局限
它不是聊天机器人
因为没有 SFT 阶段
某些能力需要用特定的 prompt 才能激活

超过 10 倍的压缩
准确率会明显下降
记忆遗忘机制还只是设想
真正验证它在长上下文场景的效果
需要更多实验

但即使有这些局限
DeepSeek-OCR 已经证明了一件事
视觉-文本压缩这条路是走得通的

最后

DeepSeek-OCR 最有价值的地方
不在于它是一个好用的 OCR 工具
而在于它用数据验证了一个假设
视觉 token 确实可以更高效地表达信息

现在所有的 VLM 都是几千个 token 起步
推理慢、显存占用大、长文档处理困难
如果能把视觉 token 压缩 10 倍还几乎无损
整个多模态系统的效率都能提升一个量级

记忆遗忘机制的设想也很有意思
人类会遗忘
不是因为大脑容量不够
而是因为遗忘本身是一种优化策略

你不需要记住所有细节
只需要记住重要的、近期的信息
如果这条路真的走通了
可能会改变我们对长上下文问题的理解
不是无限扩大 context window
而是让信息自然衰减
就像人类记忆一样

回到开头 OpenAI 朋友的那个问题
文字，是信息压缩的最好方式吗？
DeepSeek-OCR 用数据给出了答案

而且，它是开源的
任何人都可以用、可以改进、可以基于它做研究

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.