网易首页 > 网易号 > 正文 申请入驻

DeepSeek-OCR 发布:1个视觉token,抵得上10个文本token

0
分享至

之前和 OpenAI 的做交流,突然提了一个问题
文字,是信息压缩的最好方式吗?

当时没想太多,直到今天
DeepSeek 开源了 DeepSeek-OCR
用 10 个视觉 token,表达 100 个文本 token


github.com/deepseek-ai/DeepSeek-OCR

我突然意识到:这个问题可能有答案了
具体对比:

  • • DeepSeek-OCR 用 100 个 token ,超过了 GOT-OCR2.0 的 256 个 token

  • • DeepSeek-OCR 用 800 个 token ,超过了 MinerU2.0 的 6000+ token

  • • 即使压缩到 20 倍 ,准确率还有 60%

DeepSeek-OCR在不同压缩比下的准确率 为什么重要

现在所有的多模态大模型都面临一个瓶颈:
token 消耗太多了

处理一页 PDF 就要消耗几千个 token
如果你想处理一本书、一份研究报告、一堆财务文档
context window 立刻就爆了
每个 token 都要算钱、消耗显存、拖慢推理速度

DeepSeek-OCR 用数据告诉你
10 倍压缩,几乎无损

信息论视角

对于这个问题
Hacker News 上展开了很大的讨论


是当前 Hacker News 上的最火话题

"为什么这种方法有效?"
"是不是文本 token 太粒状了,没接近理想的熵编码?"
"切换到视觉 token 是不是逃脱了'一次一个词'的限制?"


Hacker News 评论第一条

有个回答说的很有意思
文本 token 本质上是离散的查找表
你有个小整数(token ID)
然后查表得到一个向量

但视觉 token 是连续值向量
没有查找表
直接从图像编码成向量

这意味着什么?
文本 token 的「token 空间」是有限的
通常就 10 万个可能的 token
每个 token 对应一小段 UTF-8 字节
而且大多数分词器不会创建跨越词边界的 token

视觉 token 的「token 空间」要大得多
它是高维浮点数向量,每个维度都可以取很多值
所以视觉 token 能传达更多的 bits per token
这才是压缩的关键


图片

另一个人补充
文本 token 是子词单元
视觉 token 在语义空间
语义空间显然比子词切片压缩得多


免责声明:我不懂

还有人从视觉角度解释
人类就是通过视觉看文本的
所以文本必须有适应视觉噪声的机制
看起来相似的词不能出现在相似的上下文
否则会混淆

挺有意思的
文本为了适应视觉识别
反而在编码上有些"冗余"
而视觉 token 直接在语义空间工作
可以更高效
所以 10 倍的压缩比

从信息论角度看
其实挺合理的
DeepSeek-OCR 做的事情
是把这个直觉量化了
用实验数据证明:
一图确实胜千言

当然,我并不是这个领域的,评价不到正确与否,有懂的兄弟,还请评论区指导

怎么做到的

DeepSeek 这个东西的核心
是一个叫 DeepEncoder 的架构
380M 参数

这东西的设计很讲究
它由三部分组成
80M 的 SAM-base + 16 倍的卷积压缩器 + 300M 的 CLIP-large


DeepEncoder架构流程图

这个设计有两个关键

第一个关键是「低激活」
大部分 VLM 的视觉编码器激活值特别大
InternVL2-76B 的激活参数是 76B
Qwen2.5-VL-72B 的激活参数是 72B
DeepSeek-OCR 的解码器虽然是 3B 参数
但激活参数只有 570M
因为它用了 MoE 架构
每次只激活一部分专家
这意味着推理时显存占用小、速度快

第二个关键是「多分辨率统一」
它设计了 6 种模式
Tiny 模式的 64 个 token
Gundam 模式的 800+ 个 token
你可以根据文档复杂度选择
幻灯片用 Tiny 就够了
报纸得用 Gundam

另外值得一提的是
DeepSeek-OCR 不只能识别文字
还能「深度解析」文档里的图表、几何图形、化学式
论文里叫这个能力 OCR 2.0
比如金融报告里的图表
它能直接转成结构化数据
化学文档里的结构式
它能转成 SMILES 格式


化学结构,也不在话下

这对金融、科研、教育领域太关键了

最有想象力的部分

论文最后有个很酷的设想

用降低图像分辨率来模拟人类的记忆遗忘

这个类比特别有意思
人类记忆有个特点
越久远的事情,记得越模糊
刚发生的事,记得清清楚楚

一小时前的事,还很清晰
一天前的事,开始模糊
一周前的事,已经很模糊
一年前的事,几乎忘光了

视觉感知也是这样
10cm 的东西看得清清楚楚
20m 的东西几乎看不清
DeepSeek-OCR 提出
可以用分辨率来模拟这种衰减

DeepSeek-OCR 提出了一个对应关系
他们把不同的分辨率模式
对应到人类记忆和视觉感知的清晰度等级
这个类比是这样的

  • • 一小时前的事,还很清晰,对应 Gundam 模式(800+ tokens)

  • • 一周前的事,已经很模糊,对应 Base 模式(256 tokens)

  • • 一年前的事,几乎忘光了,对应 Tiny 模式(64 tokens)

记忆遗忘机制:时间维度、距离维度、分辨率维度

最近的对话用高分辨率
更早的对话逐渐降低分辨率
这样既保留了历史信息
又控制了 token 数量
远期记忆自然「淡化」
就像人类遗忘一样

这个设想论文里说还是早期阶段
但想象空间很大
如果真的能做到
就能实现「理论上无限的 context window」

因为你不需要保持所有信息的高保真度
只需要让信息随时间衰减
就像人类记忆一样

开源和局限

整个项目采用 MIT 许可证开源
代码、模型权重、技术论文全部公开


GitHub:

github.com/deepseek-ai/DeepSeek-OCR

Hugging Face:

huggingface.co/deepseek-ai/DeepSeek-OCR

说回来
这个模型也有局限
它不是聊天机器人
因为没有 SFT 阶段
某些能力需要用特定的 prompt 才能激活

超过 10 倍的压缩
准确率会明显下降
记忆遗忘机制还只是设想
真正验证它在长上下文场景的效果
需要更多实验

但即使有这些局限
DeepSeek-OCR 已经证明了一件事
视觉-文本压缩这条路是走得通的

最后

DeepSeek-OCR 最有价值的地方
不在于它是一个好用的 OCR 工具
而在于它用数据验证了一个假设
视觉 token 确实可以更高效地表达信息

现在所有的 VLM 都是几千个 token 起步
推理慢、显存占用大、长文档处理困难
如果能把视觉 token 压缩 10 倍还几乎无损
整个多模态系统的效率都能提升一个量级

记忆遗忘机制的设想也很有意思
人类会遗忘
不是因为大脑容量不够
而是因为遗忘本身是一种优化策略

你不需要记住所有细节
只需要记住重要的、近期的信息
如果这条路真的走通了
可能会改变我们对长上下文问题的理解
不是无限扩大 context window
而是让信息自然衰减
就像人类记忆一样

回到开头 OpenAI 朋友的那个问题
文字,是信息压缩的最好方式吗?
DeepSeek-OCR 用数据给出了答案

而且,它是开源的
任何人都可以用、可以改进、可以基于它做研究

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全国人大代表霍启刚:建议将香港国际机场纳入国家民航体系

全国人大代表霍启刚:建议将香港国际机场纳入国家民航体系

中国青年报
2026-03-04 23:09:11
原来他早已离世,死于心梗,留下老婆一人还带着8月大的孩子!

原来他早已离世,死于心梗,留下老婆一人还带着8月大的孩子!

草莓解说体育
2026-03-04 13:28:18
本科已严重饱和的五个专业,1、临床医学,2、法学,3、计算机

本科已严重饱和的五个专业,1、临床医学,2、法学,3、计算机

明智家庭教育
2026-01-31 10:29:14
新加坡急了,外长几乎是拍着桌子,让中国“尊重”马六甲的地位。

新加坡急了,外长几乎是拍着桌子,让中国“尊重”马六甲的地位。

南权先生
2026-01-26 15:41:26
三角洲主播直播毁号,整个国内游戏圈掀起了正义讨伐

三角洲主播直播毁号,整个国内游戏圈掀起了正义讨伐

3DM游戏
2026-03-05 13:22:11
148比2狂胜146分!中国篮坛惊现夸张比分:全场只打进一球绝了?

148比2狂胜146分!中国篮坛惊现夸张比分:全场只打进一球绝了?

篮球快餐车
2026-02-05 06:09:06
排队三小时寿司郎吃出寄生虫卵?当地市监已立案调查

排队三小时寿司郎吃出寄生虫卵?当地市监已立案调查

21世纪经济报道
2026-03-05 15:36:30
广东队损失惨重

广东队损失惨重

体育哲人
2026-03-05 19:47:38
科威特飞行员真牛!4名阵亡美军身份曝光,特朗普不满英国西班牙

科威特飞行员真牛!4名阵亡美军身份曝光,特朗普不满英国西班牙

鹰眼Defence
2026-03-04 18:38:18
连下两天“鹅毛大雪”之后,北京未来一周还有雪吗?

连下两天“鹅毛大雪”之后,北京未来一周还有雪吗?

中国能源网
2026-03-05 18:36:03
原来,费翔这辈子爱得最深的,不是叶倩文。而是大他7岁的她

原来,费翔这辈子爱得最深的,不是叶倩文。而是大他7岁的她

她时尚丫
2026-03-01 19:26:59
特朗普预计不久后将访华?娄勤俭:中美合则两利、斗则俱伤

特朗普预计不久后将访华?娄勤俭:中美合则两利、斗则俱伤

极目新闻
2026-03-04 13:25:50
南方医科大学为何败于广州医科大学,未能入选第二轮双一流高校?

南方医科大学为何败于广州医科大学,未能入选第二轮双一流高校?

牛锅巴小钒
2026-03-04 16:55:39
奉劝所有40到50岁后的中年人,只要不被开除,干到退休就是成功

奉劝所有40到50岁后的中年人,只要不被开除,干到退休就是成功

岁月有情1314
2026-03-03 14:49:44
在岸人民币兑美元跌破6.89

在岸人民币兑美元跌破6.89

每日经济新闻
2026-03-05 14:18:02
一夜暴富!20岁小哥意外中2亿彩票,瞒家人5年吃光了所有,最后你绝对想不到....

一夜暴富!20岁小哥意外中2亿彩票,瞒家人5年吃光了所有,最后你绝对想不到....

澳洲红领巾
2026-02-27 13:33:53
200亿都留不住!光刻机巨头宁愿“砸锅卖铁”也要搬离荷兰,为何

200亿都留不住!光刻机巨头宁愿“砸锅卖铁”也要搬离荷兰,为何

轩逸阿II
2026-03-05 23:50:10
为什么一眼就能看出生过孩子? 网友:有了孩子之后就不一样了

为什么一眼就能看出生过孩子? 网友:有了孩子之后就不一样了

夜深爱杂谈
2026-02-17 20:23:25
巴基斯坦要参战了?伊朗连炸10国,特朗普怒不可遏,中美再次交锋

巴基斯坦要参战了?伊朗连炸10国,特朗普怒不可遏,中美再次交锋

华史谈
2026-03-05 22:56:22
陆毅鲍蕾,早就不对劲了!

陆毅鲍蕾,早就不对劲了!

情感大头说说
2026-03-05 15:10:59
2026-03-06 02:04:49
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
314文章数 45关注度
往期回顾 全部

科技要闻

独家|林俊旸辞职 我们和认识他的人聊了聊

头条要闻

伊朗:已作好准备应对美国地面行动

头条要闻

伊朗:已作好准备应对美国地面行动

体育要闻

不开玩笑,没人想在季后赛碰上黄蜂

娱乐要闻

谢娜下场撕薛之谦,张杰前女友爆猛料

财经要闻

“十五五”开局之年,这么干!

汽车要闻

15.98万元起 第三代领克03大尾翼版上市

态度原创

游戏
艺术
房产
数码
公开课

今天是《生化危机5》发售17周年

艺术要闻

他偏要画最难的部分——这位韩国画师,只画手脚与人体,惊艳了无数人!

房产要闻

超猛!又有2800套房源砸出,2026海口安居房,彻底爆发!

数码要闻

安克首款智能盾磁吸充电宝预售:支持屏显、边充边监测,349元

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版