网易首页 > 网易号 > 正文 申请入驻

DeepSeek-OCR 发布:1个视觉token,抵得上10个文本token

0
分享至

之前和 OpenAI 的做交流,突然提了一个问题
文字,是信息压缩的最好方式吗?

当时没想太多,直到今天
DeepSeek 开源了 DeepSeek-OCR
用 10 个视觉 token,表达 100 个文本 token


github.com/deepseek-ai/DeepSeek-OCR

我突然意识到:这个问题可能有答案了
具体对比:

  • • DeepSeek-OCR 用 100 个 token ,超过了 GOT-OCR2.0 的 256 个 token

  • • DeepSeek-OCR 用 800 个 token ,超过了 MinerU2.0 的 6000+ token

  • • 即使压缩到 20 倍 ,准确率还有 60%

DeepSeek-OCR在不同压缩比下的准确率 为什么重要

现在所有的多模态大模型都面临一个瓶颈:
token 消耗太多了

处理一页 PDF 就要消耗几千个 token
如果你想处理一本书、一份研究报告、一堆财务文档
context window 立刻就爆了
每个 token 都要算钱、消耗显存、拖慢推理速度

DeepSeek-OCR 用数据告诉你
10 倍压缩,几乎无损

信息论视角

对于这个问题
Hacker News 上展开了很大的讨论


是当前 Hacker News 上的最火话题

"为什么这种方法有效?"
"是不是文本 token 太粒状了,没接近理想的熵编码?"
"切换到视觉 token 是不是逃脱了'一次一个词'的限制?"


Hacker News 评论第一条

有个回答说的很有意思
文本 token 本质上是离散的查找表
你有个小整数(token ID)
然后查表得到一个向量

但视觉 token 是连续值向量
没有查找表
直接从图像编码成向量

这意味着什么?
文本 token 的「token 空间」是有限的
通常就 10 万个可能的 token
每个 token 对应一小段 UTF-8 字节
而且大多数分词器不会创建跨越词边界的 token

视觉 token 的「token 空间」要大得多
它是高维浮点数向量,每个维度都可以取很多值
所以视觉 token 能传达更多的 bits per token
这才是压缩的关键


图片

另一个人补充
文本 token 是子词单元
视觉 token 在语义空间
语义空间显然比子词切片压缩得多


免责声明:我不懂

还有人从视觉角度解释
人类就是通过视觉看文本的
所以文本必须有适应视觉噪声的机制
看起来相似的词不能出现在相似的上下文
否则会混淆

挺有意思的
文本为了适应视觉识别
反而在编码上有些"冗余"
而视觉 token 直接在语义空间工作
可以更高效
所以 10 倍的压缩比

从信息论角度看
其实挺合理的
DeepSeek-OCR 做的事情
是把这个直觉量化了
用实验数据证明:
一图确实胜千言

当然,我并不是这个领域的,评价不到正确与否,有懂的兄弟,还请评论区指导

怎么做到的

DeepSeek 这个东西的核心
是一个叫 DeepEncoder 的架构
380M 参数

这东西的设计很讲究
它由三部分组成
80M 的 SAM-base + 16 倍的卷积压缩器 + 300M 的 CLIP-large


DeepEncoder架构流程图

这个设计有两个关键

第一个关键是「低激活」
大部分 VLM 的视觉编码器激活值特别大
InternVL2-76B 的激活参数是 76B
Qwen2.5-VL-72B 的激活参数是 72B
DeepSeek-OCR 的解码器虽然是 3B 参数
但激活参数只有 570M
因为它用了 MoE 架构
每次只激活一部分专家
这意味着推理时显存占用小、速度快

第二个关键是「多分辨率统一」
它设计了 6 种模式
Tiny 模式的 64 个 token
Gundam 模式的 800+ 个 token
你可以根据文档复杂度选择
幻灯片用 Tiny 就够了
报纸得用 Gundam

另外值得一提的是
DeepSeek-OCR 不只能识别文字
还能「深度解析」文档里的图表、几何图形、化学式
论文里叫这个能力 OCR 2.0
比如金融报告里的图表
它能直接转成结构化数据
化学文档里的结构式
它能转成 SMILES 格式


化学结构,也不在话下

这对金融、科研、教育领域太关键了

最有想象力的部分

论文最后有个很酷的设想

用降低图像分辨率来模拟人类的记忆遗忘

这个类比特别有意思
人类记忆有个特点
越久远的事情,记得越模糊
刚发生的事,记得清清楚楚

一小时前的事,还很清晰
一天前的事,开始模糊
一周前的事,已经很模糊
一年前的事,几乎忘光了

视觉感知也是这样
10cm 的东西看得清清楚楚
20m 的东西几乎看不清
DeepSeek-OCR 提出
可以用分辨率来模拟这种衰减

DeepSeek-OCR 提出了一个对应关系
他们把不同的分辨率模式
对应到人类记忆和视觉感知的清晰度等级
这个类比是这样的

  • • 一小时前的事,还很清晰,对应 Gundam 模式(800+ tokens)

  • • 一周前的事,已经很模糊,对应 Base 模式(256 tokens)

  • • 一年前的事,几乎忘光了,对应 Tiny 模式(64 tokens)

记忆遗忘机制:时间维度、距离维度、分辨率维度

最近的对话用高分辨率
更早的对话逐渐降低分辨率
这样既保留了历史信息
又控制了 token 数量
远期记忆自然「淡化」
就像人类遗忘一样

这个设想论文里说还是早期阶段
但想象空间很大
如果真的能做到
就能实现「理论上无限的 context window」

因为你不需要保持所有信息的高保真度
只需要让信息随时间衰减
就像人类记忆一样

开源和局限

整个项目采用 MIT 许可证开源
代码、模型权重、技术论文全部公开


GitHub:

github.com/deepseek-ai/DeepSeek-OCR

Hugging Face:

huggingface.co/deepseek-ai/DeepSeek-OCR

说回来
这个模型也有局限
它不是聊天机器人
因为没有 SFT 阶段
某些能力需要用特定的 prompt 才能激活

超过 10 倍的压缩
准确率会明显下降
记忆遗忘机制还只是设想
真正验证它在长上下文场景的效果
需要更多实验

但即使有这些局限
DeepSeek-OCR 已经证明了一件事
视觉-文本压缩这条路是走得通的

最后

DeepSeek-OCR 最有价值的地方
不在于它是一个好用的 OCR 工具
而在于它用数据验证了一个假设
视觉 token 确实可以更高效地表达信息

现在所有的 VLM 都是几千个 token 起步
推理慢、显存占用大、长文档处理困难
如果能把视觉 token 压缩 10 倍还几乎无损
整个多模态系统的效率都能提升一个量级

记忆遗忘机制的设想也很有意思
人类会遗忘
不是因为大脑容量不够
而是因为遗忘本身是一种优化策略

你不需要记住所有细节
只需要记住重要的、近期的信息
如果这条路真的走通了
可能会改变我们对长上下文问题的理解
不是无限扩大 context window
而是让信息自然衰减
就像人类记忆一样

回到开头 OpenAI 朋友的那个问题
文字,是信息压缩的最好方式吗?
DeepSeek-OCR 用数据给出了答案

而且,它是开源的
任何人都可以用、可以改进、可以基于它做研究

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
洋姜不是姜,是天然胰岛果,在中国被沦为咸菜,都快吃绝种了

洋姜不是姜,是天然胰岛果,在中国被沦为咸菜,都快吃绝种了

泠泠说史
2025-11-11 15:43:31
国家发改委:鼓励政府采购单位将对民营企业合同预付款比例提高至合同金额30%以上

国家发改委:鼓励政府采购单位将对民营企业合同预付款比例提高至合同金额30%以上

红星新闻
2025-11-11 16:39:14
“内蒙古见义勇为反杀案”最新进展:内蒙古高院认可原审法院采信的“无资质”鉴定报告,驳回申诉!

“内蒙古见义勇为反杀案”最新进展:内蒙古高院认可原审法院采信的“无资质”鉴定报告,驳回申诉!

白鹿新闻
2025-11-11 17:35:03
中俄相继出手,高市早苗求锤得锤,日本领土该重新定义了

中俄相继出手,高市早苗求锤得锤,日本领土该重新定义了

头条爆料007
2025-11-11 21:43:01
高市早苗闯了大祸,日方意识到大事不妙!中国有权在日本驻军

高市早苗闯了大祸,日方意识到大事不妙!中国有权在日本驻军

时时有聊
2025-11-11 07:19:55
祖雄兵越扒越有:男方有前科,曾琦医德很好,偷拍者身份炸裂

祖雄兵越扒越有:男方有前科,曾琦医德很好,偷拍者身份炸裂

寒士之言本尊
2025-11-10 22:51:59
官方:亚马尔退出国家队,西班牙足协对其自行接受治疗不满

官方:亚马尔退出国家队,西班牙足协对其自行接受治疗不满

懂球帝
2025-11-11 18:01:10
优酷的会员数跌破一亿,不是因为没剧,而是没人愿意为平庸买单了

优酷的会员数跌破一亿,不是因为没剧,而是没人愿意为平庸买单了

现代春秋
2025-11-10 15:40:04
欧委会要求欧盟成员排除中兴、华为设备,外交部:损人不利己

欧委会要求欧盟成员排除中兴、华为设备,外交部:损人不利己

澎湃新闻
2025-11-11 15:38:26
震惊!撞了仨人,她第一眼在乎居然是自己的摩托车

震惊!撞了仨人,她第一眼在乎居然是自己的摩托车

熊太行
2025-11-11 18:01:42
段永平:黄仁勋十年前讲的东西和今天一样,都恐惧英伟达垄断但替代不了

段永平:黄仁勋十年前讲的东西和今天一样,都恐惧英伟达垄断但替代不了

界面新闻
2025-11-12 00:00:04
太子集团强烈否认涉诈指控!

太子集团强烈否认涉诈指控!

荆楚寰宇文枢
2025-11-11 22:13:26
7.8吨猪脚从广西运往广东,竟在千里外的河南被查扣,货车司机回应

7.8吨猪脚从广西运往广东,竟在千里外的河南被查扣,货车司机回应

极目新闻
2025-11-11 20:09:42
江苏常州官方通报“儿子暴打93岁母亲”:因琐事发生口角后动手殴打,涉事男子已被抓,案情正侦办

江苏常州官方通报“儿子暴打93岁母亲”:因琐事发生口角后动手殴打,涉事男子已被抓,案情正侦办

三湘都市报
2025-11-11 14:38:32
上海正在面临大规模人口迁移!

上海正在面临大规模人口迁移!

深度报
2025-11-11 21:39:10
A股:刚刚,央行重磅发布公告,股民注意,科技股恐将遭受大冲击

A股:刚刚,央行重磅发布公告,股民注意,科技股恐将遭受大冲击

云鹏叙事
2025-11-11 20:36:12
央视网揭"远洋捕捞"实质:地方政府没钱了,抓商人搞钱

央视网揭"远洋捕捞"实质:地方政府没钱了,抓商人搞钱

爆角追踪
2025-11-11 12:15:25
一年狂飙21万公里,电池仅衰减5%,小米SU7车主刷新了科学

一年狂飙21万公里,电池仅衰减5%,小米SU7车主刷新了科学

木蹊说
2025-11-11 16:06:19
车企CEO重磅发声:对全体中国汽车人的侮辱!

车企CEO重磅发声:对全体中国汽车人的侮辱!

电动知家
2025-11-10 11:10:23
印度网球选手前往中国参赛遭拒签,社媒求助中国驻印度大使馆

印度网球选手前往中国参赛遭拒签,社媒求助中国驻印度大使馆

懂球帝
2025-11-11 18:52:03
2025-11-12 05:19:00
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
162文章数 10关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

携6.1万枚比特币出逃英国 富婆奢靡生活披露

头条要闻

携6.1万枚比特币出逃英国 富婆奢靡生活披露

体育要闻

一个14岁的小男孩,决定了谁能晋级世界杯

娱乐要闻

古二曝秦雯多次炫耀袭警经历

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

教育
健康
房产
数码
家居

教育要闻

老师们不奢望减轻什么负担,只希望能实行8小时工作制!

超声探头会加重受伤情况吗?

房产要闻

海口湾,1300亩巨无霸地块登场!

数码要闻

索尼多款相机固件更新,修复充电低电量提示等问题

家居要闻

国美学子 打造筑梦空间

无障碍浏览 进入关怀版