网易首页 > 网易号 > 正文 申请入驻

DeepSeek新模型“杀疯了”!用视觉压缩文字,开源即获5.7k Star,Karpathy直呼:Tokenizer必须被淘汰

0
分享至


整理 | 苏宓

出品 | CSDN(ID:CSDNnews)

大模型如今最大的问题之一就是——遇到长文本就吃不消。倘若你丢给它 100K token 文档,它就会卡顿、占用大量内存,甚至花费飙升。其实这不是模型本身的问题,而是 Transformer 的注意力机制决定了,处理长序列的计算量会急速上升。

现在想象一下,如果你不把整段文字直接喂给模型,而是先把它画成一张图像再让模型“看”,结果会不会不同?

这不,DeepSeek 的最新研究就专注于这个点。它在开源领域再下一城,于今日推出了一款新型文字识别模型——DeepSeek OCR。官方解释它是:“一款从大模型视角出发,用于研究视觉编码器作用的模型”。

DeepSeek OCR 的独特之处在于用视觉方式压缩文本内容。它并不是把视觉当作附加功能,而是将视觉当作文本压缩层。换句话说,它可以先把整页文字渲染成图像,再让模型去“读”这些图像,从而高效提取文字信息。

此模型一经发布,引起国内外技术圈的广泛关注,相关话题也迅速攀升至各个科技热榜中。


  • 论文地址:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

  • 开源地址:https://github.com/deepseek-ai/DeepSeek-OCR


DeepSeek OCR 究竟是什么?

不难看出,DeepSeek OCR 的出现,旨在解决大模型处理长文本时的算力瓶颈。

正如上文所提及的,它的核心思路是把文本先转换成图像,再由模型读取图像信息。

乍一听,不少人可能觉得奇怪,但其实很直观:一页文字可能需要几千个文本 token,但压缩成图像后,只需要几百个视觉 token,就能表示同样的信息,压缩率大约 10 倍。

DeepSeek 团队想试一试:能不能让模型读懂这张压缩图像,并准确还原原文?压缩能做到多极致才会“崩掉”?他们的实验,就是围绕这个问题展开的。

经过这次的研究,其得出结论,用图像表示文本,反而比直接处理文字序列更节省计算资源。

DeepSeek 官方称,这一新模型在许多文档解析基准测试中取得了领先成绩,而且单块 NVIDIA A100 GPU 每天可处理约 20 万页文档,效率极高。


对此,OpenAI 前联合创始人 Andrej Karpathy 也对这一研究方向非常认同,其直言「Tokenizer 必须被淘汰」,还称自己也忍不住想要开发一款只接受图像输入的 NanoChat 了。他还甚赞道:

我挺喜欢这篇新的 DeepSeek-OCR 论文的。它确实是一个不错的 OCR 模型(可能比 dots 差一点),数据收集等环节也有,但这些其实无关紧要。

对我来说,更有意思的地方是——作为一个本质上是计算机视觉研究者、暂时扮作自然语言人的人——像素是不是比文本更适合作为大模型的输入。也就是说,文本 token 在输入端是否其实很浪费、甚至糟糕。

也许更合理的做法是:大模型的所有输入都应该是图像。即便你手头只有纯文本,也可以先把文本渲染成图像再输入模型,这样有几个好处:

  • 信息压缩更多(论文中提到)→ 上下文窗口更短,效率更高

  • 信息流更通用 → 不只是文本,还可以包含粗体、彩色文字、任意图片

  • 可以默认使用双向注意力处理输入,不必局限于自回归注意力 → 更强大

  • 去掉 tokenizer(输入端)!!我早就吐槽过 tokenizer 有多讨厌。它丑陋、独立、不端到端,把 Unicode、字节编码的历史包袱和安全/越狱风险都“引入”模型内部。两个肉眼看起来完全一样的字符,内部却可能变成两个不同的 token。一个笑脸表情被当作奇怪的 token,而不是完整的像素笑脸及其带来的迁移学习效果。

    Tokenizer 必须被淘汰。

OCR 只是众多有用的“视觉→文本”任务之一。而“文本→文本”的任务,也可以设计成“视觉→文本”的任务,而不是反过来。

在很多场景下,用户输入仍然是图像,但解码器(助手回应)保持文本输出。要让输出也变成像素就不那么显而易见了——而且你是否真的希望这样也值得考虑。

现在,我甚至忍不住想开发一个只接受图像输入的 NanoChat……


在社交媒体上,还有用户在亲身体验后,发表感慨:“太棒了!我刚刚使用这个优秀的新开源模型将 400 页 PDF 转换为 markdown 格式。不到 4 分钟就完成了!”


另一位 AI 用户评论道:

震撼!

中国的 DeepSeek 又一次突破了极限!

一整本百科全书,竟然可以压缩成一张高分辨率的图像!

这是令人瞠目结舌的重大突破。DeepSeek-OCR 发布了一个拥有30 亿参数的视觉-语言模型,它以惊人的光学压缩技术模糊了文本与视觉的界限!

这不仅仅是一次 OCR 升级,而是对机器感知和处理数据方式的一次根本性革命



支撑 DeepSeek-OCR 的两大核心构成

这种“将文字转为图像再识别”的做法,DeepSeek 在论文中将其称之为“上下文光学压缩”(Context Optical Compression)

据 Deepseek 介绍,DeepSeek-OCR 内部技术由两部分组成:一个是名为 DeepEncoder 的视觉编码器,另一个是 DeepSeek-3B-MoE 的解码器。

DeepEncoder 编码器专为高分辨率输入设计,既能保持较低的激活开销,又能输出极少量的 token,其本身拥有 3.8 亿参数,用来分析每张图像并生成压缩表示。它结合了:

  • SAM-base(8000 万参数):采用窗口注意力机制,用于局部感知。可以把它理解为扫描图像的细节部分。

  • CLIP-large(3 亿参数):采用密集注意力机制,用于全局理解。这部分负责捕捉更广的布局和上下文信息。

  • 在两者之间有一个 16 倍卷积压缩器,在将视觉 token 输入到全局注意力模块之前,对它们进行压缩。

例如,一张 1024×1024 像素的图像最初包含 4096 个 token,经过 SAM 处理后,经压缩器缩减至仅 256 个 token,再交由计算量更高的 CLIP 模型处理。因此,该模型避免了视觉 Transformer 中常见的激活内存爆炸问题。


解码器部分是一个拥有30 亿参数的 MoE 模型(即 DeepSeek3B-MoE-A570M),每个 token 实际激活约5.7 亿参数,每步会激活 64 个专家中的 6 个。它从压缩后的视觉 token 中重建文本。因此,它实际上是一个视觉到文本的 Transformer,但训练数据涵盖了大量文档、公式、图表、化学结构,甚至多语言 PDF。


多分辨率设计

此外,Deepseek OCR 可在不同分辨率下工作。在较低分辨率时,每张图仅需 64 个视觉 token;在高分辨率下最多需要 400 个。相比之下,传统 OCR 系统通常需要数千个 token 才能完成相同任务。


DeepEncoder 支持两种模式:原生模式(native modes)动态模式(dynamic modes)

在原生模式下,它提供四种配置:

  • Tiny:输入分辨率 512×512 像素,输出 64 个 token;

  • Small:输入分辨率为 640×640 像素,输出 100 个 token;

  • Base:输入分辨率为 1024×1024 像素,输出 256 个 token;

  • Large:输入分辨率为 1280×1280 像素,输出 400 个 token。


动态模式包括GundamGundam-Master,它们将多块局部视图与全局视图相结合。

在这种模式下,Gundam 的输出为n×100 + 256 个 token,或n×256 + 400 个 token,其中 n 的取值范围为 2 到 9。


对于带有填充的模式(padded modes),DeepSeek 团队还提供了一个用于计算有效 token 数的公式——有效 token 数通常低于原始 token 数,并与图像的宽高比有关。这些模式的设计使 AI 开发者和研究人员能够根据页面内容的复杂度,灵活分配 token 预算,在性能与成本之间找到平衡。


压缩效果

值得注意的是,DeepSeek-OCR 能识别的语言和内容非常丰富,它除了支持普通印刷文本(包括中文、英文在内的 100 多种语言)之外,还能深入解析复杂排版的图像信息。

具体来说,它可以识别表格或财务报表中的文字、图表和示意图中的信息,甚至能够读出化学分子式、数学公式和几何图形。既能保留原始排版,也能输出纯文本,同时具备一般性图像描述能力。

根据官方解释的训练数据构成来看,模型在训练时用了:

  • OCR 1.0 数据(3000 万页):真实文档 PDF,涵盖 100 多种语言

  • OCR 2.0 数据:合成但有结构的内容,如图表、公式、几何图形等

  • 通用视觉数据(20%):保持模型的图像理解能力

  • 纯文本数据(10%):保持语言质量

因此其具备理解各种视觉文档的能力。

整体而言,在 Fox 基准测试(压缩测试)中,DeepSeek-OCR 在压缩视觉 token 时恢复文本准确性的能力如下:

当使用100 个视觉 token时:

  • 文本量在 600–700 token 的页面,压缩比约6.7×,精度可达98.5%

  • 文本量在 900–1000 token 的页面,压缩比约9.7×,精度可达96.8%

当使用64 个视觉 token时,随着压缩比增加,精度会下降:

  • 例如,对于 1200–1300 token 的页面,压缩比约19.7×,精度下降至59.1%

也就是说,在10 倍压缩率下,模型仍能保持约97% 的精度,几乎可以视为无损。即便在20 倍压缩的情况下,准确率也能达到约60%——考虑到压缩幅度,这已经相当惊人了。



OmniDocBench基准测试中,Deepseek OCR 仅用 100 个视觉 token 就超过了 GOT-OCR 2.0 的性能;当使用不到 800 个 token 时,也胜过需要每页 6000 多个 token 的 MinerU 2.0。



与传统 OCR 工具相比,DeepSeek-OCR 最大的不同在于思路和架构

DeepSeek-OCR 改变了人们对长上下文处理的思路。它不再一味地去扩展注意力窗口,而是提出:干脆把内容用视觉方式压缩掉。

对大语言模型开发者来说,这意味着:

  • 更低的内存消耗:视觉 token 更紧凑;

  • 更快的推理速度:token 更少 → 计算量(FLOPs)更少;

  • 更自然的遗忘机制:旧的上下文可以按比例降采样;

  • 更容易的多模态融合:模型本身就把文字视作图像。

而对于 OCR 研究者来说,这则是一个全新的 SOTA(最先进)系统——性能超越了更庞大的 MinerU 2.0 和 GOT-OCR2.0,同时运行更快、占用内存更少。

正因此,DeepSeek-OCR 发布仅短短几个小时后,便在 GitHub 上斩获了 5.7k Star。


同时在 Hugging Face 趋势榜上排在第二:


至此,你是否已经上手体验了这一新模型?

参考:

论文地址:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

https://github.com/deepseek-ai/DeepSeek-OCR

https://huggingface.co/deepseek-ai/DeepSeek-OCR

https://x.com/karpathy/status/1980397031542989305

https://www.marktechpost.com/2025/10/20/deepseek-just-released-a-3b-ocr-model-a-3b-vlm-designed-for-high-performance-ocr-and-structured-document-conversion/

https://github.com/deepseek-ai/DeepSeek-OCR

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“211人集体辞职!朱立伦惊天一招,是退场还是设局?”

“211人集体辞职!朱立伦惊天一招,是退场还是设局?”

朗威游戏说
2025-11-02 01:44:00
女子被通知面试,到场以“无经验”被刷,走后越想越气跑回去据理力争:“为什么不看简历?车费不要钱吗”

女子被通知面试,到场以“无经验”被刷,走后越想越气跑回去据理力争:“为什么不看简历?车费不要钱吗”

观威海
2025-11-01 10:54:07
Shams:哈里森坚信浓眉比卢卡更适合争冠,更符合球队文化

Shams:哈里森坚信浓眉比卢卡更适合争冠,更符合球队文化

雷速体育
2025-11-01 10:45:40
对“Hi! YOUNG 广州”的批评,有点过了

对“Hi! YOUNG 广州”的批评,有点过了

雷斯林
2025-10-31 17:43:41
范冰冰和范丞丞的大瓜,水有点深.....

范冰冰和范丞丞的大瓜,水有点深.....

营销报
2025-08-01 10:37:01
关税这些都是小打小闹,真正的中美大决战,决胜于未来五年

关税这些都是小打小闹,真正的中美大决战,决胜于未来五年

诡谲怪谈
2025-05-02 15:35:06
郑丽文今走马上任,马英九、洪秀柱现身力挺,侯友宜彻底不演了!

郑丽文今走马上任,马英九、洪秀柱现身力挺,侯友宜彻底不演了!

李博世财经
2025-11-01 14:11:12
《问政山东》玩得有多大,这是能播的么?难怪山东人都爱考编

《问政山东》玩得有多大,这是能播的么?难怪山东人都爱考编

蒂蒂茱家
2025-11-01 15:03:53
长三角“万亿城市”扩容在即,浙苏两地市委书记部署最后冲刺

长三角“万亿城市”扩容在即,浙苏两地市委书记部署最后冲刺

花小猫的美食日常
2025-11-01 10:01:20
打虎!金之镇被查

打虎!金之镇被查

新京报政事儿
2025-11-01 11:08:52
塔利班警告:“伊斯兰国”正策划袭击中国与俄罗斯使馆

塔利班警告:“伊斯兰国”正策划袭击中国与俄罗斯使馆

桂系007
2025-10-31 14:35:53
4年亏400亿,套现20亿,穷途末路的黄光裕,还是不肯下牌桌

4年亏400亿,套现20亿,穷途末路的黄光裕,还是不肯下牌桌

近史博览
2025-10-31 18:34:00
浙江第三城之争,毫无悬念!

浙江第三城之争,毫无悬念!

城市生态圈
2025-10-30 17:47:45
福将,贡萨洛-拉莫斯进球的31场比赛大巴黎保持不败

福将,贡萨洛-拉莫斯进球的31场比赛大巴黎保持不败

懂球帝
2025-11-02 02:30:19
朝鲜用不了,巴铁看不上,海军还剩7艘053H3,一口气全部给印尼?

朝鲜用不了,巴铁看不上,海军还剩7艘053H3,一口气全部给印尼?

林子说事
2025-10-30 04:59:18
离婚仅1个月再看猴哥与前妻,一个急找下家,一个证实痞幼没说错

离婚仅1个月再看猴哥与前妻,一个急找下家,一个证实痞幼没说错

刘森森
2025-10-30 21:15:35
医生发现:天冷坚持戴帽子的人,过不了半年,身体或会有5大变化

医生发现:天冷坚持戴帽子的人,过不了半年,身体或会有5大变化

新时代的两性情感
2025-10-13 10:28:56
其实吴石案发,根源不是叛徒出卖,而是这个天天喊他“学长”的人

其实吴石案发,根源不是叛徒出卖,而是这个天天喊他“学长”的人

文史微鉴
2025-10-25 12:35:03
CCTV5直播法国冠军赛!11月1日赛程+最新赛果

CCTV5直播法国冠军赛!11月1日赛程+最新赛果

好乒乓
2025-11-01 15:48:31
43岁贾玲出席上海户外活动,身材苗条瘦出新境界!

43岁贾玲出席上海户外活动,身材苗条瘦出新境界!

蕾爸退休日记
2025-10-18 20:46:14
2025-11-02 03:23:00
CSDN incentive-icons
CSDN
成就一亿技术人
26066文章数 242174关注度
往期回顾 全部

科技要闻

事关安世半导体,商务部最新发声!

头条要闻

美国防长国务卿受威胁 躲进军事基地

头条要闻

美国防长国务卿受威胁 躲进军事基地

体育要闻

NBA球员,必须吃夜宵

娱乐要闻

王家卫这波录音,撕烂了遮羞布

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

换新一口价11.98万 第三代蓝电E5 PLUS开启预售

态度原创

家居
旅游
时尚
艺术
亲子

家居要闻

吸睛艺术 富有传奇色彩

旅游要闻

运河明珠,千年守望:杭州拱宸桥的前世今生与文化密码!

伊姐周六热推:电视剧《树影迷宫》;电视剧《锦月令》......

艺术要闻

美貌与艺术的碰撞!9位摄影师,哪一位是你的菜?

亲子要闻

子宫写真火遍法国!不去医院就可看性别,还能给胎儿“打印”一张脸

无障碍浏览 进入关怀版