网易首页 > 网易号 > 正文 申请入驻

刚刚,DeepSeek 又发新模型,小而美玩出新高度

0
分享至

就在刚刚,DeepSeek 开源了一个 3B 模型 DeepSeek-OCR。虽然体量不大,但模型思路创新的力度着实不小。

众所周知,当前所有 LLM 处理长文本时都面临一个绕不开的困境:计算复杂度是平方级增长的。序列越长,算力烧得越狠。


于是,DeepSeek 团队想到了一个好办法。既然一张图能包含大量文字信息,而且用的 Token 还少,那不如直接把文本转成图像?这就是所谓的「光学压缩」——用视觉模态来给文本信息「瘦身」。

而 OCR 正好天然适合验证这个思路,因为它本身就是在做「视觉→文本」的转换,而且效果还能量化评估。


论文显示,DeepSeek-OCR 的压缩率能达到 10 倍,OCR 准确率还能保持在 97% 以上。

啥意思呢?就是说,原本需要 1000 个文本 Token 才能表达的内容,现在只用 100 个视觉 Token 就搞定了。即使压缩率拉到 20 倍,准确率也还有 60% 左右,整体效果相当能打。

OmniDocBench 基准测试结果显示:

只用 100 个视觉 Token,就超过了 GOT-OCR2.0(每页 256 个 Token)的表现

用不到 800 个视觉 Token,干翻了 MinerU2.0(平均每页超过 6000 个 Token)

在实际生产中,一块 A100-40G 显卡就能每天生成超过 20 万页的 LLM/VLM 训练数据。20 个节点(160 块 A100)直接飙到每天 3300 万页。


DeepSeek-OCR 由两个核心组件组成:

DeepEncoder(编码器):负责图像特征提取和压缩

DeepSeek3B-MoE(解码器):负责从压缩后的视觉 Token 中重建文本

让我们来重点说说 DeepEncoder 这个引擎。

它的架构很巧妙,通过把 SAM-base(8000 万参数)和 CLIP-large(3 亿参数)串联起来,前者负责「窗口注意力」提取视觉特征,后者负责「全局注意力」理解整体信息。

中间还加了个 16×卷积压缩器,在进入全局注意力层之前把 Token 数量大幅砍掉。

举例而言,一张 1024×1024 的图像,会被切成 4096 个 patch token。但经过压缩器处理后,进入全局注意力层的 Token 数量会大幅减少。

这样的好处是,既保证了处理高分辨率输入的能力,又控制住了激活内存的开销。

而且 DeepEncoder 还支持多分辨率输入,从 512×512 的 Tiny 模式(64 个 Token)到 1280×1280 的 Large 模式(400 个 Token),一个模型全搞定。

目前开源版本支持的模式包括原生分辨率的 Tiny、Small、Base、Large 四档,还有动态分辨率的 Gundam 模式,灵活性拉满。


解码器用的是 DeepSeek-3B-MoE 架构。

别看只有 3B 参数,但采用了 MoE(混合专家)设计——64 个专家中激活 6 个,再加 2 个共享专家,实际激活参数约 5.7 亿。这也让模型既有 30 亿参数模型的表达能力,又保持了 5 亿参数模型的推理效率。

解码器的任务就是从压缩后的视觉 Token 中重建出原始文本,这个过程可以通过 OCR 风格的训练被紧凑型语言模型有效学习。

数据方面,DeepSeek 团队也是下了血本。

从互联网收集了 3000 万页多语言 PDF 数据,涵盖约 100 种语言,其中中英文占 2500 万页。

数据分两类:粗标注直接用 fitz 从 PDF 提取,主要训练少数语言的识别能力;精标注用 PP-DocLayout、MinerU、GOT-OCR2.0等模型生成,包含检测与识别交织的高质量数据。

对于少数语言,团队还搞了个「模型飞轮」机制——先用有跨语言泛化能力的版面分析模型做检测,再用 fitz 生成的数据训练 GOT-OCR2.0,然后用训练好的模型反过来标注更多数据,循环往复最终生成了 60 万条样本。

此外还有 300 万条 Word 文档数据,主要提升公式识别和 HTML 表格解析能力。

场景 OCR 方面,从 LAION 和 Wukong 数据集收集图像,用 PaddleOCR 标注,中英文各 1000 万条样本。


DeepSeek-OCR 不仅能识别文字,还具备「深度解析」能力,只需一个统一的提示词,就能对各种复杂图像进行结构化提取:

图表:金融研究报告中的图表可以直接提取为结构化数据

化学结构式:识别并转换为 SMILES 格式

几何图形:对平面几何图形进行复制和结构化解析

自然图像:生成密集描述(dense captions)

这在 STEM 领域的应用潜力巨大,尤其是化学、物理、数学等需要处理大量符号和图形的场景。



第一作者
Haoran Wei 此前曾供职于阶跃星辰,期间发布并开源了 GOT-OCR2.0 系统

值得注意的是,DeepSeek 团队在论文里还提出了一个脑洞大开的想法——用光学压缩模拟人类的遗忘机制。

人类的记忆会随时间衰退,越久远的事情记得越模糊。DeepSeek 团队想,那能不能让 AI 也这样?于是,他们的方案是:

1.

把超过第 k 轮的历史对话内容渲染成图像

2.

初步压缩,实现约 10 倍的 Token 减少

3.

对于更久远的上下文,继续缩小图像尺寸

4.

随着图像越来越小,内容也越来越模糊,最终达到「文本遗忘」的效果

这就很像人类记忆的衰退曲线,近期信息保持高保真度,久远记忆自然淡化。

虽然这还是个早期研究方向,但如果真能实现,对于处理超长上下文将是个巨大突破——近期上下文保持高分辨率,历史上下文占用更少计算资源,理论上可以支撑「无限上下文」。


简言之,DeepSeek-OCR 表面上是个 OCR 模型,但实际上是在探索一个更宏大的命题:能否用视觉模态作为 LLM 文本信息处理的高效压缩媒介?

初步答案是肯定的,7-20 倍的 Token 压缩能力已经展现出来了。

当然,团队也承认这只是个开始。单纯的 OCR 还不足以完全验证「上下文光学压缩」,后续还计划开展数字–光学文本交替预训练、「大海捞针」式测试,以及其他系统性评估。

不过不管怎么说,这在 VLM 和 LLM 的进化路上,又多了一条新赛道。

去年这个时候,大家还在卷怎么让模型「记得更多」。今年 DeepSeek 直接反其道行之,不如让模型学会「忘掉一些」。

确然,AI 的进化,有时候不是做加法,而是做减法。小而美,也能玩出大花样,DeepSeek-OCR 这个 3B 小模型就是最好的证明。


GitHub 主页:

http://github.com/deepseek-ai/DeepSeek-OCR

论文地址:

https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek\_OCR\_paper.pdf

模型下载:

https://huggingface.co/deepseek-ai/DeepSeek-OCR

欢迎加入 APPSO AI 社群,一起畅聊 AI 产品,获取,解锁更多 AI 新知

我们正在招募伙伴

简历投递邮箱hr@ifanr.com

✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深圳首次以市委、市政府名义表彰企业家和企业

深圳首次以市委、市政府名义表彰企业家和企业

南方都市报
2025-11-01 16:00:13
中央公开通报当天,中国信息协会表态:严肃问责相关负责人

中央公开通报当天,中国信息协会表态:严肃问责相关负责人

新京报
2025-11-01 17:00:07
“教授8万副教授7万博士6万”:部分高校职称晋升现“金钱游戏”,教师横向课题考核催生造假产业链

“教授8万副教授7万博士6万”:部分高校职称晋升现“金钱游戏”,教师横向课题考核催生造假产业链

红星新闻
2025-10-31 21:35:21
不到2天卷走129亿!又一平台暴雷,200万人被坑惨,主使逃往国外

不到2天卷走129亿!又一平台暴雷,200万人被坑惨,主使逃往国外

史行途
2025-11-01 18:05:07
打胎小生被大佬玩到脱G!墨镜导演让女明星陪大佬!

打胎小生被大佬玩到脱G!墨镜导演让女明星陪大佬!

八卦疯叔
2025-11-01 14:20:03
确实廉颇老矣了!保罗在回归快船后并没有起到很好的效果?

确实廉颇老矣了!保罗在回归快船后并没有起到很好的效果?

稻谷与小麦
2025-11-02 00:02:24
外国妹子从中国电商平台买了盏“可颂灯”,收到后总觉得哪里不对…...咬了一口后惊呆了!

外国妹子从中国电商平台买了盏“可颂灯”,收到后总觉得哪里不对…...咬了一口后惊呆了!

最英国
2025-11-01 17:13:32
王思聪近况有点惨:香港平价餐厅吃饭,一个人好落寞下巴后缩严重

王思聪近况有点惨:香港平价餐厅吃饭,一个人好落寞下巴后缩严重

小娱乐悠悠
2025-10-03 14:13:04
58岁女星自曝曾三度流产,膀胱撕裂致不孕不育,不介意老公出轨

58岁女星自曝曾三度流产,膀胱撕裂致不孕不育,不介意老公出轨

仙味少女心
2025-11-01 00:04:22
活久见!山东一宝马汽车“穿棉袄”,网友:天冷,别冻着我的活爹

活久见!山东一宝马汽车“穿棉袄”,网友:天冷,别冻着我的活爹

火山诗话
2025-11-01 13:41:41
与周迅离婚4年,那个独自跑去美国的前夫高圣远,如今怎么样了?

与周迅离婚4年,那个独自跑去美国的前夫高圣远,如今怎么样了?

暖心萌阿菇凉
2025-10-31 23:42:45
布达诺夫指挥特种部队突袭波克罗夫斯克的俄军,结果失败了

布达诺夫指挥特种部队突袭波克罗夫斯克的俄军,结果失败了

山河路口
2025-11-01 19:56:56
川普宣布重启核试验,俄赶紧澄清:我们不是真的,您别当真

川普宣布重启核试验,俄赶紧澄清:我们不是真的,您别当真

移光幻影
2025-11-01 09:16:35
西班牙足坛传噩耗!38岁队长撞碎书店玻璃身亡,全队取消比赛守灵

西班牙足坛传噩耗!38岁队长撞碎书店玻璃身亡,全队取消比赛守灵

丁丁鲤史纪
2025-11-01 17:44:47
人民日报发声!物业改革多地落地:物业费真降了,这4笔费可拒交

人民日报发声!物业改革多地落地:物业费真降了,这4笔费可拒交

振华观史
2025-10-30 08:27:30
乌克兰摧毁俄罗斯规模最大的变电站!距离莫斯科仅180公里

乌克兰摧毁俄罗斯规模最大的变电站!距离莫斯科仅180公里

项鹏飞
2025-10-31 19:26:03
唐嫣罗晋被曝离婚传闻后,恶心的一幕出现了,答案早已一目了然

唐嫣罗晋被曝离婚传闻后,恶心的一幕出现了,答案早已一目了然

老吴教育课堂
2025-11-01 14:50:25
全球最安全城市排名出炉:旧金山第15,中国未上榜!

全球最安全城市排名出炉:旧金山第15,中国未上榜!

凑近看世界
2025-10-31 14:53:52
见识过令人拍案叫绝的临场反应吗?评论区:我等凡人只有五体投地

见识过令人拍案叫绝的临场反应吗?评论区:我等凡人只有五体投地

夜深爱杂谈
2025-10-31 19:29:00
入睡时间缩短10倍!北大研究揭示:3亿人失眠或是肠道里缺了它

入睡时间缩短10倍!北大研究揭示:3亿人失眠或是肠道里缺了它

思思夜话
2025-10-31 11:52:53
2025-11-02 00:56:49
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
5790文章数 26690关注度
往期回顾 全部

科技要闻

事关安世半导体,商务部最新发声!

头条要闻

郑丽文:台湾正处于最困难、最危险的时刻

头条要闻

郑丽文:台湾正处于最困难、最危险的时刻

体育要闻

NBA球员,必须吃夜宵

娱乐要闻

王家卫这波录音,撕烂了遮羞布

财经要闻

前CTO索赔42.87亿 158亿股权归属成谜?

汽车要闻

M3旅行版上市售94.39万元 告别平行进口

态度原创

教育
时尚
房产
家居
军事航空

教育要闻

最近的校园霸凌事件警醒家长:女儿过了11岁,一定要拴在裤腰带上

伊姐周六热推:电视剧《树影迷宫》;电视剧《锦月令》......

房产要闻

实力破圈!这个豪宅交付,正在定义海口品质样本!

家居要闻

吸睛艺术 富有传奇色彩

军事要闻

卡塔尔:加沙可能陷入“无战无和”局面

无障碍浏览 进入关怀版