网易首页 > 网易号 > 正文 申请入驻

DeepSeek-OCR 开源!为AI装上眼睛的深远影响

0
分享至

现在大语言模型处理长文本特头疼:字一多,token数量就炸了,又费钱又慢。

结果DeepSeek团队盯着这问题琢磨,突然发现个事儿:一页文字纯文本输进去,得2000到5000个token,可要是渲染成图片,用视觉模型处理,居然只要200到400个视觉token!

压缩率直接飙到10倍,这差距也太离谱了。

结果还真让他们搞出来了,就是这个DeepSeek-OCR。


说穿了,这模型的核心想法特简单:用视觉感知帮长文本瘦身。

就像DeepSeek在报告里说的,靠这招能把不同阶段的文本token减7到20倍,算是给长文本处理开了条新路子。

其实想想也合理,DeepSeek团队一直就爱琢磨用更少资源干大事,之前做的模型就想跟OpenAI、谷歌掰掰手腕,现在把这思路用到OCR上,倒也不意外。

再说说它是怎么干活的,其实就两步:先把文字变成图片,用个视觉编码器(叫DeepEncoder)压小,再用个文本解码器(DeepSeek-3B-MoE)把字重建出来。

我特地扒了扒这个DeepEncoder,这才是真脑洞:把两个知名视觉模型拼一块儿了,SAM-base负责盯细节,比如字的笔画、排版。

CLIP-Large负责看整体,把握页面结构。

中间还加了个16倍的卷积压缩模块,就拿1024×1024的文档图来说,普通视觉模型得出4096个特征块,它一压缩,只出256个视觉token!


这下就不用怕特征量爆炸,后续处理又快又省内存,这设计是真够巧的。

解码器那边呢,是个小尺寸的专家混合模型,总共5.7亿活跃参数,里面藏着64个小专家,每次解码只叫醒6个干活,从压缩后的视觉特征里一点点把文字抠出来。


最牛的是,它训练时啥都学了,不光普通文档,连表格、公式、化学分子结构、几何图形都能认,还能处理多语言PDF。



要知道,这些结构化信息,好多传统OCR碰都不敢碰,它倒好,全给包圆了。

还有个细节特贴心:它能根据文字密度和版面复杂度调压缩程度。

比如遇到特别大、特别复杂的页面,就开Gundam模式,跟InternVL2.0似的分块处理。

简单页面就少用点token省劲儿,复杂页面就细分保证accuracy,算是把效率和准确平衡得挺好。

说真的,这思路就像给长文本做有损压缩,借视觉模态信息密度高、冗余少的特点,少用token还能存住信息。

这模型终于开源了,我第一时间就去GitHub瞅了眼,权重和代码全放出来了,还用的MIT许可证,学术研究、商业应用随便用,对开发者来说简直是福利!

模型文件大概6.6GB,对应30亿参数规模,不过得用NVIDIAGPU跑,还得装Python3.12+、PyTorch2.6.0这些。

官方给的教程特详细,连怎么用Transformers库加载模型、调参数都写了,甚至还有PDF解析的示例脚本,连vLLM加速方案都给配了,社区还有人做了Docker镜像和Web界面,只要有点深度学习基础,基本都能跑起来。

不过有个小门槛,得有16GB以上显存的GPU。

再说说它的性能,我看测试数据的时候是真惊了!

在Fox基准测试里,用64个视觉token处理每页600-700个文本token的文档,准确率能到96.5%,压缩率6.7倍,加到100个视觉token,准确率直接飙到98.5%,压缩率10.5倍!

就算是每页1200-1300个token的密文,100个视觉token也能保59.1%的准确率,压缩快20倍!


速度也够能打,单张A100GPU一天能处理20万页文档,20台服务器(每台8张A100)一天能搞3300万页,对付大规模文档数字化完全没问题。

而且它参数才3亿级别,部署在本地或边缘设备都方便,延迟还低。

当然也不是没缺点,压缩到20倍以上,准确率就掉得明显,太复杂的版面或冷门字体也可能认错,但这些都是OCR领域的老难题了,DeepSeek-OCR能做到这份上,已经很能打了。

说实话,这模型能用到的地方太多了,处理长篇PDF、书籍扫描件,帮法律、金融、科研行业省时间。



支持100多种语言,跨国公司处理多语言报表、图书馆扫多语种古籍都能用。


未来这方向也挺值得期待的。

比如把它跟对话AI搭一块儿,用户传长篇文档,先用它压成视觉特征,再给语言模型处理,就能突破输入长度限制。

DeepSeek用这思路做对话记忆,人记东西会慢慢模糊一样,让模型把旧对话存成低分辨率记忆图,扩内存容量,这想法也太妙了。


而且它可能会改变OCR的技术路线,以前都是检测+识别,现在端到端的多模态OCR开始冒头了。

以后的OCR说不定不仅能识字,还能理解内容,直接出结构化结果,比如DeepSeek-OCR已经能处理图表出Markdown、认化学式出SMILES编码、看几何图形出坐标,以后只会更智能。


总的来说,DeepSeek-OCR不光是OCR领域的突破,更是AI多模态融合的一块里程碑。

它证明把文字当图片压缩这疯狂想法真能行,也给长文本处理找了条新路子。

就像DeepSeek在报告里说的,这只是对视觉文本压缩边界的初步探索,现在已经这么惊艳了,以后肯定还有更大的空间。

说不定再过阵子,大语言模型的脑子里,不只是抽象的文字token,还会存着一堆压缩的记忆图片,帮它更好地处理海量信息。

DeepSeek这波操作,是真敢想,也真做成了。

这场关于文字变图片的AI变革,才刚开头呢。

非常感谢您看本文章,如果感觉写的还可以的话,那就点个赞、转发一下吧~

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
粟裕汇报作战计划,毛泽东很惊讶:你打算一次性消灭450万蒋军?

粟裕汇报作战计划,毛泽东很惊讶:你打算一次性消灭450万蒋军?

大运河时空
2025-11-01 19:03:57
刘亦菲一字马标准吗?似乎不是每个人都适合练的,至少我是练不了

刘亦菲一字马标准吗?似乎不是每个人都适合练的,至少我是练不了

白宸侃片
2025-11-03 12:38:33
换了三套房才知道,“地暖”和“暖气片”哪个更好,幸亏没选错!

换了三套房才知道,“地暖”和“暖气片”哪个更好,幸亏没选错!

家居设计师苏哥
2025-11-02 10:39:34
8个月前洪金宝还有点念想,冯淬帆这一走他的愿望彻底实现不了了

8个月前洪金宝还有点念想,冯淬帆这一走他的愿望彻底实现不了了

小娱乐悠悠
2025-11-02 10:52:47
俄罗斯有多穷?莫斯科有多富?| 地球知识局

俄罗斯有多穷?莫斯科有多富?| 地球知识局

地球知识局
2025-10-28 20:28:17
中国斯诺克单日1胜4负!丁俊晖第3轮对手确定,肖国栋周跃龙陪跑

中国斯诺克单日1胜4负!丁俊晖第3轮对手确定,肖国栋周跃龙陪跑

刘姚尧的文字城堡
2025-11-03 19:36:49
72岁老人中毒身亡!医生提醒:吃完降压药千万别碰它,中老年要看

72岁老人中毒身亡!医生提醒:吃完降压药千万别碰它,中老年要看

39健康网
2025-10-28 19:30:54
中国正在大量囤油,一度吞掉世界9成囤量,是有什么大事要发生?

中国正在大量囤油,一度吞掉世界9成囤量,是有什么大事要发生?

次元君情感
2025-11-03 15:47:46
“辞职看世界”的女老师,10年后成这样:黯然回乡,老公已分开

“辞职看世界”的女老师,10年后成这样:黯然回乡,老公已分开

热风追逐者
2025-10-24 01:15:03
清华大学研究报告:个人养老金没成……

清华大学研究报告:个人养老金没成……

家传编辑部
2025-11-03 12:16:38
突破耐久极限?一辆特斯拉Model S被曝行驶260万公里

突破耐久极限?一辆特斯拉Model S被曝行驶260万公里

手机中国
2025-11-03 10:03:04
荷兰切断中国安世晶圆供应,德国也变脸了,180度转向令各方错愕

荷兰切断中国安世晶圆供应,德国也变脸了,180度转向令各方错愕

南宫一二
2025-11-03 10:50:43
不找矮个、不找穷人!31岁网球名将公开择偶标准,要求附银行流水

不找矮个、不找穷人!31岁网球名将公开择偶标准,要求附银行流水

往史过眼云烟
2025-11-03 14:24:12
网友分享:你捡过最大的漏是什么?看完笑到飞起!

网友分享:你捡过最大的漏是什么?看完笑到飞起!

特约前排观众
2025-09-29 00:05:12
丫蛋有三个孩子,大儿子王天琦是她与王金龙所生,于2011年出生。

丫蛋有三个孩子,大儿子王天琦是她与王金龙所生,于2011年出生。

百态人间
2025-10-31 14:43:12
刚刚公布:广东最新消费券来了

刚刚公布:广东最新消费券来了

珠江时报
2025-11-03 12:34:54
今年谁能有他猛!拿到亿元合同,当上球队老大,有望入选全明星

今年谁能有他猛!拿到亿元合同,当上球队老大,有望入选全明星

球毛鬼胎
2025-11-03 16:17:33
中共中央批准,开除王建军党籍

中共中央批准,开除王建军党籍

新京报政事儿
2025-11-03 11:13:13
村里建广场我赞助40万,却发现没我名字我淡定离开,三天后村长懵了

村里建广场我赞助40万,却发现没我名字我淡定离开,三天后村长懵了

眼泪博物
2025-08-22 18:21:23
张靓颖这下估计后半辈子都跟辣菜说拜拜了。

张靓颖这下估计后半辈子都跟辣菜说拜拜了。

小光侃娱乐
2025-11-03 18:15:03
2025-11-03 22:28:49
AI变革 incentive-icons
AI变革
AI时代的变革,无论你主不主动,都与你有关
114文章数 15关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

郑丽文公开表态愿意访问大陆100次:要来解决2个问题

头条要闻

郑丽文公开表态愿意访问大陆100次:要来解决2个问题

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

男导演曝丑闻 蒋欣的含金量还在上升

财经要闻

最新省市GDP:谁在飙升,谁掉队了?

汽车要闻

环比增长28.7% 方程豹品牌10月销量31052辆

态度原创

艺术
房产
旅游
家居
手机

艺术要闻

90后跨国夫妻,到浙江山居:花20万租20年,值了!

房产要闻

信达·繁花里 | 老照片征集活动 温情启幕

旅游要闻

摩旅湘西,偶遇湖南省最大的少数民族聚居安置区,感受却五味杂陈

家居要闻

岁月柔情 现代品质轻奢

手机要闻

真我GT8 Pro阿斯顿马丁F1限量版外观公布:车队同款激情柠撞色+银翼徽标

无障碍浏览 进入关怀版