网易首页 > 网易号 > 正文 申请入驻

DeepSeek开源OCR-2模型,梁文锋带队探索新架构

0
分享至



出品|搜狐科技

作者|常博硕

编辑| 杨 锦

临近春节,DeepSeek的更新也越来越频繁了。

刚刚,DeepSeek团队发布了论文《DeepSeek-OCR 2:Visual Causal Flow》,并正式开源了DeepSeek-OCR 2模型。论文三位作者分别是魏浩然、孙耀峰和李宇琨。


要读懂这篇文章,首先要知道的一个问题就是:啥是OCR?

其实,OCR是光学字符识别(Optical Character Recognition)的缩写,基本思路就是让计算机能看懂图像中的文字。比如我们把手机拍摄的发票、合同扫描件、书籍照片等转换成计算机可以编辑和搜索的文字内容,这就是OCR。

传统OCR模型通常遵循扫描式的思路,首先检测图像中的文字区域,再一个字一个字或一行一行地识别,这种固定扫描顺序就容易忽略文档的整体结构。但人不是这样的,我们在阅读复杂文档时,通常会先浏览标题然后看看段落表格,会有优先级排序,而不是机械地从左上到右下扫过页面。

现在的问题是,当文档结构复杂到一定程度时,AI就不知道先看哪儿了。像学术论文一般是多栏排版,文章中还有公式与正文交错出现,技术报告中的表格与注释,报纸版面等等这些都对模型提出了超出传统OCR的要求。

所以,DeepSeek新开源的DeepSeek-OCR 2模型其实就是为了让机器阅读更像人而设计的。


提出视觉因果流

DeepSeek-OCR 2作为新一代视觉语言OCR模型,核心创新在于提出了视觉因果流(Visual Causal Flow)的编码器架构。

DeepSeek-OCR 2的整体架构延续了DeepSeek-OCR的“编码器—解码器”设计,其中解码器仍然采用约3B参数的MoE语言模型,编码器部分则升级为DeepEncoder V2。

从论文中看,DeepEncoder V2编码器通过引入语义驱动的顺序重排,使AI能够根据图片内容的逻辑顺序来处理信息,而不再只是按照固定的栅格顺序。


上图示意了DeepSeek-OCR 2的核心架构。左边为传统DeepEncoder,使用CLIP视觉模型,右图为DeepEncoder V2。新的架构使用了语言模型作为视觉编码器(LM as Vision Encoder),并在视觉Token序列后附加了因果查询(learnable query),用于新的阅读顺序排列。

一个关键的点在于,DeepSeek-OCR 2使用了语言模型架构作为视觉编码器。

在DeepEncoder V2中,DeepSeek用一个轻量级语言模型(Qwen2-500M)取代了传统的CLIP ViT。这样做就可以让模型在视觉编码阶段本身就具备序列建模和因果推理能力,使得其与后续的语言解码阶段在建模范式上保持一致。

从架构上看,DeepSeek-OCR 2并未增加视觉token的数量,也没有引入额外的多模态复杂结构,而是通过注意力掩码的重新设计,让“顺序”成为可学习的对象。这使得模型在处理表格、公式、多栏排版等场景时,能够更自然地恢复文档的逻辑结构。

注意力掩码的设计其实十分有意思。在编码器中,视觉token与一组新增的因果流查询token被拼接成一个统一序列,但两者在注意力机制上其实是非对称的。

视觉token之间采用双向注意力,保持与ViT类似的全局建模能力。而查询token之间采用严格的因果注意力,每个query(查询)只能关注其之前的query,同时,每个查询token都可以访问所有视觉token。


在这种注意力掩码的作用下,查询token被迫以序列化方式逐步聚合视觉信息,其内部顺序不再由空间坐标决定,而是在训练过程中,在语义建模目标的驱动下逐步形成更接近人类阅读逻辑的视觉表示序列。

这种设计就和人类阅读文档的方式高度相似,首先获取全局结构,随后在语义理解的引导下,决定接下来该看哪里。


部分表现优于Gemini

在OmniDocBench v1.5基准测试中,DeepSeek-OCR 2在整体准确率上达到91.09%,在使用最少视觉token的情况下,较上一代DeepSeek-OCR提升了3.73%。

在衡量阅读顺序(R-order)的指标编辑距离(Edit Distance)上,DeepSeek-OCR 2从前代的0.085降低到了0.057,证明了新模型不仅识别得更准,结构理解能力也发生了实质变化。

在和Gemini-3 Pro等闭源强模型的对比中,在均使用约1120个视觉Token的情况下,DeepSeek-OCR2的文档解析编辑距离(0.100)也优于Gemini-3 Pro(0.115)。

根据DeepSeek披露的数据,在真实用户日志与PDF批量处理场景中,DeepSeek-OCR 2的重复输出率也有了明显下降。

相比前代模型,DeepSeek-OCR 2在在线用户日志图像中,重复率从6.25%降至4.17%。在PDF数据生产场景中,重复率从3.69%降至2.88%。重复输出往往源于模型对文档结构理解不充分,导致内容会被多次误读,从结果来看,视觉因果流的引入也有效缓解了这一问题。

如果放在更宏观一点的角度,其实DeepSeek-OCR 2还提供了一种新的框架思路,那就是二维视觉理解,是否可以拆解为两层一维因果推理。在这一框架下,编码器负责怎么读内容,解码器负责如何回答,两者共同完成对复杂视觉内容的理解。

这也是DeepSeek在论文最后提出的一个长期方向——原生多模态(Native Multimodality)。如果同一套因果查询机制可以用于视觉、文本甚至音频,那么OCR可能只是这一架构的起点,而不是终点。

正如论文最后所说,虽然光学文本识别,特别是文档解析,是大语言模型时代最实用的视觉任务之一,但它仅占视觉理解领域的一小部分。

展望未来,DeepSeek将向着更通用的多模态智能继续“深度求索”。



运营编辑 |曹倩审核|孟莎莎




特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
香烟热度榜!烟民贡献万亿税收,年度销冠竟是这个品牌…

香烟热度榜!烟民贡献万亿税收,年度销冠竟是这个品牌…

慧翔百科
2025-12-24 09:14:14
惬意,卡纳瓦罗在里约和巴西前国脚迭戈一起骑自行车

惬意,卡纳瓦罗在里约和巴西前国脚迭戈一起骑自行车

懂球帝
2026-02-07 11:06:09
杭州一打金店称扫出1700克金粉价值200万,网友质疑其偷金宰客,店方喊冤:我们包损耗,重量变化会多退少补

杭州一打金店称扫出1700克金粉价值200万,网友质疑其偷金宰客,店方喊冤:我们包损耗,重量变化会多退少补

极目新闻
2026-02-05 17:56:18
最高院:失能不等于失信,严查将失能被执行人纳入失信名单!

最高院:失能不等于失信,严查将失能被执行人纳入失信名单!

老汤胡说
2026-02-06 08:25:03
斗不过特朗普,古特雷斯即将下台,临走前点名中美:别想共管世界

斗不过特朗普,古特雷斯即将下台,临走前点名中美:别想共管世界

boss外传
2026-02-06 14:00:03
我表哥娶了个外国媳妇,天天抱怨:抱着俄罗斯老婆,堪比抱个刺猬

我表哥娶了个外国媳妇,天天抱怨:抱着俄罗斯老婆,堪比抱个刺猬

千秋文化
2026-01-22 17:10:43
官方:喀麦隆球员恩加德乌正式加盟重庆铜梁龙

官方:喀麦隆球员恩加德乌正式加盟重庆铜梁龙

体坛周报
2026-02-07 11:27:19
马年暴富预警!这3生肖财运开挂,钱袋子比谁都鼓

马年暴富预警!这3生肖财运开挂,钱袋子比谁都鼓

毅谈生肖
2026-02-07 08:45:09
发现一本被禁300年的清代奇书!尺度大到震惊现代人

发现一本被禁300年的清代奇书!尺度大到震惊现代人

尚曦读史
2026-02-05 07:03:14
程潇为什么被称为“奶潇”?看了这张图片后秒懂,不愧是内娱身材数一数二的女明星!

程潇为什么被称为“奶潇”?看了这张图片后秒懂,不愧是内娱身材数一数二的女明星!

背包旅行
2026-02-02 15:03:55
上海航班上,一旅客突发疾病,幸好同机有三名瑞金医院医护人员……

上海航班上,一旅客突发疾病,幸好同机有三名瑞金医院医护人员……

上观新闻
2026-02-06 10:40:04
家长称巧克力出现活虫,“一整袋被孩子吃得仅剩一块” 超市赔偿2000元并调查

家长称巧克力出现活虫,“一整袋被孩子吃得仅剩一块” 超市赔偿2000元并调查

极目新闻
2026-02-07 13:35:16
29元韭菜炒蚌壳肉吃出粉色珍珠?网友直呼新年好运,门店:情况少见,可免费拿走

29元韭菜炒蚌壳肉吃出粉色珍珠?网友直呼新年好运,门店:情况少见,可免费拿走

极目新闻
2026-02-07 12:54:35
肯纳德亮相湖人训练馆!最快首秀战勇士 高中生涯得分高于詹姆斯

肯纳德亮相湖人训练馆!最快首秀战勇士 高中生涯得分高于詹姆斯

罗说NBA
2026-02-07 06:59:55
10年打磨!新一代理想L9官宣,全线控底盘+自研5nm芯片,冲击60万价位,太猛了!

10年打磨!新一代理想L9官宣,全线控底盘+自研5nm芯片,冲击60万价位,太猛了!

极果酷玩
2026-02-06 21:32:08
罪犯陈某某(2001年生),强奸10名未成年少女,含4名幼女,被执行死刑

罪犯陈某某(2001年生),强奸10名未成年少女,含4名幼女,被执行死刑

深圳晚报
2026-02-07 12:58:47
一心想骑在人民头上作威作福?“全职考公”这种歪风应当遏制

一心想骑在人民头上作威作福?“全职考公”这种歪风应当遏制

北欧模式
2026-01-01 21:32:49
突击检查全国武器库!一定要严防被掉包,甲午战争悲剧绝不能重演

突击检查全国武器库!一定要严防被掉包,甲午战争悲剧绝不能重演

爱吃醋的猫咪
2026-01-27 20:31:00
荣耀否认抄袭iPhone,客服:独立设计

荣耀否认抄袭iPhone,客服:独立设计

观察者网
2026-02-04 15:58:45
黄蜂公牛重谈交易达成4换2!火箭迎来利好,斯通一点都不急

黄蜂公牛重谈交易达成4换2!火箭迎来利好,斯通一点都不急

小染说台球
2026-02-07 13:16:23
2026-02-07 14:08:49
搜狐科技 incentive-icons
搜狐科技
搜狐科技官方账号
4682文章数 9178关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

特朗普公开"表白"支持高市早苗 中方发表看法

头条要闻

特朗普公开"表白"支持高市早苗 中方发表看法

体育要闻

中国体育代表团亮相米兰冬奥会开幕式

娱乐要闻

何超欣说和何猷君没竞争,实力遭质疑

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

AITO问界与Abu Dhabi Motors达成战略合作

态度原创

游戏
旅游
健康
亲子
军事航空

《恐惧幻觉》今春登陆主机 特别好评开放世界RPG

旅游要闻

圆明园新春游园会开幕!马年文创花式出圈

转头就晕的耳石症,能开车上班吗?

亲子要闻

特效小黑人

军事要闻

重大转变 特朗普签令调整军售排序

无障碍浏览 进入关怀版