网易首页 > 网易号 > 正文 申请入驻

DeepSeek开源OCR-2模型,梁文锋带队探索新架构

0
分享至



出品|搜狐科技

作者|常博硕

编辑| 杨 锦

临近春节,DeepSeek的更新也越来越频繁了。

刚刚,DeepSeek团队发布了论文《DeepSeek-OCR 2:Visual Causal Flow》,并正式开源了DeepSeek-OCR 2模型。论文三位作者分别是魏浩然、孙耀峰和李宇琨。


要读懂这篇文章,首先要知道的一个问题就是:啥是OCR?

其实,OCR是光学字符识别(Optical Character Recognition)的缩写,基本思路就是让计算机能看懂图像中的文字。比如我们把手机拍摄的发票、合同扫描件、书籍照片等转换成计算机可以编辑和搜索的文字内容,这就是OCR。

传统OCR模型通常遵循扫描式的思路,首先检测图像中的文字区域,再一个字一个字或一行一行地识别,这种固定扫描顺序就容易忽略文档的整体结构。但人不是这样的,我们在阅读复杂文档时,通常会先浏览标题然后看看段落表格,会有优先级排序,而不是机械地从左上到右下扫过页面。

现在的问题是,当文档结构复杂到一定程度时,AI就不知道先看哪儿了。像学术论文一般是多栏排版,文章中还有公式与正文交错出现,技术报告中的表格与注释,报纸版面等等这些都对模型提出了超出传统OCR的要求。

所以,DeepSeek新开源的DeepSeek-OCR 2模型其实就是为了让机器阅读更像人而设计的。


提出视觉因果流

DeepSeek-OCR 2作为新一代视觉语言OCR模型,核心创新在于提出了视觉因果流(Visual Causal Flow)的编码器架构。

DeepSeek-OCR 2的整体架构延续了DeepSeek-OCR的“编码器—解码器”设计,其中解码器仍然采用约3B参数的MoE语言模型,编码器部分则升级为DeepEncoder V2。

从论文中看,DeepEncoder V2编码器通过引入语义驱动的顺序重排,使AI能够根据图片内容的逻辑顺序来处理信息,而不再只是按照固定的栅格顺序。


上图示意了DeepSeek-OCR 2的核心架构。左边为传统DeepEncoder,使用CLIP视觉模型,右图为DeepEncoder V2。新的架构使用了语言模型作为视觉编码器(LM as Vision Encoder),并在视觉Token序列后附加了因果查询(learnable query),用于新的阅读顺序排列。

一个关键的点在于,DeepSeek-OCR 2使用了语言模型架构作为视觉编码器。

在DeepEncoder V2中,DeepSeek用一个轻量级语言模型(Qwen2-500M)取代了传统的CLIP ViT。这样做就可以让模型在视觉编码阶段本身就具备序列建模和因果推理能力,使得其与后续的语言解码阶段在建模范式上保持一致。

从架构上看,DeepSeek-OCR 2并未增加视觉token的数量,也没有引入额外的多模态复杂结构,而是通过注意力掩码的重新设计,让“顺序”成为可学习的对象。这使得模型在处理表格、公式、多栏排版等场景时,能够更自然地恢复文档的逻辑结构。

注意力掩码的设计其实十分有意思。在编码器中,视觉token与一组新增的因果流查询token被拼接成一个统一序列,但两者在注意力机制上其实是非对称的。

视觉token之间采用双向注意力,保持与ViT类似的全局建模能力。而查询token之间采用严格的因果注意力,每个query(查询)只能关注其之前的query,同时,每个查询token都可以访问所有视觉token。


在这种注意力掩码的作用下,查询token被迫以序列化方式逐步聚合视觉信息,其内部顺序不再由空间坐标决定,而是在训练过程中,在语义建模目标的驱动下逐步形成更接近人类阅读逻辑的视觉表示序列。

这种设计就和人类阅读文档的方式高度相似,首先获取全局结构,随后在语义理解的引导下,决定接下来该看哪里。


部分表现优于Gemini

在OmniDocBench v1.5基准测试中,DeepSeek-OCR 2在整体准确率上达到91.09%,在使用最少视觉token的情况下,较上一代DeepSeek-OCR提升了3.73%。

在衡量阅读顺序(R-order)的指标编辑距离(Edit Distance)上,DeepSeek-OCR 2从前代的0.085降低到了0.057,证明了新模型不仅识别得更准,结构理解能力也发生了实质变化。

在和Gemini-3 Pro等闭源强模型的对比中,在均使用约1120个视觉Token的情况下,DeepSeek-OCR2的文档解析编辑距离(0.100)也优于Gemini-3 Pro(0.115)。

根据DeepSeek披露的数据,在真实用户日志与PDF批量处理场景中,DeepSeek-OCR 2的重复输出率也有了明显下降。

相比前代模型,DeepSeek-OCR 2在在线用户日志图像中,重复率从6.25%降至4.17%。在PDF数据生产场景中,重复率从3.69%降至2.88%。重复输出往往源于模型对文档结构理解不充分,导致内容会被多次误读,从结果来看,视觉因果流的引入也有效缓解了这一问题。

如果放在更宏观一点的角度,其实DeepSeek-OCR 2还提供了一种新的框架思路,那就是二维视觉理解,是否可以拆解为两层一维因果推理。在这一框架下,编码器负责怎么读内容,解码器负责如何回答,两者共同完成对复杂视觉内容的理解。

这也是DeepSeek在论文最后提出的一个长期方向——原生多模态(Native Multimodality)。如果同一套因果查询机制可以用于视觉、文本甚至音频,那么OCR可能只是这一架构的起点,而不是终点。

正如论文最后所说,虽然光学文本识别,特别是文档解析,是大语言模型时代最实用的视觉任务之一,但它仅占视觉理解领域的一小部分。

展望未来,DeepSeek将向着更通用的多模态智能继续“深度求索”。



运营编辑 |曹倩审核|孟莎莎




特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
拜仁4-3皇马,赛后评分出炉:不是姆巴佩第一,皇马15号排第一

拜仁4-3皇马,赛后评分出炉:不是姆巴佩第一,皇马15号排第一

侧身凌空斩
2026-04-16 05:03:19
安赛龙宣布退役:腰伤反复,经手术和无数次封闭治疗,已无法征战;曾两获奥运冠军,一口流利中文引热议

安赛龙宣布退役:腰伤反复,经手术和无数次封闭治疗,已无法征战;曾两获奥运冠军,一口流利中文引热议

极目新闻
2026-04-15 14:13:50
马筱梅刚回到北京,又一次做错了选择,急功近利,背刺兰姐

马筱梅刚回到北京,又一次做错了选择,急功近利,背刺兰姐

魔都姐姐杂谈
2026-04-16 04:53:34
越来越多人得病,医生提醒:洗碗时的这几个坏习惯,看看你有吗?

越来越多人得病,医生提醒:洗碗时的这几个坏习惯,看看你有吗?

白话电影院
2026-04-09 14:32:27
山东回应“举债3.68亿、总投资超7亿的农业基地不干农业,却有健身房、棋牌室等”:成立联合调查组,严肃追责问责

山东回应“举债3.68亿、总投资超7亿的农业基地不干农业,却有健身房、棋牌室等”:成立联合调查组,严肃追责问责

大象新闻
2026-04-15 09:45:04
这罚球看的人一把汗...上海男篮有惊无险取得20连胜

这罚球看的人一把汗...上海男篮有惊无险取得20连胜

五星体育
2026-04-15 21:53:20
新婚夜妻子不愿让我碰,我当夜回单位,半年后她抱娃来给我一封信

新婚夜妻子不愿让我碰,我当夜回单位,半年后她抱娃来给我一封信

卡西莫多的故事
2026-04-09 10:06:47
斯诺克正赛名单诞生!赵心童、丁俊晖迎来新帮手,江俊输球砸球台

斯诺克正赛名单诞生!赵心童、丁俊晖迎来新帮手,江俊输球砸球台

曹说体育
2026-04-15 11:01:08
吃相太难看!莫氏鸡煲爆火后,恶心一幕出现,终走上呆呆妹的老路

吃相太难看!莫氏鸡煲爆火后,恶心一幕出现,终走上呆呆妹的老路

以茶带书
2026-04-15 17:30:12
接下来的广州,地铁、燃气、水费都要涨价?

接下来的广州,地铁、燃气、水费都要涨价?

南沙部落
2026-04-15 09:53:21
国家其实已经暗示得很明白了,只是很多人一直没真正听明白!

国家其实已经暗示得很明白了,只是很多人一直没真正听明白!

Ck的蜜糖
2026-04-10 17:45:46
张婉婷曝宋宁峰近况:他每天就是下跪、哭、悔过,就是死都不离开

张婉婷曝宋宁峰近况:他每天就是下跪、哭、悔过,就是死都不离开

观鱼听雨
2026-04-15 22:30:00
突发,武汉一大型商超宣布闭店!

突发,武汉一大型商超宣布闭店!

蓝色海边
2026-04-16 01:35:05
《八千里路云和月》结局揭秘:亲生父母为何成了“认贼作父”的悲剧?

《八千里路云和月》结局揭秘:亲生父母为何成了“认贼作父”的悲剧?

小椰的奶奶
2026-04-16 01:30:07
台海观察:十项涉台新政充满诚意善意,岛内期盼惠及各行各业

台海观察:十项涉台新政充满诚意善意,岛内期盼惠及各行各业

上观新闻
2026-04-15 06:55:05
曝“钻山豹”申军谊患脑梗!68岁头发花白,脑梗后拄拐出行,前任嫁给他好兄弟

曝“钻山豹”申军谊患脑梗!68岁头发花白,脑梗后拄拐出行,前任嫁给他好兄弟

乡野小珥
2026-04-16 03:57:11
历经45天冲突,伊朗终于认清最大敌人非美以,而是自己

历经45天冲突,伊朗终于认清最大敌人非美以,而是自己

月光作笺a
2026-04-15 20:22:16
开业仅2年,淮安这家综合体却有大批商铺空了!

开业仅2年,淮安这家综合体却有大批商铺空了!

微淮安
2026-04-15 20:04:07
原来温瑞博的爸爸是他!曾是乒乓球队顶梁柱,难怪19岁儿子这么牛

原来温瑞博的爸爸是他!曾是乒乓球队顶梁柱,难怪19岁儿子这么牛

林子说事
2026-04-15 11:34:09
中央广电总台启动1.34亿元CDN服务采购 腾讯云、阿里云、网宿三家力拼!没想到结果是这样

中央广电总台启动1.34亿元CDN服务采购 腾讯云、阿里云、网宿三家力拼!没想到结果是这样

新浪财经
2026-04-15 18:38:30
2026-04-16 05:36:49
搜狐科技 incentive-icons
搜狐科技
搜狐科技官方账号
4771文章数 7984关注度
往期回顾 全部

科技要闻

ChatGPT十亿用户又怎样?Anthropic直接贴脸

头条要闻

法国全票通过 “将不义之财归还中国”

头条要闻

法国全票通过 “将不义之财归还中国”

体育要闻

三球准绝杀戴大金链:轰30+10自我救赎

娱乐要闻

谢娜现身环球影城,牵手女儿温馨有爱

财经要闻

业绩失速的Lululemon:"健康"人设崩塌?

汽车要闻

空间丝毫不用妥协 小鹏GX首发评测

态度原创

家居
教育
数码
亲子
公开课

家居要闻

简而不减 暖居之道

教育要闻

黄冈小升初招生题,求面积,方法思路太绝了

数码要闻

明基新款显示器首发12499元:4K专业级色彩校准 根据环境光自动调整

亲子要闻

孕妇200买水果被骂后续:已终止妊娠,男方崩溃砸东西,网友炸锅

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版