网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

DeepSeek又拿第一！首创「因果流」视觉推理，超越Gemini

2026-01-27 15:51:42　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：定慧好困

【新智元导读】DeepSeek开源DeepSeek-OCR2，引入了全新的DeepEncoder V2视觉编码器。该架构打破了传统模型按固定顺序（从左上到右下）扫描图像的限制，转而模仿人类视觉的「因果流（Causal Flow）」逻辑。

DeepSeek又双叒叕更新了！

这次是DeepSeek-OCR模型的重磅升级：DeepSeek-OCR2。

还记得上一代DeepSeek-OCR吗？那个用视觉方式压缩一切的模型。

这一次，DeepSeek更进一步，对视觉编码器下手了，提出了一种全新的DeepEncoder V2架构，实现了视觉编码从「固定扫描」向「语义推理」的范式转变！

DeepSeek-OCR2不仅能像人类一样按逻辑顺序阅读复杂文档，还在多项基准测试中刷新了SOTA。

当然，按照DeepSeek的惯例，Paper、Code、Model全开源！

项目地址：

https://github.com/deepseek-ai/DeepSeek-OCR-2

模型下载：

https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

论文地址：

https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

DeepSeek-OCR2的核心创新在于通过DeepEncoder V2，赋予了模型因果推理能力（Causal Reasoning）。

这就像是给机器装上了「人类的阅读逻辑」，让AI不再只是死板地从左上到右下扫描图像，而是能根据内容语义灵活调整阅读顺序。

DeepSeek-OCR2

视觉因果流

DeepSeek在论文中指出，传统的视觉语言模型（VLM）通常采用光栅扫描（Raster-Scan）顺序处理图像，即固定地从左到右、从上到下。

这种方式强行将2D图像拍扁成1D序列，忽略了图像内部的语义结构。

这显然与人类的视觉习惯背道而驰。

人类在看图或阅读文档时，目光是随着逻辑流动的：先看标题，再看正文，遇到表格会按列或按行扫视，遇到分栏会自动跳跃。

为了解决这个问题，DeepSeek-OCR2引入了DeepEncoder V2。

它最大的特点是用一个轻量级的大语言模型（Qwen2-0.5B）替换了原本的CLIP编码器，并设计了一种独特的「因果流查询」（Causal Flow Query）机制。

DeepEncoder V2架构详解

DeepEncoder V2主要由两部分组成：

1. 视觉分词器（Vision Tokenizer）

沿用了SAM-base（80M参数）加卷积层的设计，将图像转换为视觉Token。

2. 作为视觉编码器的LLM

这里DeepSeek使用了一个Qwen2-0.5B模型。

它不仅处理视觉Token，还引入了一组可学习的「查询Token」（Query Tokens）。

关键的创新点在于注意力掩码（Attention Mask）的设计：

视觉Token之间采用双向注意力（Bidirectional Attention），保持全局感知能力，类似于ViT。

而查询Token则采用因果注意力（Causal Attention），每一个查询Token只能看到它之前的Token。

通过这种设计，DeepEncoder V2实现了两级级联的因果推理：

编码器通过可学习的查询对视觉Token进行语义重排，随后的LLM解码器则在这个有序序列上进行自回归推理。

这意味着，DeepSeek-OCR2在编码阶段就已经把图像里的信息「理顺」了，而不是一股脑地扔给解码器。

Token更少，精度更高

实验数据显示，DeepSeek-OCR2在保持极高压缩率的同时，性能显著提升。

在OmniDocBench v1.5基准测试中，DeepSeek-OCR2在使用最少视觉Token（仅256-1120个）的情况下，综合得分高达91.09%，相比前代提升了3.73%。

特别值得一提的是，在阅读顺序（R-order）的编辑距离（Edit Distance）指标上，DeepSeek-OCR2从前代的0.085显著降低到了0.057。

这直接证明了新模型在处理复杂版面时，逻辑性更强，更懂「阅读顺序」。

在和Gemini-3 Pro等闭源强模型的对比中，DeepSeek-OCR2也丝毫不落下风。

在均使用约1120个视觉Token的情况下，DeepSeek-OCR2的文档解析编辑距离（0.100）优于Gemini-3 Pro（0.115）。

不仅是刷榜，DeepSeek-OCR2在实际生产环境中也非常能打。

DeepSeek披露，在处理在线用户日志图像时，OCR结果的重复率从6.25%降到了4.17%；在PDF数据生产场景中，重复率从3.69%降到了2.88%。

这意味着模型生成的文本更加干净、准确，对于作为LLM训练数据的清洗流水线来说，价值巨大。

迈向真正的多模态统一

DeepSeek在论文最后提到，DeepSeek-OCR2通过DeepEncoder V2验证了「LLM作为视觉编码器」的可行性。

这不仅是一个OCR模型的升级，更是迈向原生多模态（Native Multimodality）的重要一步。

未来，同一个编码器只要配备不同的模态查询嵌入（Query Embeddings），就能处理文本、图片、音频等多种模态的数据，真正实现万物皆可Token，万物皆可因果推理。

DeepSeek表示，虽然目前光学文本识别（OCR）是LLM时代最实用的视觉任务之一，但这只是视觉理解宏大图景的一小部分。

DeepSeek将继续探索，向着更通用的多模态智能进发。

参考资料：

https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

谷歌DeepMind重磅开源多模态TIPSv2：实现Patch-Text对齐最优表现

机器之心Pro 2026-04-27 17:23:04
0 跟贴 0
刚刚，百度把龙虾、剪辑Agent、Office Agent全塞进网盘！

智东西 2026-04-27 18:08:21
18 跟贴 18

千问首发灰测 HappyHorse 1.0，开启免费体验

爱范儿 2026-04-27 19:20:24
0 跟贴 0

多模态预训练，才是大模型的下一条路？Yann LeCun、谢赛宁参与

机器之心Pro 2026-03-09 11:53:58
0 跟贴 0
面壁智能开源全模态模型MiniCPM-o4.5，边看边听还能主动抢答

量子位 2026-02-05 23:20:12
0 跟贴 0

小男孩翻出阳台玩耍，妈妈耐心引导其回室内，抓住瞬间愤怒值拉满

星视频 2026-04-27 07:54:01
139 跟贴 139

上海迪士尼回应游客劝阻吸烟被打：园区没有禁烟；被打男子发声：对方已赔钱和解

中国新闻周刊 2026-04-27 14:25:00
10930 跟贴 10930
世界模型双冠王诞生！国产世界模型力压谷歌、英伟达等持续领跑

机器之心Pro 2026-04-27 20:55:03
0 跟贴 0

让扩散模型「可解释」不再降质，开启图片编辑新思路

机器之心Pro 2025-12-16 14:37:44
0 跟贴 0
一大批高校，将搬迁！

吉刻新闻 2026-04-27 16:08:43
508 跟贴 508
打工人五一自救指南：把活全甩给AI，准备免打扰出门

量子位 2026-04-27 20:04:37
12 跟贴 12
视觉模型既懂语义，又能还原细节，南洋理工&商汤提出棱镜假说

机器之心Pro 2026-01-13 18:26:48
0 跟贴 0
罗纳尔多的接球逻辑，独属于外星人的无解调整！

爱笑无厘头 2026-04-26 12:03:51
1 跟贴 1
半挂模型玩具车买菜，要是超重了怎么办，雷军都不敢这么设计！

宇宙搞笑生活 2026-04-23 14:10:00
4 跟贴 4
广交会客户来电压价，12岁女孩全英文从容应对，逻辑清楚表达在线

星视频 2026-04-27 11:00:31
11 跟贴 11
深度解读Deepseek-V4：注意力压缩 /1M 上下文/ MoE架构

卢菁老师 2026-04-27 02:14:19
0 跟贴 0
一医院原院长：我就像一个吸血鬼

南方都市报 2026-04-26 23:49:54
153 跟贴 153
独家对话清华AIR教授曹婷：具身最被忽视的问题，就是物理智能体

钛媒体APP 2026-04-27 21:39:44
0 跟贴 0
等人时，我们在等什么

心事寄山海 2026-04-28 00:45:29
0 跟贴 0
《强化学习数学基础》

新浪财经 2026-04-27 17:57:43
0 跟贴 0
80/20陷阱：聪明人为何选错伴侣

晚风也遗憾 2026-04-28 00:36:35
0 跟贴 0
英语缺词的7个日本概念：效率系统没覆盖的盲区

时光慢邮啊 2026-04-28 00:58:37
0 跟贴 0
空警600vsE-2D预警机：核心参数与性能对比全解析

因果 2026-04-25 10:02:10
0 跟贴 0
周末发酵！晚宴枪声、伊朗提出方案、DeepSeek！

新浪财经 2026-04-28 00:06:48
0 跟贴 0
江苏一70多岁老人想打工，办假证把年龄改小8岁，还特意染了黑发，民警：他老伴离世，自己一个人想找个工作充实自己

大象新闻 2026-04-27 11:17:05
913 跟贴 913
华山南峰论剑石被拆，官方回应：北峰以外所有“华山论剑”石都会被拆

现代快报 2026-04-26 14:00:13
265 跟贴 265
文旅部集中整治景区摆渡车，点名龙虎山、长白山、稻城亚丁等

南方都市报 2026-04-27 16:21:12
1298 跟贴 1298
超越AlphaFold3！山东大学杨建益团队开发AI新算法，精准预测RNA三维结构并捕捉动态构象

生物世界 2026-04-27 16:07:19
0 跟贴 0
美国方面称26日仅有2艘船只通过霍尔木兹海峡

界面新闻 2026-04-27 08:14:11
2837 跟贴 2837
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
随枪而动的精密维护仓 56式半自动附件盒的操作逻辑与保障价值

武器知识 2026-04-26 11:36:16
0 跟贴 0
金属件中空外壁的内部结构，金属模型加工，中空外壁内层设计

小明不讲理 2026-04-26 10:27:03
1 跟贴 1
工信部直属中国信通院正式启动DeepSeek V4国产化适配测试工作

每日经济新闻 2026-04-28 02:41:34
0 跟贴 0
网红改宗记：祈祷无效后的信仰切换

心事寄山海 2026-04-28 00:58:29
0 跟贴 0
逻辑鬼才刘能装傻充愣第一名

秦岭扒娱 2026-04-27 18:20:16
1 跟贴 1
被指"混不下去回国" 广东专家颜宁回怼：崇洋媚外

南方都市报 2026-04-27 11:12:26
309 跟贴 309
大姨们组团去旅行，整齐搭肩扭着步伐前进潇洒惬意

南阳日报 2026-04-27 19:30:20
95 跟贴 95
泡泡玛特推出Labubu冰箱，售价5999元，上千人预约

大象新闻 2026-04-26 13:01:02
0 跟贴 0
湖州南浔古镇有艘“核动力观光船”？景区回应：售票牌翻译错误，会进行整改

上游新闻 2026-04-27 13:01:24
130 跟贴 130
乌克兰民众战争倦怠情绪日益加深

参考消息 2026-04-27 10:09:05
758 跟贴 758

中方强调：霍尔木兹海峡受阻根源在美以对伊非法军事行动，美国海上封锁伊朗“危险、不负责任”，出路是全面持久停火止战

中方强调：霍尔木兹海峡受阻根源在美以对伊非法军事行动，美国海上封锁伊朗“危险、不负责任”，出路是全面持久停火止战

鲁中晨报

2026-04-28 07:12:02

瑞幸抢先拿下“接水小猫”！怡宝痛失天选代言猫！

瑞幸抢先拿下“接水小猫”！怡宝痛失天选代言猫！

广告案例精选

2026-04-27 16:19:54

不想访华了？美国联合10国，对中国发起一轮猛攻，中方反制不隔夜

不想访华了？美国联合10国，对中国发起一轮猛攻，中方反制不隔夜

吃货的分享

2026-04-27 19:32:31

一个场均17分的球员，凭什么让雷霆质变？

一个场均17分的球员，凭什么让雷霆质变？

体育硬核说

2026-04-28 04:04:53

全员大乱斗！德比大战爆发群殴，门将染红后当众重拳打脸对手

全员大乱斗！德比大战爆发群殴，门将染红后当众重拳打脸对手

夜白侃球

2026-04-27 09:03:26

窦靖童宋妍霏分吃一碗粉！从挡雨到牵手遛狗，多次被拍细节藏不住

窦靖童宋妍霏分吃一碗粉！从挡雨到牵手遛狗，多次被拍细节藏不住

小徐讲八卦

2026-04-27 09:23:46

女大学生泰国旅游被转卖缅甸园区，照片流出长这么好看被折磨太惨

女大学生泰国旅游被转卖缅甸园区，照片流出长这么好看被折磨太惨

老猫观点

2026-04-27 07:20:19

杨子带23岁新女友见91岁母亲？铜钱盆抢镜，黄圣依17年终是打水漂

杨子带23岁新女友见91岁母亲？铜钱盆抢镜，黄圣依17年终是打水漂

八斗小先生

2026-04-27 16:31:26

俄军被迫从马里的要塞撤出！乌克兰反攻延伸至非洲

俄军被迫从马里的要塞撤出！乌克兰反攻延伸至非洲

项鹏飞

2026-04-27 18:51:13

连续4年亏损33亿！海昌海洋公园为何把一手好牌打烂？

连续4年亏损33亿！海昌海洋公园为何把一手好牌打烂？

青眼财经

2026-04-27 08:06:55

打起来了，以军不宣而战，特朗普下令，以色列总理或生病入院？

打起来了，以军不宣而战，特朗普下令，以色列总理或生病入院？

超喜欢我

2026-04-28 04:48:45

特斯拉中国：推出 Model Y 单人充气床垫，售价 659 元！

特斯拉中国：推出 Model Y 单人充气床垫，售价 659 元！

新浪财经

2026-04-27 22:52:45

泡泡玛特推出Labubu冰箱，售价5999元，上千人预约

泡泡玛特推出Labubu冰箱，售价5999元，上千人预约

大象新闻

2026-04-26 13:01:02

三星S24/S25电池崩盘：超七成用户中招

三星S24/S25电池崩盘：超七成用户中招

灰度测试中

2026-04-27 22:08:22

美国已收到伊朗谈判新方案

界面新闻

2026-04-27 11:28:26

人口太少之外，俄罗斯西伯利亚地区正面临第二个问题：野猪太多！

人口太少之外，俄罗斯西伯利亚地区正面临第二个问题：野猪太多！

全城探秘

2026-04-26 17:06:05

“欧洲淫窟”案终局！雷探长胜诉，嫁立陶宛老公，生3胎宝妈破防

“欧洲淫窟”案终局！雷探长胜诉，嫁立陶宛老公，生3胎宝妈破防

嫹笔牂牂

2026-04-27 07:35:14

林徽因落选的国徽方案，网友看后感叹：审美确实厉害，但真不合适

林徽因落选的国徽方案，网友看后感叹：审美确实厉害，但真不合适

浩渺青史

2026-04-17 13:55:15

卡马拉遭袭丧生

环球时报国际

2026-04-27 08:45:56

连续三天嫖娼一次嫖俩，花800元毁掉一手女神好牌，他图什么？

连续三天嫖娼一次嫖俩，花800元毁掉一手女神好牌，他图什么？

街上的行人很刺眼

2026-04-25 10:55:49

AI产业主平台领航智能+时代

15077文章数 66816关注度

往期回顾全部

科技要闻

DeepSeek V4上线三天，第一批实测出来了

头条要闻

坐在特朗普身边亲历枪击案的女记者身份非常不一般

头条要闻

坐在特朗普身边亲历枪击案的女记者身份非常不一般

体育要闻

人类马拉松"破二"新纪元，一场跑鞋军备竞赛

娱乐要闻

黄杨钿甜为“耳环风波”出镜道歉：谣言已澄清

财经要闻

Meta 140亿收购Manus遭中国发改委否决

汽车要闻

不那么小众也可以 smart的路会越走越宽

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

健康

数码

时尚

公开课

教育要闻

教育生态的悲歌！尖子班几个月彻底陨落：数学平均分从90多跌到63

干细胞如何让烧烫伤皮肤"再生"？

数码要闻

6K/3K双模切换！三星这款显示器什么水平？

丝巾的10种系法，爱美的女人必看

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版