网易首页 > 网易号 > 正文 申请入驻

DeepSeek又拿第一!首创「因果流」视觉推理,超越Gemini

0
分享至


新智元报道

编辑:定慧 好困

【新智元导读】DeepSeek开源DeepSeek-OCR2,引入了全新的DeepEncoder V2视觉编码器。该架构打破了传统模型按固定顺序(从左上到右下)扫描图像的限制,转而模仿人类视觉的「因果流(Causal Flow)」逻辑。

DeepSeek又双叒叕更新了!

这次是DeepSeek-OCR模型的重磅升级:DeepSeek-OCR2


还记得上一代DeepSeek-OCR吗?那个用视觉方式压缩一切的模型。

这一次,DeepSeek更进一步,对视觉编码器下手了,提出了一种全新的DeepEncoder V2架构,实现了视觉编码从「固定扫描」向「语义推理」的范式转变!


DeepSeek-OCR2不仅能像人类一样按逻辑顺序阅读复杂文档,还在多项基准测试中刷新了SOTA。

当然,按照DeepSeek的惯例,Paper、Code、Model全开源!


项目地址:

https://github.com/deepseek-ai/DeepSeek-OCR-2

模型下载:

https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

论文地址:

https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

DeepSeek-OCR2的核心创新在于通过DeepEncoder V2,赋予了模型因果推理能力(Causal Reasoning)

这就像是给机器装上了「人类的阅读逻辑」,让AI不再只是死板地从左上到右下扫描图像,而是能根据内容语义灵活调整阅读顺序。

DeepSeek-OCR2

视觉因果流

DeepSeek在论文中指出,传统的视觉语言模型(VLM)通常采用光栅扫描(Raster-Scan)顺序处理图像,即固定地从左到右、从上到下。

这种方式强行将2D图像拍扁成1D序列,忽略了图像内部的语义结构。


这显然与人类的视觉习惯背道而驰。

人类在看图或阅读文档时,目光是随着逻辑流动的:先看标题,再看正文,遇到表格会按列或按行扫视,遇到分栏会自动跳跃。

为了解决这个问题,DeepSeek-OCR2引入了DeepEncoder V2。

它最大的特点是用一个轻量级的大语言模型(Qwen2-0.5B)替换了原本的CLIP编码器,并设计了一种独特的「因果流查询」(Causal Flow Query)机制。

DeepEncoder V2架构详解

DeepEncoder V2主要由两部分组成:

1. 视觉分词器(Vision Tokenizer)

沿用了SAM-base(80M参数)加卷积层的设计,将图像转换为视觉Token。


2. 作为视觉编码器的LLM

这里DeepSeek使用了一个Qwen2-0.5B模型。

它不仅处理视觉Token,还引入了一组可学习的「查询Token」(Query Tokens)。


关键的创新点在于注意力掩码(Attention Mask)的设计:


视觉Token之间采用双向注意力(Bidirectional Attention),保持全局感知能力,类似于ViT。

而查询Token则采用因果注意力(Causal Attention),每一个查询Token只能看到它之前的Token。

通过这种设计,DeepEncoder V2实现了两级级联的因果推理:

编码器通过可学习的查询对视觉Token进行语义重排,随后的LLM解码器则在这个有序序列上进行自回归推理。

这意味着,DeepSeek-OCR2在编码阶段就已经把图像里的信息「理顺」了,而不是一股脑地扔给解码器。

Token更少,精度更高

实验数据显示,DeepSeek-OCR2在保持极高压缩率的同时,性能显著提升。

在OmniDocBench v1.5基准测试中,DeepSeek-OCR2在使用最少视觉Token(仅256-1120个)的情况下,综合得分高达91.09%,相比前代提升了3.73%。


特别值得一提的是,在阅读顺序(R-order)的编辑距离(Edit Distance)指标上,DeepSeek-OCR2从前代的0.085显著降低到了0.057。

这直接证明了新模型在处理复杂版面时,逻辑性更强,更懂「阅读顺序」。

在和Gemini-3 Pro等闭源强模型的对比中,DeepSeek-OCR2也丝毫不落下风。

在均使用约1120个视觉Token的情况下,DeepSeek-OCR2的文档解析编辑距离(0.100)优于Gemini-3 Pro(0.115)。



不仅是刷榜,DeepSeek-OCR2在实际生产环境中也非常能打。

DeepSeek披露,在处理在线用户日志图像时,OCR结果的重复率从6.25%降到了4.17%;在PDF数据生产场景中,重复率从3.69%降到了2.88%。


这意味着模型生成的文本更加干净、准确,对于作为LLM训练数据的清洗流水线来说,价值巨大。

迈向真正的多模态统一

DeepSeek在论文最后提到,DeepSeek-OCR2通过DeepEncoder V2验证了「LLM作为视觉编码器」的可行性。

这不仅是一个OCR模型的升级,更是迈向原生多模态(Native Multimodality)的重要一步。

未来,同一个编码器只要配备不同的模态查询嵌入(Query Embeddings),就能处理文本、图片、音频等多种模态的数据,真正实现万物皆可Token,万物皆可因果推理。

DeepSeek表示,虽然目前光学文本识别(OCR)是LLM时代最实用的视觉任务之一,但这只是视觉理解宏大图景的一小部分。

DeepSeek将继续探索,向着更通用的多模态智能进发。

参考资料:

https://huggingface.co/deepseek-ai/DeepSeek-OCR-2


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方强调:霍尔木兹海峡受阻根源在美以对伊非法军事行动,美国海上封锁伊朗“危险、不负责任”,出路是全面持久停火止战

中方强调:霍尔木兹海峡受阻根源在美以对伊非法军事行动,美国海上封锁伊朗“危险、不负责任”,出路是全面持久停火止战

鲁中晨报
2026-04-28 07:12:02
瑞幸抢先拿下“接水小猫”!怡宝痛失天选代言猫!

瑞幸抢先拿下“接水小猫”!怡宝痛失天选代言猫!

广告案例精选
2026-04-27 16:19:54
不想访华了?美国联合10国,对中国发起一轮猛攻,中方反制不隔夜

不想访华了?美国联合10国,对中国发起一轮猛攻,中方反制不隔夜

吃货的分享
2026-04-27 19:32:31
一个场均17分的球员,凭什么让雷霆质变?

一个场均17分的球员,凭什么让雷霆质变?

体育硬核说
2026-04-28 04:04:53
全员大乱斗!德比大战爆发群殴,门将染红后当众重拳打脸对手

全员大乱斗!德比大战爆发群殴,门将染红后当众重拳打脸对手

夜白侃球
2026-04-27 09:03:26
窦靖童宋妍霏分吃一碗粉!从挡雨到牵手遛狗,多次被拍细节藏不住

窦靖童宋妍霏分吃一碗粉!从挡雨到牵手遛狗,多次被拍细节藏不住

小徐讲八卦
2026-04-27 09:23:46
女大学生泰国旅游被转卖缅甸园区,照片流出长这么好看被折磨太惨

女大学生泰国旅游被转卖缅甸园区,照片流出长这么好看被折磨太惨

老猫观点
2026-04-27 07:20:19
杨子带23岁新女友见91岁母亲?铜钱盆抢镜,黄圣依17年终是打水漂

杨子带23岁新女友见91岁母亲?铜钱盆抢镜,黄圣依17年终是打水漂

八斗小先生
2026-04-27 16:31:26
俄军被迫从马里的要塞撤出!乌克兰反攻延伸至非洲

俄军被迫从马里的要塞撤出!乌克兰反攻延伸至非洲

项鹏飞
2026-04-27 18:51:13
连续4年亏损33亿!海昌海洋公园为何把一手好牌打烂?

连续4年亏损33亿!海昌海洋公园为何把一手好牌打烂?

青眼财经
2026-04-27 08:06:55
打起来了,以军不宣而战,特朗普下令,以色列总理或生病入院?

打起来了,以军不宣而战,特朗普下令,以色列总理或生病入院?

超喜欢我
2026-04-28 04:48:45
特斯拉中国:推出 Model Y 单人充气床垫,售价 659 元!

特斯拉中国:推出 Model Y 单人充气床垫,售价 659 元!

新浪财经
2026-04-27 22:52:45
泡泡玛特推出Labubu冰箱,售价5999元,上千人预约

泡泡玛特推出Labubu冰箱,售价5999元,上千人预约

大象新闻
2026-04-26 13:01:02
三星S24/S25电池崩盘:超七成用户中招

三星S24/S25电池崩盘:超七成用户中招

灰度测试中
2026-04-27 22:08:22
美国已收到伊朗谈判新方案

美国已收到伊朗谈判新方案

界面新闻
2026-04-27 11:28:26
人口太少之外,俄罗斯西伯利亚地区正面临第二个问题:野猪太多!

人口太少之外,俄罗斯西伯利亚地区正面临第二个问题:野猪太多!

全城探秘
2026-04-26 17:06:05
“欧洲淫窟”案终局!雷探长胜诉,嫁立陶宛老公,生3胎宝妈破防

“欧洲淫窟”案终局!雷探长胜诉,嫁立陶宛老公,生3胎宝妈破防

嫹笔牂牂
2026-04-27 07:35:14
林徽因落选的国徽方案,网友看后感叹:审美确实厉害,但真不合适

林徽因落选的国徽方案,网友看后感叹:审美确实厉害,但真不合适

浩渺青史
2026-04-17 13:55:15
卡马拉遭袭丧生

卡马拉遭袭丧生

环球时报国际
2026-04-27 08:45:56
连续三天嫖娼一次嫖俩,花800元毁掉一手女神好牌,他图什么?

连续三天嫖娼一次嫖俩,花800元毁掉一手女神好牌,他图什么?

街上的行人很刺眼
2026-04-25 10:55:49
2026-04-28 07:20:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15077文章数 66816关注度
往期回顾 全部

科技要闻

DeepSeek V4上线三天,第一批实测出来了

头条要闻

坐在特朗普身边亲历枪击案的女记者 身份非常不一般

头条要闻

坐在特朗普身边亲历枪击案的女记者 身份非常不一般

体育要闻

人类马拉松"破二"新纪元,一场跑鞋军备竞赛

娱乐要闻

黄杨钿甜为“耳环风波”出镜道歉:谣言已澄清

财经要闻

Meta 140亿收购Manus遭中国发改委否决

汽车要闻

不那么小众也可以 smart的路会越走越宽

态度原创

教育
健康
数码
时尚
公开课

教育要闻

教育生态的悲歌!尖子班几个月彻底陨落:数学平均分从90多跌到63

干细胞如何让烧烫伤皮肤"再生"?

数码要闻

6K/3K双模切换!三星这款显示器什么水平?

丝巾的10种系法,爱美的女人必看

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版