网易首页 > 网易号 > 正文 申请入驻

DeepSeek-OCR 2重磅发布:AI学会“人类视觉逻辑”,以因果流解读图片

0
分享至

DeepSeek发布新一代光学字符识别系统,通过让AI以类似人类的逻辑顺序理解图像,在视觉识别领域实现技术突破。这一进展可能重塑文档处理、图表分析等依赖复杂视觉理解的应用场景。

27日,DeepSeek发布了DeepSeek-OCR 2系统。该系统采用名为DeepEncoder V2的新方法,使AI能够像人类一样按照逻辑顺序“看”图像。这项技术的核心创新在于改变了传统AI处理图像的方式。DeepEncoder V2让AI基于图像含义动态重新排列图像片段,而非传统的从左到右刚性扫描。这种方法模仿了人类追随场景逻辑流的方式。

根据DeepSeek公布的技术报告,DeepSeek-OCR 2在多项关键指标上展现出显著优势。在OmniDocBench v1.5基准测试中,该模型取得了91.09%的成绩,相较于前代DeepSeek-OCR提升了3.73%。

值得注意的是,该模型在保持极高精度的同时,严格控制了计算成本,其视觉Token数量被限制在256至1120之间,这一上限与Google的Gemini-3 Pro保持一致。在实际生产环境中,该模型在处理在线用户日志和PDF预训练数据时的重复率分别下降了2.08%和0.81%,显示出极高的实用成熟度。


DeepSeek-OCR 2重磅发布

模拟人类视觉的“因果流”逻辑

根据DeepSeek公布的技术报告,现有的视觉语言模型(VLMs)通常采用固定的光栅扫描顺序(光栅扫描顺序)处理图像切片,即机械地从左上角扫描至右下角。DeepSeek团队指出,这种方式引入了不必要的归纳偏差,与人类视觉感知背道而驰。 人类在阅读复杂文档、表格或追踪螺旋线条时,视线是受语义理解驱动的“因果流”,后一次注视往往因果依赖于前一次注视,而非单纯的空间坐标移动。

受此认知机制启发,DeepSeek-OCR 2的核心组件DeepEncoder V2被设计用于赋予编码器因果推理能力。通过引入可学习的“因果流查询”(Causal Flow Queries),模型能够在进入LLM解码器进行内容解释之前,先在编码阶段就对视觉信息进行智能重排序。这实际上构建了一个两级级联的1D因果推理结构:首先由编码器在语义上重组视觉Token,随后由解码器对有序序列进行自回归推理。 这种设计不仅符合光学文本、表格和公式的非线性布局特征,还有效弥补了2D图像结构与1D语言建模之间的鸿沟。

弃用CLIP架构,转向LLM式编码器

DeepEncoder V2在架构上实施了重大变革,将DeepEncoder中原有的CLIP组件替换为紧凑的LLM式架构(具体为Qwen2-0.5B)。为了实现并行处理,新架构引入了一组可学习的查询向量,称为“因果流Token”,并将原始视觉Token作为前缀拼接到序列中。

该架构采用了一种定制化的注意力掩码(Attention Mask)策略:

  • 视觉Token部分:保留双向注意力机制,确保模型能够像CLIP一样拥有全局感受野,捕捉图像的整体特征。
  • 因果流Token部分:采用因果注意力机制(类似Decoder-only LLM),每个查询Token只能关注之前的Token。

通过这种设计,视觉Token保持了信息的全局交互,而因果流Token则获得了重排序视觉信息的能力。DeepSeek-OCR 2采用了多裁剪策略(Multi-crop strategy),根据图像分辨率不同,最终输入LLM的重排序视觉Token总数在256到1120之间。这一数量级显著低于部分竞品高达6000以上的Token消耗,在保证高性能的同时大幅降低了计算开销。

性能显著提升与生产环境验证

在OmniDocBench v1.5的综合评估中,DeepSeek-OCR 2表现优异。数据显示,在同样的训练数据源下,新模型相较于DeepSeek-OCR基线模型取得了3.73%的性能提升。特别是在阅读顺序(Reading Order)的编辑距离(Edit Distance)指标上,DeepSeek-OCR 2从0.085显著降低至0.057,这直接验证了DeepEncoder V2在逻辑重排序方面的有效性。

除了基准测试,DeepSeek还披露了该模型在实际生产管线中的表现。DeepSeek-OCR 2主要服务于DeepSeek-LLMs的在线OCR服务及PDF预训练数据处理。在没有真值(Ground Truth)的生产环境中,重复率(Repetition Rate)是衡量质量的核心指标。数据显示,在处理在线用户日志图像时,DeepSeek-OCR 2将重复率从6.25%降低至4.17%;在PDF数据生产中,重复率从3.69%降至2.88%。这表明新模型在生成高质量、低冗余的文本数据方面具备极高的实用价值。

通向原生多模态与真正的2D推理

DeepSeek-OCR 2的发布不仅是一次OCR性能的升级,更具有深远的架构探索意义。DeepEncoder V2初步验证了使用语言模型架构作为视觉编码器的潜力。这种架构天然继承了LLM社区在基础设施优化方面的成果,如混合专家(MoE)架构和高效注意力机制。

DeepSeek团队认为,这为迈向统一的全模态编码器提供了一条有希望的路径。未来,单一编码器可能通过配置特定模态的可学习查询,在同一参数空间内实现对图像、音频和文本的特征提取与压缩。DeepSeek-OCR 2所展示的“两个级联的1D因果推理器”模式,通过将2D理解分解为“阅读逻辑推理”和“视觉任务推理”两个互补子任务,或许代表了实现真正2D推理的一种突破性架构方法。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国产笔记本CPU偷梁换柱翻车!官方终于回应:生产失误、全额退款

国产笔记本CPU偷梁换柱翻车!官方终于回应:生产失误、全额退款

快科技
2026-03-25 10:14:04
特朗普揭晓所谓伊朗“大礼” 称控制伊朗石油是“选项”

特朗普揭晓所谓伊朗“大礼” 称控制伊朗石油是“选项”

新华社
2026-03-27 03:20:02
只要战争结束,油价就会像石头一样往下掉吗?

只要战争结束,油价就会像石头一样往下掉吗?

流苏晚晴
2026-03-24 19:11:43
泰国总理换新车支持国产!从劳斯莱斯到比亚迪,还向民众极力推荐

泰国总理换新车支持国产!从劳斯莱斯到比亚迪,还向民众极力推荐

削桐作琴
2026-03-26 18:14:58
张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

谈史论天地
2026-03-26 07:45:53
张晋去年4月突发心脏病险丧命 蔡少芬公开细节:血管堵塞近80%

张晋去年4月突发心脏病险丧命 蔡少芬公开细节:血管堵塞近80%

宝哥精彩赛事
2026-03-26 13:42:10
采耳变卖淫?女技师可变装,躺采色诱客人,有反应了就直接脱裤子

采耳变卖淫?女技师可变装,躺采色诱客人,有反应了就直接脱裤子

乌娱子酱
2025-03-19 10:27:30
可怜的正大广场!被国金、太古里干趴下了?真是太狠了

可怜的正大广场!被国金、太古里干趴下了?真是太狠了

荷兰豆爱健康
2026-03-26 11:18:07
俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

项鹏飞
2026-03-24 20:28:43
男子下高速显示高速费用83990元,收费员震惊:你有没有绕路!

男子下高速显示高速费用83990元,收费员震惊:你有没有绕路!

张晓磊
2026-03-08 11:07:09
暴涨1000%,马年最猛IPO来了

暴涨1000%,马年最猛IPO来了

投资家
2026-03-26 21:26:29
戏外一样猛!《侠探杰克》男主当街KO邻居,警方认定:正当防卫

戏外一样猛!《侠探杰克》男主当街KO邻居,警方认定:正当防卫

仰卧撑FTUer
2026-03-26 22:37:11
俄罗斯让中国心凉?真正可怕的不是西方围堵,而是我们低估了自己

俄罗斯让中国心凉?真正可怕的不是西方围堵,而是我们低估了自己

普览
2026-03-25 09:50:38
广州从埔高速有货车侧翻 目击者:五常大米洒满一地,多人协助把大米搬至路肩

广州从埔高速有货车侧翻 目击者:五常大米洒满一地,多人协助把大米搬至路肩

红星新闻
2026-03-26 20:09:36
A股:两个信息落地,明天,周五或会这样走了!

A股:两个信息落地,明天,周五或会这样走了!

明心
2026-03-26 16:35:30
有4种鱼已经上“黑榜”了,卖鱼的自己都不碰,但还有人经常吃!

有4种鱼已经上“黑榜”了,卖鱼的自己都不碰,但还有人经常吃!

房产衫哥
2026-03-22 20:22:30
郑少秋每天清晨六点准时敲响石修家门,不是探望,是去“收尸”

郑少秋每天清晨六点准时敲响石修家门,不是探望,是去“收尸”

西楼知趣杂谈
2026-03-07 18:47:13
北京被低估的3所大学,毕业就是“铁饭碗”!完全不用愁就业!

北京被低估的3所大学,毕业就是“铁饭碗”!完全不用愁就业!

高三倒计时
2026-03-25 18:09:46
娶了熟人的前妻是一种什么的体验?网友:人家这才是真爱

娶了熟人的前妻是一种什么的体验?网友:人家这才是真爱

夜深爱杂谈
2026-03-04 19:50:08
美军计划增兵中东 对伊朗地面战争要来了?

美军计划增兵中东 对伊朗地面战争要来了?

看看新闻Knews
2026-03-24 19:12:06
2026-03-27 04:16:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
143603文章数 2653030关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
游戏
亲子
艺术
旅游

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

亲子要闻

试工育儿嫂被查出传染病,宝妈崩溃!家政服务“健康关”如何保障?

艺术要闻

北京大兴机场和青岛胶东机场“撞脸”,长得像就是抄袭?

旅游要闻

河南开封万岁山武侠城,游客买300元门票:给妻子拍照被保安阻拦

无障碍浏览 进入关怀版