网易首页 > 网易号 > 正文 申请入驻

DeepSeek-OCR 2重磅发布:AI学会“人类视觉逻辑”,以因果流解读图片

0
分享至

DeepSeek发布新一代光学字符识别系统,通过让AI以类似人类的逻辑顺序理解图像,在视觉识别领域实现技术突破。这一进展可能重塑文档处理、图表分析等依赖复杂视觉理解的应用场景。

27日,DeepSeek发布了DeepSeek-OCR 2系统。该系统采用名为DeepEncoder V2的新方法,使AI能够像人类一样按照逻辑顺序“看”图像。这项技术的核心创新在于改变了传统AI处理图像的方式。DeepEncoder V2让AI基于图像含义动态重新排列图像片段,而非传统的从左到右刚性扫描。这种方法模仿了人类追随场景逻辑流的方式。

根据DeepSeek公布的技术报告,DeepSeek-OCR 2在多项关键指标上展现出显著优势。在OmniDocBench v1.5基准测试中,该模型取得了91.09%的成绩,相较于前代DeepSeek-OCR提升了3.73%。

值得注意的是,该模型在保持极高精度的同时,严格控制了计算成本,其视觉Token数量被限制在256至1120之间,这一上限与Google的Gemini-3 Pro保持一致。在实际生产环境中,该模型在处理在线用户日志和PDF预训练数据时的重复率分别下降了2.08%和0.81%,显示出极高的实用成熟度。


DeepSeek-OCR 2重磅发布

模拟人类视觉的“因果流”逻辑

根据DeepSeek公布的技术报告,现有的视觉语言模型(VLMs)通常采用固定的光栅扫描顺序(光栅扫描顺序)处理图像切片,即机械地从左上角扫描至右下角。DeepSeek团队指出,这种方式引入了不必要的归纳偏差,与人类视觉感知背道而驰。 人类在阅读复杂文档、表格或追踪螺旋线条时,视线是受语义理解驱动的“因果流”,后一次注视往往因果依赖于前一次注视,而非单纯的空间坐标移动。

受此认知机制启发,DeepSeek-OCR 2的核心组件DeepEncoder V2被设计用于赋予编码器因果推理能力。通过引入可学习的“因果流查询”(Causal Flow Queries),模型能够在进入LLM解码器进行内容解释之前,先在编码阶段就对视觉信息进行智能重排序。这实际上构建了一个两级级联的1D因果推理结构:首先由编码器在语义上重组视觉Token,随后由解码器对有序序列进行自回归推理。 这种设计不仅符合光学文本、表格和公式的非线性布局特征,还有效弥补了2D图像结构与1D语言建模之间的鸿沟。

弃用CLIP架构,转向LLM式编码器

DeepEncoder V2在架构上实施了重大变革,将DeepEncoder中原有的CLIP组件替换为紧凑的LLM式架构(具体为Qwen2-0.5B)。为了实现并行处理,新架构引入了一组可学习的查询向量,称为“因果流Token”,并将原始视觉Token作为前缀拼接到序列中。

该架构采用了一种定制化的注意力掩码(Attention Mask)策略:

  • 视觉Token部分:保留双向注意力机制,确保模型能够像CLIP一样拥有全局感受野,捕捉图像的整体特征。
  • 因果流Token部分:采用因果注意力机制(类似Decoder-only LLM),每个查询Token只能关注之前的Token。

通过这种设计,视觉Token保持了信息的全局交互,而因果流Token则获得了重排序视觉信息的能力。DeepSeek-OCR 2采用了多裁剪策略(Multi-crop strategy),根据图像分辨率不同,最终输入LLM的重排序视觉Token总数在256到1120之间。这一数量级显著低于部分竞品高达6000以上的Token消耗,在保证高性能的同时大幅降低了计算开销。

性能显著提升与生产环境验证

在OmniDocBench v1.5的综合评估中,DeepSeek-OCR 2表现优异。数据显示,在同样的训练数据源下,新模型相较于DeepSeek-OCR基线模型取得了3.73%的性能提升。特别是在阅读顺序(Reading Order)的编辑距离(Edit Distance)指标上,DeepSeek-OCR 2从0.085显著降低至0.057,这直接验证了DeepEncoder V2在逻辑重排序方面的有效性。

除了基准测试,DeepSeek还披露了该模型在实际生产管线中的表现。DeepSeek-OCR 2主要服务于DeepSeek-LLMs的在线OCR服务及PDF预训练数据处理。在没有真值(Ground Truth)的生产环境中,重复率(Repetition Rate)是衡量质量的核心指标。数据显示,在处理在线用户日志图像时,DeepSeek-OCR 2将重复率从6.25%降低至4.17%;在PDF数据生产中,重复率从3.69%降至2.88%。这表明新模型在生成高质量、低冗余的文本数据方面具备极高的实用价值。

通向原生多模态与真正的2D推理

DeepSeek-OCR 2的发布不仅是一次OCR性能的升级,更具有深远的架构探索意义。DeepEncoder V2初步验证了使用语言模型架构作为视觉编码器的潜力。这种架构天然继承了LLM社区在基础设施优化方面的成果,如混合专家(MoE)架构和高效注意力机制。

DeepSeek团队认为,这为迈向统一的全模态编码器提供了一条有希望的路径。未来,单一编码器可能通过配置特定模态的可学习查询,在同一参数空间内实现对图像、音频和文本的特征提取与压缩。DeepSeek-OCR 2所展示的“两个级联的1D因果推理器”模式,通过将2D理解分解为“阅读逻辑推理”和“视觉任务推理”两个互补子任务,或许代表了实现真正2D推理的一种突破性架构方法。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
对话向嫣然医院捐款500万的广东博主:希望更多孩子获帮助

对话向嫣然医院捐款500万的广东博主:希望更多孩子获帮助

南方都市报
2026-01-27 22:02:49
五九气温回升?羽绒服可以收了?别慌!重庆新一轮雨雪天气在路上......

五九气温回升?羽绒服可以收了?别慌!重庆新一轮雨雪天气在路上......

鲁中晨报
2026-01-27 20:27:05
报一箭之仇:上海女排横扫天津夺七连胜!许晓婷调度多点开花

报一箭之仇:上海女排横扫天津夺七连胜!许晓婷调度多点开花

金毛爱女排
2026-01-27 21:46:22
真敢说:董方卓称王钰栋留洋也白费,之前踢得好是中超水平差

真敢说:董方卓称王钰栋留洋也白费,之前踢得好是中超水平差

姜大叔侃球
2026-01-27 18:17:46
唐朝大将薛仁贵坑杀13万铁勒人,强迫铁勒公主为妾,却活到了70岁

唐朝大将薛仁贵坑杀13万铁勒人,强迫铁勒公主为妾,却活到了70岁

铭记历史呀
2026-01-27 15:01:12
已有5部影片定档2026春节档

已有5部影片定档2026春节档

界面新闻
2026-01-27 10:31:02
人类对闲鱼的开发不足1%,一群神人把我笑发财了

人类对闲鱼的开发不足1%,一群神人把我笑发财了

另子维爱读史
2026-01-11 21:09:06
美ICE特工将参与意大利冬奥会安保工作引争议,米兰市长明确表态:不欢迎

美ICE特工将参与意大利冬奥会安保工作引争议,米兰市长明确表态:不欢迎

环球网资讯
2026-01-27 19:33:07
演员向梅:83岁退休后生活悲凉,背后真相曝光,才知道风光后的痛

演员向梅:83岁退休后生活悲凉,背后真相曝光,才知道风光后的痛

白面书誏
2026-01-24 23:31:44
2026年首案广州市消防救援支队副支队长落马

2026年首案广州市消防救援支队副支队长落马

曹刚律师
2026-01-27 22:36:07
为何欧盟接受了乌克兰的所有要求?

为何欧盟接受了乌克兰的所有要求?

高博新视野
2026-01-26 18:43:00
0-12开局又如何?豪门末节23-9强势逆转,大王创纪录成史上第6人

0-12开局又如何?豪门末节23-9强势逆转,大王创纪录成史上第6人

萌兰聊个球
2026-01-27 21:36:56
印度爆发尼帕病毒疫情,我们安全吗?

印度爆发尼帕病毒疫情,我们安全吗?

封面新闻
2026-01-26 21:55:06
哇塞!神级交易!湖人老铁太够意思啦!

哇塞!神级交易!湖人老铁太够意思啦!

体育新角度
2026-01-27 17:02:29
退脏衣女记者全网社死!坏到骨子里知情人曝更多,果然不是第一次

退脏衣女记者全网社死!坏到骨子里知情人曝更多,果然不是第一次

阿纂看事
2026-01-26 10:20:53
军演中暴露的“隐性腐败”!

军演中暴露的“隐性腐败”!

达文西看世界
2026-01-27 10:55:47
只能交易出去?广东“新后卫”将跌出轮换,或遭多队疯抢!

只能交易出去?广东“新后卫”将跌出轮换,或遭多队疯抢!

绯雨儿
2026-01-27 14:03:25
“富婆”李湘栽了:这20年的钱,她到底赚得有多野?

“富婆”李湘栽了:这20年的钱,她到底赚得有多野?

红大娘娱乐
2026-01-18 17:20:47
国运来了挡不住?这三个人,正用各自的方式“助攻”中国崛起

国运来了挡不住?这三个人,正用各自的方式“助攻”中国崛起

远方风林
2025-12-18 23:53:12
何庆魁喊话赵本山:我一个人支撑本山传媒好几年,写剧本累伤了!

何庆魁喊话赵本山:我一个人支撑本山传媒好几年,写剧本累伤了!

离离言几许
2026-01-27 00:17:24
2026-01-27 23:27:00
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
140794文章数 2652312关注度
往期回顾 全部

科技要闻

马化腾3年年会讲话透露了哪些关键信息

头条要闻

体大毕业生收费教人骑自行车800元1次 网友直呼"离谱"

头条要闻

体大毕业生收费教人骑自行车800元1次 网友直呼"离谱"

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

张雨绮风波持续发酵,曝多个商务被取消

财经要闻

多地对垄断行业"近亲繁殖"出手了

汽车要闻

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

教育
数码
本地
家居
公开课

教育要闻

高敏感,是因为孩子拥有一颗超能大脑

数码要闻

华硕无畏Pro 14/16 2026款酷睿版发布,6999元起

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

家居要闻

现代古典 中性又显韵味

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版