网易首页 > 网易号 > 正文 申请入驻

DeepSeek-OCR 2发布:识别性能提升3.73%,让AI“读懂”复杂文档

0
分享至

IT之家 1 月 27 日消息,DeepSeek 今日公布了其最新一代文档识别模型 DeepSeek-OCR 2。很显然,该模型是在 DeepSeek-OCR 的基础上升级而来,核心变化集中在视觉编码器设计上。

研究团队提出了一种名为 DeepEncoder V2 的新型编码器结构,这项技术突破源于对传统视觉语言模型处理方式的重新思考,旨在让机器更贴近人类的视觉阅读逻辑。


在传统的视觉语言模型中,图像通常会被切分为若干视觉 token,并按照从左上到右下的固定栅格顺序送入模型处理。这种方式虽然实现简单,但与人类在阅读文档、表格或公式时基于语义和逻辑关系进行跳跃式浏览的方式并不一致。

DeepSeek 论文指出,尤其在版式复杂的文档场景中,视觉元素之间往往存在明确的逻辑先后关系,仅依赖空间顺序可能限制模型对内容结构的理解能力。

DeepSeek-OCR 2 的改进重点在于引入“视觉因果流”的概念。在 DeepEncoder V2 中,研究团队用一种类语言模型结构替代了原先基于 CLIP 的视觉编码模块,并在编码器内部引入可学习的“因果流查询 token”。这些查询 token 通过定制化的注意力机制,在保留视觉 token 全局双向注意力的同时,自身采用因果注意力,只能访问已有信息,从而在编码阶段对视觉 token 的顺序进行动态重排。最终,只有经过因果重排后的查询 token 会被送入后续的语言模型解码器,用于生成识别结果。

在整体架构上,DeepSeek-OCR 2 仍然沿用了编码器 — 解码器的基本范式。图像首先经过一个视觉 tokenizer,被压缩为较少数量的视觉 token,再由 DeepEncoder V2 进行语义建模和顺序重组,最后交由一个基于混合专家架构(MoE)的语言模型解码。

DeepSeek 论文指出,该设计在不显著增加解码负担的前提下,将单页文档所使用的视觉 token 数量控制在 256 到 1120 之间,与前代模型及同类系统的资源开销保持在相近水平。

在实验评估方面,研究团队选用了 OmniDocBench v1.5 作为主要测试基准。该基准涵盖多种类型的中英文文档,包括学术论文、杂志、报告等,重点考察文本识别、公式解析、表格结构还原以及阅读顺序等指标。

测试结果显示,在视觉 token 上限更低的情况下,DeepSeek-OCR 2 的整体得分达到 91.09%,相较 DeepSeek-OCR 提升了 3.73%。其中,与文档阅读顺序相关的编辑距离指标下降较为明显,显示模型在处理文档逻辑结构方面取得了改进。

IT之家注意到,论文还给出了模型在实际应用场景中的表现对比。在在线 OCR 服务和批量 PDF 预处理等生产环境中,由于缺乏人工标注作为参考,研究团队以输出重复率作为质量指标。结果显示,DeepSeek-OCR 2 在这两类数据上的重复率均低于前代模型,表明其在真实数据分布下具有更稳定的输出表现。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
郭艾伦没想到,辞职辽宁男篮的杨鸣,原来早已给自己准备好了后路

郭艾伦没想到,辞职辽宁男篮的杨鸣,原来早已给自己准备好了后路

行舟问茶
2026-01-28 03:16:53
张兰不听劝,又晒孙子孙女,小玥儿太像大S,外套7000元 个子很高

张兰不听劝,又晒孙子孙女,小玥儿太像大S,外套7000元 个子很高

有范又有料
2026-01-27 15:42:10
世界大学排名前10名大学中有8所来自中国,浙大超哈佛荣登榜首,哈佛滑至第三

世界大学排名前10名大学中有8所来自中国,浙大超哈佛荣登榜首,哈佛滑至第三

观威海
2026-01-27 09:30:11
出大事了!中国收到“战书”,这次不是美国,中方已经做好准备

出大事了!中国收到“战书”,这次不是美国,中方已经做好准备

爱吃醋的猫咪
2026-01-23 20:27:00
现货白银抹去14%涨幅 现货黄金向下跌破5000美元

现货白银抹去14%涨幅 现货黄金向下跌破5000美元

财联社
2026-01-27 05:38:06
某大厂员工:领导让他报裁员名单,结果这哥们竟然把自己写上去,拿着20多万的赔偿,去付买房的首付!

某大厂员工:领导让他报裁员名单,结果这哥们竟然把自己写上去,拿着20多万的赔偿,去付买房的首付!

上海约饭局
2026-01-06 16:54:03
冬奥会中国代表团大换血,3人上桌,2人下桌,林孝埈、谷爱凌在列

冬奥会中国代表团大换血,3人上桌,2人下桌,林孝埈、谷爱凌在列

有范又有料
2026-01-27 17:03:30
有人问及如何评价周总理,黄永胜回忆:外交上是一把好手,搞内政堪称八级泥瓦

有人问及如何评价周总理,黄永胜回忆:外交上是一把好手,搞内政堪称八级泥瓦

源溯历史
2025-12-22 12:14:13
高市希望访华,与中方高层直接对话:要让日本的立场得到正确理解

高市希望访华,与中方高层直接对话:要让日本的立场得到正确理解

三生一梦莫
2026-01-27 19:00:31
瞒不住了!比基辅还惨,乌克兰第二大城市全黑了,朝鲜远火立功了

瞒不住了!比基辅还惨,乌克兰第二大城市全黑了,朝鲜远火立功了

爱吃醋的猫咪
2026-01-27 20:35:56
原来他已去世19年,患病下肢截瘫,赵本山为他立下的规矩打破没?

原来他已去世19年,患病下肢截瘫,赵本山为他立下的规矩打破没?

白面书誏
2026-01-25 20:22:11
闫学晶丑闻再曝!一人已被拘留,婚变内幕被扒,亲手拔父亲氧气管

闫学晶丑闻再曝!一人已被拘留,婚变内幕被扒,亲手拔父亲氧气管

奇思妙想草叶君
2026-01-16 22:46:34
中国汽车出口第一目的国易主

中国汽车出口第一目的国易主

第一财经资讯
2026-01-27 09:52:09
豪华私人飞机在暴风雪中强行起飞失败,7人死亡

豪华私人飞机在暴风雪中强行起飞失败,7人死亡

大洛杉矶LA
2026-01-27 04:05:45
岛国暗黑界第一盛世美颜 —— 桃谷绘里香

岛国暗黑界第一盛世美颜 —— 桃谷绘里香

碧波万览
2026-01-28 00:55:03
那不勒斯欧冠主场20场仅1负,但孔蒂近5次对切尔西输3场

那不勒斯欧冠主场20场仅1负,但孔蒂近5次对切尔西输3场

懂球帝
2026-01-28 02:07:53
博主吐槽亲戚不收留她孩子白吃白住,被网友们骂:人面不知何处去

博主吐槽亲戚不收留她孩子白吃白住,被网友们骂:人面不知何处去

夜深爱杂谈
2026-01-27 18:28:44
某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

戗词夺理
2026-01-24 16:05:41
身高1米8的小孩哥!网友调侃:再大也是个宝宝

身高1米8的小孩哥!网友调侃:再大也是个宝宝

另子维爱读史
2026-01-26 22:45:09
上海29岁女子高烧6天,找不到问题,直到医生翻看大腿根

上海29岁女子高烧6天,找不到问题,直到医生翻看大腿根

灿烂夏天
2025-01-20 21:03:25
2026-01-28 03:48:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
326826文章数 606916关注度
往期回顾 全部

科技要闻

马化腾3年年会讲话透露了哪些关键信息

头条要闻

美报告称中国是其19世纪以来面对过的最强大国家

头条要闻

美报告称中国是其19世纪以来面对过的最强大国家

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

张雨绮风波持续发酵,曝多个商务被取消

财经要闻

多地对垄断行业"近亲繁殖"出手了

汽车要闻

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

手机
健康
教育
旅游
艺术

手机要闻

苹果连发4版系统:从iPhone 5s到iOS 26,果粉福音来了!

耳石脱落为何让人天旋地转+恶心?

教育要闻

对话陈妤颉:闪闪发光的赛道,追逐梦想

旅游要闻

红灯笼映北海:皇家园林里的年味,藏着中国人的精神原乡!

艺术要闻

震撼!19世纪油画巨匠的作品美得不可思议!

无障碍浏览 进入关怀版