网易首页 > 网易号 > 正文 申请入驻

DeepSeek-OCR 2发布:识别性能提升3.73%,让AI“读懂”复杂文档

0
分享至

IT之家 1 月 27 日消息,DeepSeek 今日公布了其最新一代文档识别模型 DeepSeek-OCR 2。很显然,该模型是在 DeepSeek-OCR 的基础上升级而来,核心变化集中在视觉编码器设计上。

研究团队提出了一种名为 DeepEncoder V2 的新型编码器结构,这项技术突破源于对传统视觉语言模型处理方式的重新思考,旨在让机器更贴近人类的视觉阅读逻辑。


在传统的视觉语言模型中,图像通常会被切分为若干视觉 token,并按照从左上到右下的固定栅格顺序送入模型处理。这种方式虽然实现简单,但与人类在阅读文档、表格或公式时基于语义和逻辑关系进行跳跃式浏览的方式并不一致。

DeepSeek 论文指出,尤其在版式复杂的文档场景中,视觉元素之间往往存在明确的逻辑先后关系,仅依赖空间顺序可能限制模型对内容结构的理解能力。

DeepSeek-OCR 2 的改进重点在于引入“视觉因果流”的概念。在 DeepEncoder V2 中,研究团队用一种类语言模型结构替代了原先基于 CLIP 的视觉编码模块,并在编码器内部引入可学习的“因果流查询 token”。这些查询 token 通过定制化的注意力机制,在保留视觉 token 全局双向注意力的同时,自身采用因果注意力,只能访问已有信息,从而在编码阶段对视觉 token 的顺序进行动态重排。最终,只有经过因果重排后的查询 token 会被送入后续的语言模型解码器,用于生成识别结果。

在整体架构上,DeepSeek-OCR 2 仍然沿用了编码器 — 解码器的基本范式。图像首先经过一个视觉 tokenizer,被压缩为较少数量的视觉 token,再由 DeepEncoder V2 进行语义建模和顺序重组,最后交由一个基于混合专家架构(MoE)的语言模型解码。

DeepSeek 论文指出,该设计在不显著增加解码负担的前提下,将单页文档所使用的视觉 token 数量控制在 256 到 1120 之间,与前代模型及同类系统的资源开销保持在相近水平。

在实验评估方面,研究团队选用了 OmniDocBench v1.5 作为主要测试基准。该基准涵盖多种类型的中英文文档,包括学术论文、杂志、报告等,重点考察文本识别、公式解析、表格结构还原以及阅读顺序等指标。

测试结果显示,在视觉 token 上限更低的情况下,DeepSeek-OCR 2 的整体得分达到 91.09%,相较 DeepSeek-OCR 提升了 3.73%。其中,与文档阅读顺序相关的编辑距离指标下降较为明显,显示模型在处理文档逻辑结构方面取得了改进。

IT之家注意到,论文还给出了模型在实际应用场景中的表现对比。在在线 OCR 服务和批量 PDF 预处理等生产环境中,由于缺乏人工标注作为参考,研究团队以输出重复率作为质量指标。结果显示,DeepSeek-OCR 2 在这两类数据上的重复率均低于前代模型,表明其在真实数据分布下具有更稳定的输出表现。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国“B级轿车”销量王:老势力油车重回第一,月零售量超17000台

中国“B级轿车”销量王:老势力油车重回第一,月零售量超17000台

柳先说
2026-04-23 14:57:47
64岁阿姨肺癌离世,常年吃清蒸鱼、炖汤,医生:祸根在3个细节里

64岁阿姨肺癌离世,常年吃清蒸鱼、炖汤,医生:祸根在3个细节里

垚垚分享健康
2026-03-23 08:59:14
我跟大伯去伐木,夜里外面突然有动静,大伯看一眼:今晚必须下山

我跟大伯去伐木,夜里外面突然有动静,大伯看一眼:今晚必须下山

千秋文化
2026-03-25 21:38:09
我敢打赌99%的男人会选白衣服女孩做老婆,看腿型就知道

我敢打赌99%的男人会选白衣服女孩做老婆,看腿型就知道

匹夫来搞笑
2026-04-24 12:20:31
5000万截胡曼城?曼联要签新库尼亚,不等了!

5000万截胡曼城?曼联要签新库尼亚,不等了!

澜归序
2026-04-25 07:21:55
金平日:与金正日争权失败,驻外30年躲过暗杀,因这件事允许回国

金平日:与金正日争权失败,驻外30年躲过暗杀,因这件事允许回国

阿胡
2025-04-03 13:59:42
金莎备孕成功刷屏,原来3年前就冻了7枚胚胎!高龄怀孕不再凭运气

金莎备孕成功刷屏,原来3年前就冻了7枚胚胎!高龄怀孕不再凭运气

一盅情怀
2026-04-25 19:31:31
早上为什么不建议吃馒头?忠告:不止馒头,这5类食物,尽量少吃

早上为什么不建议吃馒头?忠告:不止馒头,这5类食物,尽量少吃

白话电影院
2026-04-05 22:37:36
退休大爷帮忙接小孩2年,住院要借8千应急,邻居没借,隔天傻眼了

退休大爷帮忙接小孩2年,住院要借8千应急,邻居没借,隔天傻眼了

五元讲堂
2025-09-02 10:40:18
有种差距叫于和伟和王阳,同样跟万茜搭戏,才知“CP感”是门玄学

有种差距叫于和伟和王阳,同样跟万茜搭戏,才知“CP感”是门玄学

陈述影视
2026-04-24 22:44:40
宁波队3-0全取3分将负分清零,中甲4支扣分队已全部抹去负分

宁波队3-0全取3分将负分清零,中甲4支扣分队已全部抹去负分

懂球帝
2026-04-25 21:31:09
一汽-大众产品全面焕新升级 春季新品发布会五车齐发

一汽-大众产品全面焕新升级 春季新品发布会五车齐发

齐鲁壹点
2026-04-01 11:18:03
特朗普通告全球,现在的美国要带领全世界完成“去中国化”

特朗普通告全球,现在的美国要带领全世界完成“去中国化”

果妈聊娱乐
2026-04-25 09:22:11
四川饲料大王首富变“首负”:欠了近千亿,一年光利息就要18亿

四川饲料大王首富变“首负”:欠了近千亿,一年光利息就要18亿

梦回千年aa
2026-04-12 05:53:20
1912年,曹锟娶20岁陈寒蕊,新婚夜他酣睡,新娘见其苍老悲泣不止

1912年,曹锟娶20岁陈寒蕊,新婚夜他酣睡,新娘见其苍老悲泣不止

唠叨说历史
2026-03-24 18:52:24
美专家:美军一旦向北京、上海扔下核弹,中国并不会对等报复

美专家:美军一旦向北京、上海扔下核弹,中国并不会对等报复

小非喜欢解说
2026-04-25 23:08:06
越南联赛收官!4位中国留洋队员仅2人晋级,不是不拼是球队带不动

越南联赛收官!4位中国留洋队员仅2人晋级,不是不拼是球队带不动

金毛爱女排
2026-04-26 00:00:04
沈阳一大学女教授上课被拍,视频曝光后,网友:简直不敢相信!

沈阳一大学女教授上课被拍,视频曝光后,网友:简直不敢相信!

侃故事的阿庆
2026-04-25 12:32:09
ASML心凉了,中国大陆市场禁售,台积电不要,2nm光刻机卖给谁?

ASML心凉了,中国大陆市场禁售,台积电不要,2nm光刻机卖给谁?

天天热点见闻
2026-04-25 06:29:38
我退休金1.35万,给女儿5000,女婿:每月给我们1.5万,剩下的您留着

我退休金1.35万,给女儿5000,女婿:每月给我们1.5万,剩下的您留着

热心市民小黄
2026-04-25 12:48:03
2026-04-26 05:19:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
341153文章数 607166关注度
往期回顾 全部

科技要闻

DeepSeek V4发布!黄仁勋预言的"灾难"降临

头条要闻

媒体:美军在中东罕见高密度集结 伊朗开始调整战术

头条要闻

媒体:美军在中东罕见高密度集结 伊朗开始调整战术

体育要闻

那一刻开始,两支球队的命运悄然改变了

娱乐要闻

《我们的爸爸2》第一季完美爸爸翻车了

财经要闻

90%订单消失,中东旺季没了

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

旅游
亲子
本地
公开课
军事航空

旅游要闻

美猴王VS水蜜桃,连云港、无锡文旅“双向奔赴”

亲子要闻

终于理解了什么是“鼓励式教育”,鼓励比责怪更有力量!

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美防长:战事不会“没完没了”

无障碍浏览 进入关怀版