网易首页 > 网易号 > 正文 申请入驻

刚刚,DeepSeek 上新,V4 的模样更清晰了

0
分享至

临近春节,DeepSeek 又有新动作了。

就在刚刚,DeepSeek 在 HuggingFace 和 GitHub 上开源新模型OCR 2,并附上了完整的论文。

和初代 OCR 主打视觉压缩不同,这是一种旨在改进视觉-语言模型(VLMs)中视觉编码方式的新型模型。核心创新在于引入了 DeepEncoder V2,通过模拟人类的视觉因果推理能力,解决了传统模型在处理复杂文档布局时的局限性。

传统的 VLMs 通常按固定的光栅扫描顺序(从左上到右下)处理图像,这种僵化的方式不符合我们的视觉感知,人类是基于内容的灵活扫描,而且在处理复杂布局,如表格、公式、多栏文本时会引入错误的信息。

而 OCR 2,就是利用新型编码器 DeepEncoder V2,给了模型「视觉因果流 Visual Causal Flow」的能力,让模型能够根据图像内容,动态地重新排序视觉 Token。

DeepEncoder V2 是 OCR 2 模型的关键创新,它的设计有以下几个特点。

1️⃣ 抛弃了上一代 DeepEncoder 中使用的 CLIP 模块,转而使用一个紧凑的 LLM 架构(基于 Qwen2-0.5B)作为视觉编码器。

2️⃣ 混合注意力机制,视觉 Token 上使用双向注意力,类似于 ViT。在因果流查询,引入可学习的查询 Token,能够关注到所有视觉 Token 和之前的查询,从而实现对视觉信息的逻辑重排序。

3️⃣ 级联因果推理,这种设计形成了一个两级级联结构,编码器通过查询 Token 对视觉信息进行语义重排序,随后的 LLM 解码器则基于这个有序序列进行推理。

4️⃣ Token 压缩,输入给 LLM 的视觉 Token 数量控制在 256 到 1120 之间。这个数量级既保留了 OCR 的高压缩比,又做到了 Gemini 3 Pro 的最大视觉 Token 预算能做的事。

基于全新的架构设计和训练,DeepSeek-OCR 2 在多个指标上展现了显著提升。

1️⃣ 基准测试,在 OmniDocBench v1.5 上,DeepSeek-OCR 2 的整体性能达到 91.09%,相比初代基线提升了 3.73%。

2️⃣ 阅读顺序,编辑距离从 0.085 显著降低至 0.057,证明了模型在理解视觉逻辑顺序方面的进步。

3️⃣ 生产环境表现,在实际应用中,重复率大幅下降,例如在线用户日志数据中从 6.25% 降至 4.17%,表明模型的实用性和稳定性更强。

4️⃣ 效率,在保持高性能的同时,使用了极低的视觉 Token 预算,最多 1120 个,相比其他模型效率更高。

未来,DeepSeek 打算通过两个 1D 因果推理器的级联,探索实现真正的 2D 图像理解和推理。

论文:https://github.com/deepseek-ai/DeepSeek-OCR-2








特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
南京市博物总馆最新通告

南京市博物总馆最新通告

小陆搞笑日常
2026-01-27 15:52:03
这个朝代只有10年,却被膜拜了1000年

这个朝代只有10年,却被膜拜了1000年

最爱历史
2026-01-27 15:33:55
够硬!CBA联盟犯规第一球队,近12战11胜,晋京厦3强,全赢了个遍

够硬!CBA联盟犯规第一球队,近12战11胜,晋京厦3强,全赢了个遍

金山话体育
2026-01-27 17:39:10
辽宁109-57狂胜四川 球员评价:7人优秀,2人及格,3人低迷

辽宁109-57狂胜四川 球员评价:7人优秀,2人及格,3人低迷

篮球资讯达人
2026-01-27 21:23:31
上海前首富周正毅现状曝光!戴200万名表打耳钉,雪茄从不离手

上海前首富周正毅现状曝光!戴200万名表打耳钉,雪茄从不离手

小徐讲八卦
2026-01-12 14:35:55
新加坡往返中国航线“停飞”、东南亚航班大面积取消!旅客恐受阻

新加坡往返中国航线“停飞”、东南亚航班大面积取消!旅客恐受阻

新加坡万事通
2026-01-27 18:29:28
委内瑞拉已经倒下了,中国终于出手,另一个反美国家绝不能倒

委内瑞拉已经倒下了,中国终于出手,另一个反美国家绝不能倒

比利
2026-01-27 21:23:49
中国再抛61亿美债,特朗普破防了,美媒:想赢中国只有1条路可选

中国再抛61亿美债,特朗普破防了,美媒:想赢中国只有1条路可选

生活新鲜市
2026-01-27 11:34:50
高诗岩单节15分,山东男篮4连胜紧追前4 18岁射手成奇兵 砍下11分

高诗岩单节15分,山东男篮4连胜紧追前4 18岁射手成奇兵 砍下11分

替补席看球
2026-01-27 21:50:44
事发上海!雇主离世仅12分钟,保姆就陆续转走银行卡内50万元现金,还变卖玉器

事发上海!雇主离世仅12分钟,保姆就陆续转走银行卡内50万元现金,还变卖玉器

新民晚报
2026-01-26 14:44:31
男性在喝酒时,尽量少吃这3种下酒菜,尤其是第一种,一定要忍住

男性在喝酒时,尽量少吃这3种下酒菜,尤其是第一种,一定要忍住

熊猫医学社
2026-01-07 11:30:03
世界第一女首富:身家7300亿,店面遍布全中国,一说名字家喻户晓

世界第一女首富:身家7300亿,店面遍布全中国,一说名字家喻户晓

牛牛叨史
2026-01-26 14:18:52
曼城发布马年球衣:受中国水墨画影响,附有素描风格马匹图案

曼城发布马年球衣:受中国水墨画影响,附有素描风格马匹图案

懂球帝
2026-01-27 18:27:17
泽连斯基:乌克兰计划2027年加入欧盟

泽连斯基:乌克兰计划2027年加入欧盟

财联社
2026-01-27 20:38:07
美ICE特工将参与意大利冬奥会安保工作引争议,米兰市长明确表态:不欢迎

美ICE特工将参与意大利冬奥会安保工作引争议,米兰市长明确表态:不欢迎

环球网资讯
2026-01-27 19:33:07
后悔也晚了!大批F35逼到家门口,伊朗却发现红旗9和歼10还未到位

后悔也晚了!大批F35逼到家门口,伊朗却发现红旗9和歼10还未到位

来科点谱
2026-01-26 08:53:15
台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

顾史
2026-01-21 21:04:39
为啥城里的麻雀越来越少?而斑鸠却越来越多?两者之间有啥关系吗

为啥城里的麻雀越来越少?而斑鸠却越来越多?两者之间有啥关系吗

向航说
2026-01-24 00:45:03
个人收入或将开始严查?1月起,如你收入超过这个数,今后要注意

个人收入或将开始严查?1月起,如你收入超过这个数,今后要注意

复转这些年
2026-01-27 10:53:00
五连胜,郑永刚:赢下比赛靠积极防守;春节前的三连客要打好

五连胜,郑永刚:赢下比赛靠积极防守;春节前的三连客要打好

懂球帝
2026-01-27 21:39:17
2026-01-27 22:27:00
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
6042文章数 26745关注度
往期回顾 全部

科技要闻

马化腾3年年会讲话透露了哪些关键信息

头条要闻

国科大星际航行学院正式成立 官网发文诚聘海外英才

头条要闻

国科大星际航行学院正式成立 官网发文诚聘海外英才

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

张雨绮被曝代孕,春晚被拒,代言跑路

财经要闻

多地对垄断行业"近亲繁殖"出手了

汽车要闻

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

亲子
健康
家居
艺术
数码

亲子要闻

双职工家庭,孩子上幼儿园后,无老人帮忙,夫妻俩能独立带娃吗?

耳石脱落为何让人天旋地转+恶心?

家居要闻

现代古典 中性又显韵味

艺术要闻

日本东京国立博物馆中的100幅宋画

数码要闻

SKN推出青龙·惊碳机械键盘:碳纤维纹理,95%配列,399元

无障碍浏览 进入关怀版