网易首页 > 网易号 > 正文 申请入驻

DeepSeek开源新模型

0
分享至

(文/陈济深 编辑/张广凯)

10月20日,DeepSeek再度开源新模型。

在GitHub(https://github.com/deepseek-ai/DeepSeek-OCR)上可以看到其最新模型名为DeepSeek-OCR,还是一款OCR(光学字符识别)模型,该模型的参数量为3B。

该项目由 DeepSeek 三位研究员 Haoran Wei、Yaofeng Sun、Yukun Li 共同完成。其中一作 Haoran Wei 曾在阶跃星辰工作过,曾主导开发了旨在实现「第二代 OCR」的 GOT-OCR2.0 系统(arXiv:2409.01704),该项目已在 GitHub 收获了超 7800 star。也因此,由其主导 DeepSeek 的 OCR 项目也在情理之中。


DeepSeek 表示,DeepSeek-OCR 模型是通过光学二维映射(将文本内容压缩到视觉像素中)来高效压缩长文本上下文。

该模型主要由 DeepEncoder 和 DeepSeek3B-MoE-A570M 解码器两大核心组件构成。其中 DeepEncoder 作为核心引擎,既能保持高分辨率输入下的低激活状态,又能实现高压缩比,从而生成数量适中的视觉 token。

实验数据显示,当文本 token 数量在视觉 token 的 10 倍以内(即压缩率 <10×)时,模型的解码(OCR)精度可达 97%;即使在压缩率达到 20× 的情况下,OCR 准确率仍保持在约 60%。

这一结果显示出该方法在长上下文压缩和 LLM 的记忆遗忘机制等研究方向上具有相当潜力。

此外,DeepSeek-OCR 还展现出很高的实用价值。在 OmniDocBench 基准测试中,它仅使用 100 个视觉 token 就超过了 GOT-OCR2.0(每页 256 个 token) 的表现;同时,使用不到 800 个视觉 token 就优于 MinerU2.0(平均每页超过 6000 个 token)。在实际生产环境中,单张 A100-40G GPU 每天可生成超过 20 万页(200k+) 的 LLM/VLM 训练数据。

DeepSeek 探索的方法概括起来就是:利用视觉模态作为文本信息的高效压缩媒介。

简而言之,一张包含文档文本的图像可以用比等效文本少得多的 Token 来表示丰富的信息,这表明:通过视觉 Token 进行光学压缩可以实现高得多的压缩率。

基于这一洞见,DeepSeek 从以 LLM 为中心的视角重新审视了视觉语言模型 (VLM),其中,他们的研究重点是:视觉编码器如何提升 LLM 处理文本信息的效率,而非人类已擅长的基本视觉问答 (VQA) 任务。DeepSeek 表示,OCR 任务作为连接视觉和语言的中间模态,为这种视觉 - 文本压缩范式提供了理想的试验平台,因为它在视觉和文本表示之间建立了自然的压缩 - 解压缩映射,同时提供了可量化的评估指标。

鉴于此,DeepSeek-OCR 便由此而生。这是一个为实现高效视觉 - 文本压缩而设计的 VLM。

如图所示,DeepSeek-OCR 采用了一个统一的端到端 VLM 架构,由一个编码器和一个解码器组成。


DeepSeek-OCR 的创新架构不仅实现了高效的视觉-文本压缩,更在实际应用中展现出强大的性能潜力。

这一模型的核心突破在于其独特的双组件设计:DeepEncoder编码器和MoE解码器。

在编码器层面,DeepSeek创造性地将SAM-base的局部感知能力与CLIP-large的全局理解优势相结合。就像一位经验丰富的古籍修复师,它既能用"显微镜"精准识别每个字符的细节(窗口注意力),又能用"广角镜"把握整篇文档的版式结构(全局注意力)。特别值得注意的是其创新的16倍下采样机制——这相当于将一本300页的书籍压缩到20页的体量,却仍能保留97%的关键信息。

而MoE解码器采用的混合专家机制犹如一个专业翻译团队:面对不同语种、不同版式的文档时,系统会自动激活最擅长的6位"专家"协同工作。这种动态资源调配使得3B参数的大模型在实际运行时仅需570M参数的计算开销,在A100显卡上就能实现每天20万页的处理效率——相当于100名专业录入员的工作量。


在实际测试中,DeepSeek-OCR 展现了惊人的适应性:

对于简单的PPT文档,仅需64个视觉token就能准确还原内容,识别速度堪比人类扫视;

处理复杂的学术论文时,400个token即可完整保留数学公式、化学方程式等专业符号;

在多语言混合文档测试中,模型成功识别出阿拉伯语与僧伽罗语等特殊文字;

此外,DeepSeek-OCR 还具备一定程度的通用图像理解能力。


这也意味着DeepSeek-OCR存在广泛应用潜力,在金融领域,它可以将厚厚的财报瞬间转为结构化数据;在医疗行业,能快速数字化历史病历档案;对出版机构而言,古籍数字化效率将提升数十倍。更值得关注的是,该模型展现出的"视觉记忆"特性,为突破大语言模型的上下文长度限制提供了全新思路。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
破案!陈家政表现神勇杜锋却全程黑脸原因找到,现场球迷说出实情

破案!陈家政表现神勇杜锋却全程黑脸原因找到,现场球迷说出实情

后仰大风车
2026-03-26 08:15:08
14亿人集体买房,为什么最后买出了一个烂摊子?

14亿人集体买房,为什么最后买出了一个烂摊子?

流苏晚晴
2026-03-25 18:14:02
凯特戴6000块的帽子险出洋相!助手说漏嘴,意外爆出威廉的瓜?

凯特戴6000块的帽子险出洋相!助手说漏嘴,意外爆出威廉的瓜?

白露文娱志
2026-03-26 16:41:18
电影《挽救计划》高口碑热映 以跨文明协作诠释守望相助温暖内核

电影《挽救计划》高口碑热映 以跨文明协作诠释守望相助温暖内核

封面新闻
2026-03-26 18:56:02
定了!全票通过!杜兰特又要换队……

定了!全票通过!杜兰特又要换队……

贵圈真乱
2026-03-26 11:35:13
伊朗计划向通过霍尔木兹海峡的船只收取安全通行费

伊朗计划向通过霍尔木兹海峡的船只收取安全通行费

新浪财经
2026-03-26 20:28:52
独家:某运营商2025年营收几乎0增长! 好日子快到头了! 其实三大运营商日子都那样!

独家:某运营商2025年营收几乎0增长! 好日子快到头了! 其实三大运营商日子都那样!

新浪财经
2026-03-24 22:43:29
俄罗斯人想不明白:为什么强大的中国,几千年都不要西伯利亚?

俄罗斯人想不明白:为什么强大的中国,几千年都不要西伯利亚?

贱议你读史
2026-03-26 00:07:41
国金证券:长期来看黄金有望开启新一轮大牛市

国金证券:长期来看黄金有望开启新一轮大牛市

财联社
2026-03-26 08:08:04
蒙古总理当众给斯大林一耳光,走出宴会厅3小时后,被扣上间谍帽子枪决

蒙古总理当众给斯大林一耳光,走出宴会厅3小时后,被扣上间谍帽子枪决

老杉说历史
2026-03-23 22:17:08
波兰磨刀:谁将是压垮俄罗斯的最后一根稻草

波兰磨刀:谁将是压垮俄罗斯的最后一根稻草

民间胡扯老哥
2026-03-23 18:56:09
3轮0球0助攻!U23国足天才新星踢中超状态断崖式下滑,恐沦为鸡肋

3轮0球0助攻!U23国足天才新星踢中超状态断崖式下滑,恐沦为鸡肋

零度眼看球
2026-03-26 07:41:28
3月26日下午中国女排!传来朱婷、李盈莹、袁心玥最新消息

3月26日下午中国女排!传来朱婷、李盈莹、袁心玥最新消息

民哥台球解说
2026-03-26 16:17:49
崩了,知名光伏公司大规模停产,大面积待岗!

崩了,知名光伏公司大规模停产,大面积待岗!

黯泉
2026-03-25 21:36:39
随着朝鲜1-1,泰国2-2,西安邀请赛积分榜出炉:中国男足排名第一

随着朝鲜1-1,泰国2-2,西安邀请赛积分榜出炉:中国男足排名第一

侧身凌空斩
2026-03-25 21:41:35
法媒:“伊朗战争的首个受害者是真相”

法媒:“伊朗战争的首个受害者是真相”

参考消息
2026-03-26 13:30:07
国足VS库拉索:留洋小将坐镇中场,韦世豪王钰栋领衔,张玉宁冲锋

国足VS库拉索:留洋小将坐镇中场,韦世豪王钰栋领衔,张玉宁冲锋

零度眼看球
2026-03-26 07:23:48
不能光让特朗普出风头,俄罗斯宣布重大消息:和中国有大事要谈

不能光让特朗普出风头,俄罗斯宣布重大消息:和中国有大事要谈

哎呀哎呀看电影
2026-03-26 19:41:54
站在c位的是谁?张怡宁和郭晶晶两位同框,她在中间看着气场不小

站在c位的是谁?张怡宁和郭晶晶两位同框,她在中间看着气场不小

陈意小可爱
2026-03-26 07:59:48
逐玉爆火后最大的受益者,51岁翻红,涨粉百万!

逐玉爆火后最大的受益者,51岁翻红,涨粉百万!

娱人细品
2026-03-25 20:39:14
2026-03-26 21:00:49
观察者网 incentive-icons
观察者网
全球视野,中国关怀
137362文章数 1850281关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
时尚
健康
公开课
军事航空

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

上新|| 她们说,找到了自己的人生裙子!

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版