网易首页 > 网易号 > 正文 申请入驻

DeepSeek-OCR模型为何这么火?盘了一下OCR发展史

0
分享至

【TechWeb】10月24日消息,DeepSeek在10月20日发布的3B参数开源OCR模型,迅速在AI领域获得了广泛关注和讨论。

DeepSeek-OCR模型创新性地提出“上下文光学压缩”技术,将长文本转换为图像进行高效压缩处理,大幅降低大模型输入所需的Token数量,从而显著降低大模型处理长文档时的计算开销。

其核心理念被评价为“AI的JPEG时刻”,通过视觉输入模拟人类记忆衰减机制,将久远上下文压缩为低分辨率图像,实现自然遗忘,从而优化长上下文管理,其被认为为AI的记忆和上下文处理架构打开了新路径。

这一思路获得 Andrej Karpathy 等业界专家高度评价,认为可能改变 AI 理解信息的方式。

DeepSeek-OCR模型在GitHub上迅速获得过万星标,在HuggingFace也登上热榜,证明了其受开发者欢迎的程度。

DeepSeek-OCR开源



DeepSeek-OCR模型在 OmniDocBench 测试中表现优异。仅用100 个视觉 token*即超越 GOT-OCR2.0(256 token),用不足800视觉 token超越 MinerU2.0(超 6000 token),实现高达 60 倍的 token 效率提升。

实测数据显示,在 10 倍压缩率下 OCR 解码准确率达 97%,即使在20倍压缩率下仍保持约 60% 准确率,支持多分辨率输入(如 tiny: 512x512 到 large: 1280x1280)及动态分辨率模式(Gundam 模式)。

DeepSeek-OCR的出色表现,源于其精巧的“编码器-解码器”架构设计。

DeepEncoder编码器是模型的核心引擎,其参数量约为3.8亿。它创新性地串联了SAM-base和CLIP-large两个视觉模型。SAM-base利用窗口注意力机制捕捉局部细节,而CLIP-large则通过全局注意力理解图像的整体语义。两者之间通过一个卷积模块进行16倍下采样,显著减少了需要处理的视觉Token数量,从而在高分辨率输入下也能保持较低的计算消耗。

DeepSeek3B-MoE解码器是一个参数量为30亿的混合专家模型 (MoE)。在推理时,它每次仅激活约5.7亿参数,这使得它既能具备大模型的强大表达能力,又保持了小模型的轻量级推理效率,负责从压缩后的视觉Token中精准地还原出原始文本。


模型已在 GitHub 与 Hugging Face 开源,并上线超算互联网平台提供免费在线推理服务,单块 A100-40G GPU 每日可生成超 20 万页高质量训练数据,显著降低数据制备成本。

海内外如何评价?真香

DeepSeek-OCR 模型自发布以来,凭借其创新的“上下文光学压缩”思路,在AI领域获得了广泛关注。

特斯拉前自动驾驶负责人、OpenAI联合创始人安德烈•卡帕西(Andrej Karpathy)在X发长文盛赞DeepSeek-OCR 模型,认为像素可能比文本更适合作为LLM的输入。他提出,即便纯文本也应先渲染成图像再输入,这样信息压缩效率更高,并有望淘汰存在安全和效率问题的分词器 (Tokenizer)。


特斯拉创始人埃隆•马斯克 (Elon Musk)则在卡帕西的讨论下评论,从长远看,AI模型超过99%的输入和输出都将是光子(光学信号)。

360创始人周鸿祎直接指出,以前的OCR是逐个认字符,不管文字多长都要一个个token堆。但DeepSeek-OCR是把文字当图片压缩,就像把一千字的文档转成JPG,体积小了但内容没丢。这招直接解决了OCR的两大痛点,精度不够和成本太高。


《麻省理工科技评论》发文指出DeepSeek-OCR模型具备较强的"深度解析"能力,能将图表转为表格、解析化学分子式等,拓展了其在金融、科研等专业领域的应用空间。

长江证券研究报告则认为DeepSeek-OCR模型验证了视觉Token可以更高效地表达信息,提供了降本新思路,有望成为文档智能领域的基础组件。

在开发者社区,有从业者赞叹,DeepSeek的论文每篇都是精品,R1养活了一批研究强化学习的人,OCR这篇意味CV研究员的春天到来了。

由斯坦福大学学生开发的学术论文在线交流平台AlphaXiv宣布用DeepSeek OCR从自己论文库中的50W+篇AI相关的文章中的表格与图表中,提取了每一个数据集,来看哪个benchmark最流行,并发布成一个新的数据集。这个操作总共花费了1000美元;同样的项目用Mistral OCR要7500美元。


有行业从业者就表示,AlphaXiv做的这件事意义远超技术本身。AlphaXiv用DeepSeek OCR做的,不只是一次“便宜又快”的信息提取实验,而是一种研究范式的跃迁。当OCR成本降到每篇几厘钱,谁先把“学术表格与图表”这座金矿变成一张可查询、可比较、可复用的“Benchmark 图谱”,谁就掌握了下一轮模型评测与研发决策的话语权。

谈到DeepSeek-OCR模型的开源将对行业带来多大冲击?

周鸿祎认为:“首先那些靠OCR技术收费的公司压力山大了,人家免费开源的效果比你收费的还好。其次文档处理、数据录入、内容审核这些传统行业也要变天了,以前需要大量人工的工作,现在AI几秒钟就搞定。最关键的是这会加速整个AI生态的发展,更多创业公司能用上顶级技术,行业竞争会更激烈。”

目前,DeepSeek OCR模型热度也带火了多款OCR相关模型,百度PaddleOCR-VL、阿里Qwen3-VL-8B-Instruct、Nanonets-OCR2-3B等在Hugging Face上均排到模型前几名。


OCR发展历史

事实上,OCR(Optical Character Recognition,光学字符识别)技术发展经历多个重要发展阶段。从最早的模板匹配到现在的端到端深度学习,每个阶段都有其标志性技术突破。

1929年,德国科学家 Gustav Tauschek申请了首个OCR相关的专利。他的装置使用模板和光电管来识别字符,属于机械式识别。早期仅能识别0-9数字等固定字体。

随着计算机的出现,OCR的概念开始成型。IBM的David H. Shepard 在1951年建造了“Gismo”*机器,被认为是第一台能识别印刷英文字母的计算机,并成立了世界第一家OCR公司。

此后,计算机科学的发展推动了OCR进入真正的数字化和算法化阶段。随着计算能力的提升和统计学习理论的发展,OCR技术变得更加鲁棒和通用。OCR技术从特征提取与模式识别,发展到从纯粹的几何特征转向基于统计模型的分类。

深度学习的出现,特别是卷积神经网络(CNN),彻底改变了OCR领域,使其性能达到了前所未有的高度。CNN架构(如CRNN模型)实现端到端训练,提升文字检测精度,复杂场景识别率从2013年的58%跃升至2018年的89%左右。

在此阶段,百度推出的开源工具库PaddleOCR,集成了当时最先进的检测和识别模型,推动了OCR的工业化应用。OpenMMLab旗下的开源工具箱MMOCR,采用模块化设计,支持多种前沿算法。

深度学习OCR系统能够在复杂背景、光照不均、字体多变、角度倾斜等挑战性场景下取得极高的准确率(99%+)。这使得OCR应用场景从扫描文档扩展到了自然场景文本识别。例如,OCR技术已经广泛应用于教学领域。

当前,OCR技术正与多模态大模型融合,其目标不再是单纯的“文字识别”,而是升级为全面的“文档智能理解”。

如GPT-4V、Gemini等,它们内置了强大的视觉理解能力,能够直接对文档图像进行问答、总结、提取信息等,OCR成为其底层能力之一。与此同时,Donut、Pix2Struct等模型,则展示了无需OCR即可直接“理解”文档图像的端到端能力。

这一次,DeepSeek-OCR代表了另一个前沿方向——“上下文光学压缩”。它不再追求将每个像素都精确转换为文本,而是探索如何以极高的效率压缩和保留文档中的语义信息,为处理海量长文档提供了新范式。

纵观OCR技术的发展史,这是一条从 “机械之眼”到“认知之脑”*的演进之路。在方法上,经历了从 模板匹配→ 特征工程→ 统计学习→ 深度学习→多模态理解的发展,在能力上,实现了从识别单一字体→识别多字体→应对复杂场景→理解文档语义的跃迁。

DeepSeek-OCR 之所以能引发如此热烈的讨论,主要归功于它在以下几个方面的突破:

首先,最值得称道的是,思想上的根本性创新。

DeepSeek-OCR跳出了传统纯文本处理的框架,提出了一种名为“上下文光学压缩”的思路。利用“一图胜千言”的道理,将长文本转换为图像并进行高倍率压缩,让模型通过“看图”来理解和还原内容。

DeepSeek-OCR变换了处理方式后,不仅有更优的性能与效率,同时还展现出强大的结构化信息解析能力,不仅限于文本识别。它可以将金融报告中的图表直接转换为表格数据,将化学分子式输出为专业的SMILES格式,或解析几何图形中的关系。这使其在专业领域具有极高的应用价值。

其次,DeepSeek-OCR也给未来OCR研究提供了新方向的启发。研究团队提出了一个有趣的构想,即用这种光学压缩的方式来模拟人类的“遗忘机制” 。近期记忆用高分辨率保留细节,远期记忆则逐步压缩、变得模糊,这为AI处理无限长上下文提供了一个全新的、更接近人类智能的思路。(果青)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
从“小作坊下料”到大厂围剿:AI漫剧狂飙2026,草根时代正式落幕

从“小作坊下料”到大厂围剿:AI漫剧狂飙2026,草根时代正式落幕

魏家东
2026-03-05 11:13:11
60年前经典儿歌走红网络,多国语言传唱《美国佬是强盗》

60年前经典儿歌走红网络,多国语言传唱《美国佬是强盗》

今夜繁星坠落
2026-03-05 18:40:19
特朗普在白宫“吹”梅西,全场狂赞足球,一个字没提政治

特朗普在白宫“吹”梅西,全场狂赞足球,一个字没提政治

耀阳体育
2026-03-06 11:45:58
伊朗打电话向中方求援,王毅四两拨千斤,一句话帮伊朗提前拆雷

伊朗打电话向中方求援,王毅四两拨千斤,一句话帮伊朗提前拆雷

军机Talk
2026-03-04 09:28:25
史诗级封杀!2000万网红“听风的蚕”彻底凉了

史诗级封杀!2000万网红“听风的蚕”彻底凉了

互联网品牌官
2026-02-12 01:17:23
霍去病二十四岁病逝,武帝哭三日,第四日却杀尽其十七名贴身侍卫

霍去病二十四岁病逝,武帝哭三日,第四日却杀尽其十七名贴身侍卫

掠影后有感
2026-03-06 10:53:15
广西壮族自治区副主席曹志强到玉柴调研

广西壮族自治区副主席曹志强到玉柴调研

中国客车信息网
2026-03-06 09:37:49
44艘与日本相关船只滞留波斯湾!日媒发出警告

44艘与日本相关船只滞留波斯湾!日媒发出警告

界面新闻
2026-03-05 15:00:27
詹姆斯:没人比我更严于律己,季后赛我会关手机没人找得到我

詹姆斯:没人比我更严于律己,季后赛我会关手机没人找得到我

懂球帝
2026-03-06 00:57:08
鲁比奥语出惊人,日本驻华大使大胆预测:中国定会放高市早苗一马

鲁比奥语出惊人,日本驻华大使大胆预测:中国定会放高市早苗一马

议纪史
2026-03-06 12:50:03
中美俄卫星定位精度差距太大!美0.1米,俄1.5米,中国北斗是多少

中美俄卫星定位精度差距太大!美0.1米,俄1.5米,中国北斗是多少

壹知眠羊
2026-03-05 11:13:57
军统中统屡渗延安屡败,戴笠坦言:因毛泽东身边有位红色福尔摩斯

军统中统屡渗延安屡败,戴笠坦言:因毛泽东身边有位红色福尔摩斯

唠叨说历史
2026-03-03 11:55:40
诺丁汉森林宫斗太抓马!埃杜逼走努诺又坑惨戴奇,如今遭老板封杀

诺丁汉森林宫斗太抓马!埃杜逼走努诺又坑惨戴奇,如今遭老板封杀

仰卧撑FTUer
2026-03-06 12:26:07
第20波打击!以色列本土告急,美军航母被击中?特朗普向31国求助

第20波打击!以色列本土告急,美军航母被击中?特朗普向31国求助

李健政观察
2026-03-06 11:17:01
1978年,胡耀邦找宋任穷谈话:你接替我任中央组织部长,别犹豫了

1978年,胡耀邦找宋任穷谈话:你接替我任中央组织部长,别犹豫了

春秋砚
2026-02-20 14:55:03
越扒越劲爆!释永信在少林寺的奢靡生活,你想都不敢想!

越扒越劲爆!释永信在少林寺的奢靡生活,你想都不敢想!

混沌录
2025-09-17 23:25:04
海口美兰机场启用新规:接人时单车单人将被罚,停车楼将迎新机遇

海口美兰机场启用新规:接人时单车单人将被罚,停车楼将迎新机遇

吃货的分享
2026-03-06 07:03:51
TVB前当家花旦形象大变,拍短剧演豪门婆婆,狂飙演技微表情被赞

TVB前当家花旦形象大变,拍短剧演豪门婆婆,狂飙演技微表情被赞

章眽八卦
2026-03-06 12:41:39
专家:美以想要摧毁伊朗导弹能力难度很大

专家:美以想要摧毁伊朗导弹能力难度很大

参考消息
2026-03-06 11:44:13
她13岁被北大破格录取,28岁嫁53岁老外成功入美籍,现在怎样了?

她13岁被北大破格录取,28岁嫁53岁老外成功入美籍,现在怎样了?

谈史论天地
2026-03-05 16:51:08
2026-03-06 13:31:00
TechWeb incentive-icons
TechWeb
做有态度的互联网资讯。
16312文章数 43070关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

特朗普强势要求赦免内塔尼亚胡 曾公开贴心为其推椅子

头条要闻

特朗普强势要求赦免内塔尼亚胡 曾公开贴心为其推椅子

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

黄金,牛市没了?!

汽车要闻

710km长续航+闪充 宋Ultra EV预售15.5万起

态度原创

艺术
亲子
健康
手机
军事航空

艺术要闻

敦煌壁画里的“动物世界”,温馨有爱!

亲子要闻

野外露营能带给孩子什么?4个好处很明显,室内活动比不了

转头就晕的耳石症,能开车上班吗?

手机要闻

荣耀600系列提前曝光,电池和处理器大亮

军事要闻

2026年中国国防预算增长7%

无障碍浏览 进入关怀版