网易首页 > 网易号 > 正文 申请入驻

DeepSeek-OCR模型为何这么火?盘了一下OCR发展史

0
分享至

【TechWeb】10月24日消息,DeepSeek在10月20日发布的3B参数开源OCR模型,迅速在AI领域获得了广泛关注和讨论。

DeepSeek-OCR模型创新性地提出“上下文光学压缩”技术,将长文本转换为图像进行高效压缩处理,大幅降低大模型输入所需的Token数量,从而显著降低大模型处理长文档时的计算开销。

其核心理念被评价为“AI的JPEG时刻”,通过视觉输入模拟人类记忆衰减机制,将久远上下文压缩为低分辨率图像,实现自然遗忘,从而优化长上下文管理,其被认为为AI的记忆和上下文处理架构打开了新路径。

这一思路获得 Andrej Karpathy 等业界专家高度评价,认为可能改变 AI 理解信息的方式。

DeepSeek-OCR模型在GitHub上迅速获得过万星标,在HuggingFace也登上热榜,证明了其受开发者欢迎的程度。

DeepSeek-OCR开源



DeepSeek-OCR模型在 OmniDocBench 测试中表现优异。仅用100 个视觉 token*即超越 GOT-OCR2.0(256 token),用不足800视觉 token超越 MinerU2.0(超 6000 token),实现高达 60 倍的 token 效率提升。

实测数据显示,在 10 倍压缩率下 OCR 解码准确率达 97%,即使在20倍压缩率下仍保持约 60% 准确率,支持多分辨率输入(如 tiny: 512x512 到 large: 1280x1280)及动态分辨率模式(Gundam 模式)。

DeepSeek-OCR的出色表现,源于其精巧的“编码器-解码器”架构设计。

DeepEncoder编码器是模型的核心引擎,其参数量约为3.8亿。它创新性地串联了SAM-base和CLIP-large两个视觉模型。SAM-base利用窗口注意力机制捕捉局部细节,而CLIP-large则通过全局注意力理解图像的整体语义。两者之间通过一个卷积模块进行16倍下采样,显著减少了需要处理的视觉Token数量,从而在高分辨率输入下也能保持较低的计算消耗。

DeepSeek3B-MoE解码器是一个参数量为30亿的混合专家模型 (MoE)。在推理时,它每次仅激活约5.7亿参数,这使得它既能具备大模型的强大表达能力,又保持了小模型的轻量级推理效率,负责从压缩后的视觉Token中精准地还原出原始文本。


模型已在 GitHub 与 Hugging Face 开源,并上线超算互联网平台提供免费在线推理服务,单块 A100-40G GPU 每日可生成超 20 万页高质量训练数据,显著降低数据制备成本。

海内外如何评价?真香

DeepSeek-OCR 模型自发布以来,凭借其创新的“上下文光学压缩”思路,在AI领域获得了广泛关注。

特斯拉前自动驾驶负责人、OpenAI联合创始人安德烈•卡帕西(Andrej Karpathy)在X发长文盛赞DeepSeek-OCR 模型,认为像素可能比文本更适合作为LLM的输入。他提出,即便纯文本也应先渲染成图像再输入,这样信息压缩效率更高,并有望淘汰存在安全和效率问题的分词器 (Tokenizer)。


特斯拉创始人埃隆•马斯克 (Elon Musk)则在卡帕西的讨论下评论,从长远看,AI模型超过99%的输入和输出都将是光子(光学信号)。

360创始人周鸿祎直接指出,以前的OCR是逐个认字符,不管文字多长都要一个个token堆。但DeepSeek-OCR是把文字当图片压缩,就像把一千字的文档转成JPG,体积小了但内容没丢。这招直接解决了OCR的两大痛点,精度不够和成本太高。


《麻省理工科技评论》发文指出DeepSeek-OCR模型具备较强的"深度解析"能力,能将图表转为表格、解析化学分子式等,拓展了其在金融、科研等专业领域的应用空间。

长江证券研究报告则认为DeepSeek-OCR模型验证了视觉Token可以更高效地表达信息,提供了降本新思路,有望成为文档智能领域的基础组件。

在开发者社区,有从业者赞叹,DeepSeek的论文每篇都是精品,R1养活了一批研究强化学习的人,OCR这篇意味CV研究员的春天到来了。

由斯坦福大学学生开发的学术论文在线交流平台AlphaXiv宣布用DeepSeek OCR从自己论文库中的50W+篇AI相关的文章中的表格与图表中,提取了每一个数据集,来看哪个benchmark最流行,并发布成一个新的数据集。这个操作总共花费了1000美元;同样的项目用Mistral OCR要7500美元。


有行业从业者就表示,AlphaXiv做的这件事意义远超技术本身。AlphaXiv用DeepSeek OCR做的,不只是一次“便宜又快”的信息提取实验,而是一种研究范式的跃迁。当OCR成本降到每篇几厘钱,谁先把“学术表格与图表”这座金矿变成一张可查询、可比较、可复用的“Benchmark 图谱”,谁就掌握了下一轮模型评测与研发决策的话语权。

谈到DeepSeek-OCR模型的开源将对行业带来多大冲击?

周鸿祎认为:“首先那些靠OCR技术收费的公司压力山大了,人家免费开源的效果比你收费的还好。其次文档处理、数据录入、内容审核这些传统行业也要变天了,以前需要大量人工的工作,现在AI几秒钟就搞定。最关键的是这会加速整个AI生态的发展,更多创业公司能用上顶级技术,行业竞争会更激烈。”

目前,DeepSeek OCR模型热度也带火了多款OCR相关模型,百度PaddleOCR-VL、阿里Qwen3-VL-8B-Instruct、Nanonets-OCR2-3B等在Hugging Face上均排到模型前几名。


OCR发展历史

事实上,OCR(Optical Character Recognition,光学字符识别)技术发展经历多个重要发展阶段。从最早的模板匹配到现在的端到端深度学习,每个阶段都有其标志性技术突破。

1929年,德国科学家 Gustav Tauschek申请了首个OCR相关的专利。他的装置使用模板和光电管来识别字符,属于机械式识别。早期仅能识别0-9数字等固定字体。

随着计算机的出现,OCR的概念开始成型。IBM的David H. Shepard 在1951年建造了“Gismo”*机器,被认为是第一台能识别印刷英文字母的计算机,并成立了世界第一家OCR公司。

此后,计算机科学的发展推动了OCR进入真正的数字化和算法化阶段。随着计算能力的提升和统计学习理论的发展,OCR技术变得更加鲁棒和通用。OCR技术从特征提取与模式识别,发展到从纯粹的几何特征转向基于统计模型的分类。

深度学习的出现,特别是卷积神经网络(CNN),彻底改变了OCR领域,使其性能达到了前所未有的高度。CNN架构(如CRNN模型)实现端到端训练,提升文字检测精度,复杂场景识别率从2013年的58%跃升至2018年的89%左右。

在此阶段,百度推出的开源工具库PaddleOCR,集成了当时最先进的检测和识别模型,推动了OCR的工业化应用。OpenMMLab旗下的开源工具箱MMOCR,采用模块化设计,支持多种前沿算法。

深度学习OCR系统能够在复杂背景、光照不均、字体多变、角度倾斜等挑战性场景下取得极高的准确率(99%+)。这使得OCR应用场景从扫描文档扩展到了自然场景文本识别。例如,OCR技术已经广泛应用于教学领域。

当前,OCR技术正与多模态大模型融合,其目标不再是单纯的“文字识别”,而是升级为全面的“文档智能理解”。

如GPT-4V、Gemini等,它们内置了强大的视觉理解能力,能够直接对文档图像进行问答、总结、提取信息等,OCR成为其底层能力之一。与此同时,Donut、Pix2Struct等模型,则展示了无需OCR即可直接“理解”文档图像的端到端能力。

这一次,DeepSeek-OCR代表了另一个前沿方向——“上下文光学压缩”。它不再追求将每个像素都精确转换为文本,而是探索如何以极高的效率压缩和保留文档中的语义信息,为处理海量长文档提供了新范式。

纵观OCR技术的发展史,这是一条从 “机械之眼”到“认知之脑”*的演进之路。在方法上,经历了从 模板匹配→ 特征工程→ 统计学习→ 深度学习→多模态理解的发展,在能力上,实现了从识别单一字体→识别多字体→应对复杂场景→理解文档语义的跃迁。

DeepSeek-OCR 之所以能引发如此热烈的讨论,主要归功于它在以下几个方面的突破:

首先,最值得称道的是,思想上的根本性创新。

DeepSeek-OCR跳出了传统纯文本处理的框架,提出了一种名为“上下文光学压缩”的思路。利用“一图胜千言”的道理,将长文本转换为图像并进行高倍率压缩,让模型通过“看图”来理解和还原内容。

DeepSeek-OCR变换了处理方式后,不仅有更优的性能与效率,同时还展现出强大的结构化信息解析能力,不仅限于文本识别。它可以将金融报告中的图表直接转换为表格数据,将化学分子式输出为专业的SMILES格式,或解析几何图形中的关系。这使其在专业领域具有极高的应用价值。

其次,DeepSeek-OCR也给未来OCR研究提供了新方向的启发。研究团队提出了一个有趣的构想,即用这种光学压缩的方式来模拟人类的“遗忘机制” 。近期记忆用高分辨率保留细节,远期记忆则逐步压缩、变得模糊,这为AI处理无限长上下文提供了一个全新的、更接近人类智能的思路。(果青)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
盘锦一人干翻整小区,叔叔蹲守后主力找监控,小区曝光,群里炸锅

盘锦一人干翻整小区,叔叔蹲守后主力找监控,小区曝光,群里炸锅

奇思妙想草叶君
2026-03-06 19:05:37
现在的电网,大概率是当初的商业航天:别等翻倍才看懂

现在的电网,大概率是当初的商业航天:别等翻倍才看懂

Thurman在昆明
2026-03-06 16:22:19
伊朗死亡超3000人,库尔德武装攻陷西部4城镇,波斯开启疯狂模式

伊朗死亡超3000人,库尔德武装攻陷西部4城镇,波斯开启疯狂模式

史政先锋
2026-03-06 08:49:03
央视火速曝光:全是假货!别再往家里搬了,很多人天天在用!

央视火速曝光:全是假货!别再往家里搬了,很多人天天在用!

云舟史策
2026-03-05 17:54:39
拒唱国歌惹大祸!伊朗女足踢亚洲杯惨遭软禁,上厕所都有人盯

拒唱国歌惹大祸!伊朗女足踢亚洲杯惨遭软禁,上厕所都有人盯

仰卧撑FTUer
2026-03-06 19:57:07
美以伊冲突7日:伤亡数千,美军行动每天成本数十亿美元

美以伊冲突7日:伤亡数千,美军行动每天成本数十亿美元

网易新闻出品
2026-03-06 21:29:45
伊朗越打越猛,特朗普骑虎难下!美国实际上已经输了

伊朗越打越猛,特朗普骑虎难下!美国实际上已经输了

哲叔视野
2026-03-06 09:26:23
中东大战日本先崩!日媒哀叹:缺乏中国的战略远见

中东大战日本先崩!日媒哀叹:缺乏中国的战略远见

北向财经
2026-03-06 20:28:33
九大佬联名宣战!举全国之力造中国版阿斯麦,ASML慌了

九大佬联名宣战!举全国之力造中国版阿斯麦,ASML慌了

Thurman在昆明
2026-03-06 20:23:01
伊朗导弹千里猎杀,美驱逐舰燃起大火?特朗普一句话震动全球

伊朗导弹千里猎杀,美驱逐舰燃起大火?特朗普一句话震动全球

东极妙严
2026-03-06 15:09:57
全国人大代表戴茵建议不对70岁以上老人开自动续费

全国人大代表戴茵建议不对70岁以上老人开自动续费

IT之家
2026-03-06 14:41:03
局势逆转,伊朗接连击落美战机,特朗普又收到噩耗,美军弹药见底

局势逆转,伊朗接连击落美战机,特朗普又收到噩耗,美军弹药见底

基斯默默
2026-03-06 16:42:00
被美囚禁9年!中国芯片专家张浩归国,反手将苹果告上法庭!

被美囚禁9年!中国芯片专家张浩归国,反手将苹果告上法庭!

达文西看世界
2026-03-06 18:00:52
网红安静公主自曝肛裂,今年手术做太多,被建议休息半个月再检查

网红安静公主自曝肛裂,今年手术做太多,被建议休息半个月再检查

君笙的拂兮
2026-03-05 07:22:01
中美关系要变天了!

中美关系要变天了!

兰妮搞笑分享
2026-03-06 23:22:18
特朗普宣称“与伊朗不会达成任何协议”

特朗普宣称“与伊朗不会达成任何协议”

新华社
2026-03-06 22:14:06
我国初中、高中、高等教育三个阶段的学龄人口将分别于2026年、2029年、2032年达峰

我国初中、高中、高等教育三个阶段的学龄人口将分别于2026年、2029年、2032年达峰

大象新闻
2026-03-06 18:47:02
连民生用水都不能吐槽了吗?到底是谁在害怕?不去解决问题,解决提问题的?

连民生用水都不能吐槽了吗?到底是谁在害怕?不去解决问题,解决提问题的?

盐城市民网
2026-03-06 11:25:34
这款伊朗的“穷人巡航导弹”,把美国打心疼了

这款伊朗的“穷人巡航导弹”,把美国打心疼了

枢密院十号
2026-03-06 21:29:22
央视公开点赞!中东海域GPS集体失灵,中国船员启用北斗马上恢复

央视公开点赞!中东海域GPS集体失灵,中国船员启用北斗马上恢复

面包夹知识
2026-03-05 16:06:01
2026-03-07 03:44:49
TechWeb incentive-icons
TechWeb
做有态度的互联网资讯。
16326文章数 43070关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

伊朗:大规模发射新一代导弹 打击美军多个基地

头条要闻

伊朗:大规模发射新一代导弹 打击美军多个基地

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

关于经济、股市等,五部门都说了啥?

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

本地
游戏
数码
时尚
公开课

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

曝下代Xbox靠纯算力制霸!性能“爆杀”PS6

数码要闻

AYANEO Pocket AIR Mini x B.Duck小黄鸭联名限定款掌机亮相

这些才是适合普通人的穿搭!搭配腰带、多穿牛仔裤,简单舒适

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版