网易首页 > 网易号 > 正文 申请入驻

DeepSeek-OCR模型为何这么火?盘了一下OCR发展史

0
分享至

【TechWeb】10月24日消息,DeepSeek在10月20日发布的3B参数开源OCR模型,迅速在AI领域获得了广泛关注和讨论。

DeepSeek-OCR模型创新性地提出“上下文光学压缩”技术,将长文本转换为图像进行高效压缩处理,大幅降低大模型输入所需的Token数量,从而显著降低大模型处理长文档时的计算开销。

其核心理念被评价为“AI的JPEG时刻”,通过视觉输入模拟人类记忆衰减机制,将久远上下文压缩为低分辨率图像,实现自然遗忘,从而优化长上下文管理,其被认为为AI的记忆和上下文处理架构打开了新路径。

这一思路获得 Andrej Karpathy 等业界专家高度评价,认为可能改变 AI 理解信息的方式。

DeepSeek-OCR模型在GitHub上迅速获得过万星标,在HuggingFace也登上热榜,证明了其受开发者欢迎的程度。

DeepSeek-OCR开源



DeepSeek-OCR模型在 OmniDocBench 测试中表现优异。仅用100 个视觉 token*即超越 GOT-OCR2.0(256 token),用不足800视觉 token超越 MinerU2.0(超 6000 token),实现高达 60 倍的 token 效率提升。

实测数据显示,在 10 倍压缩率下 OCR 解码准确率达 97%,即使在20倍压缩率下仍保持约 60% 准确率,支持多分辨率输入(如 tiny: 512x512 到 large: 1280x1280)及动态分辨率模式(Gundam 模式)。

DeepSeek-OCR的出色表现,源于其精巧的“编码器-解码器”架构设计。

DeepEncoder编码器是模型的核心引擎,其参数量约为3.8亿。它创新性地串联了SAM-base和CLIP-large两个视觉模型。SAM-base利用窗口注意力机制捕捉局部细节,而CLIP-large则通过全局注意力理解图像的整体语义。两者之间通过一个卷积模块进行16倍下采样,显著减少了需要处理的视觉Token数量,从而在高分辨率输入下也能保持较低的计算消耗。

DeepSeek3B-MoE解码器是一个参数量为30亿的混合专家模型 (MoE)。在推理时,它每次仅激活约5.7亿参数,这使得它既能具备大模型的强大表达能力,又保持了小模型的轻量级推理效率,负责从压缩后的视觉Token中精准地还原出原始文本。


模型已在 GitHub 与 Hugging Face 开源,并上线超算互联网平台提供免费在线推理服务,单块 A100-40G GPU 每日可生成超 20 万页高质量训练数据,显著降低数据制备成本。

海内外如何评价?真香

DeepSeek-OCR 模型自发布以来,凭借其创新的“上下文光学压缩”思路,在AI领域获得了广泛关注。

特斯拉前自动驾驶负责人、OpenAI联合创始人安德烈•卡帕西(Andrej Karpathy)在X发长文盛赞DeepSeek-OCR 模型,认为像素可能比文本更适合作为LLM的输入。他提出,即便纯文本也应先渲染成图像再输入,这样信息压缩效率更高,并有望淘汰存在安全和效率问题的分词器 (Tokenizer)。


特斯拉创始人埃隆•马斯克 (Elon Musk)则在卡帕西的讨论下评论,从长远看,AI模型超过99%的输入和输出都将是光子(光学信号)。

360创始人周鸿祎直接指出,以前的OCR是逐个认字符,不管文字多长都要一个个token堆。但DeepSeek-OCR是把文字当图片压缩,就像把一千字的文档转成JPG,体积小了但内容没丢。这招直接解决了OCR的两大痛点,精度不够和成本太高。


《麻省理工科技评论》发文指出DeepSeek-OCR模型具备较强的"深度解析"能力,能将图表转为表格、解析化学分子式等,拓展了其在金融、科研等专业领域的应用空间。

长江证券研究报告则认为DeepSeek-OCR模型验证了视觉Token可以更高效地表达信息,提供了降本新思路,有望成为文档智能领域的基础组件。

在开发者社区,有从业者赞叹,DeepSeek的论文每篇都是精品,R1养活了一批研究强化学习的人,OCR这篇意味CV研究员的春天到来了。

由斯坦福大学学生开发的学术论文在线交流平台AlphaXiv宣布用DeepSeek OCR从自己论文库中的50W+篇AI相关的文章中的表格与图表中,提取了每一个数据集,来看哪个benchmark最流行,并发布成一个新的数据集。这个操作总共花费了1000美元;同样的项目用Mistral OCR要7500美元。


有行业从业者就表示,AlphaXiv做的这件事意义远超技术本身。AlphaXiv用DeepSeek OCR做的,不只是一次“便宜又快”的信息提取实验,而是一种研究范式的跃迁。当OCR成本降到每篇几厘钱,谁先把“学术表格与图表”这座金矿变成一张可查询、可比较、可复用的“Benchmark 图谱”,谁就掌握了下一轮模型评测与研发决策的话语权。

谈到DeepSeek-OCR模型的开源将对行业带来多大冲击?

周鸿祎认为:“首先那些靠OCR技术收费的公司压力山大了,人家免费开源的效果比你收费的还好。其次文档处理、数据录入、内容审核这些传统行业也要变天了,以前需要大量人工的工作,现在AI几秒钟就搞定。最关键的是这会加速整个AI生态的发展,更多创业公司能用上顶级技术,行业竞争会更激烈。”

目前,DeepSeek OCR模型热度也带火了多款OCR相关模型,百度PaddleOCR-VL、阿里Qwen3-VL-8B-Instruct、Nanonets-OCR2-3B等在Hugging Face上均排到模型前几名。


OCR发展历史

事实上,OCR(Optical Character Recognition,光学字符识别)技术发展经历多个重要发展阶段。从最早的模板匹配到现在的端到端深度学习,每个阶段都有其标志性技术突破。

1929年,德国科学家 Gustav Tauschek申请了首个OCR相关的专利。他的装置使用模板和光电管来识别字符,属于机械式识别。早期仅能识别0-9数字等固定字体。

随着计算机的出现,OCR的概念开始成型。IBM的David H. Shepard 在1951年建造了“Gismo”*机器,被认为是第一台能识别印刷英文字母的计算机,并成立了世界第一家OCR公司。

此后,计算机科学的发展推动了OCR进入真正的数字化和算法化阶段。随着计算能力的提升和统计学习理论的发展,OCR技术变得更加鲁棒和通用。OCR技术从特征提取与模式识别,发展到从纯粹的几何特征转向基于统计模型的分类。

深度学习的出现,特别是卷积神经网络(CNN),彻底改变了OCR领域,使其性能达到了前所未有的高度。CNN架构(如CRNN模型)实现端到端训练,提升文字检测精度,复杂场景识别率从2013年的58%跃升至2018年的89%左右。

在此阶段,百度推出的开源工具库PaddleOCR,集成了当时最先进的检测和识别模型,推动了OCR的工业化应用。OpenMMLab旗下的开源工具箱MMOCR,采用模块化设计,支持多种前沿算法。

深度学习OCR系统能够在复杂背景、光照不均、字体多变、角度倾斜等挑战性场景下取得极高的准确率(99%+)。这使得OCR应用场景从扫描文档扩展到了自然场景文本识别。例如,OCR技术已经广泛应用于教学领域。

当前,OCR技术正与多模态大模型融合,其目标不再是单纯的“文字识别”,而是升级为全面的“文档智能理解”。

如GPT-4V、Gemini等,它们内置了强大的视觉理解能力,能够直接对文档图像进行问答、总结、提取信息等,OCR成为其底层能力之一。与此同时,Donut、Pix2Struct等模型,则展示了无需OCR即可直接“理解”文档图像的端到端能力。

这一次,DeepSeek-OCR代表了另一个前沿方向——“上下文光学压缩”。它不再追求将每个像素都精确转换为文本,而是探索如何以极高的效率压缩和保留文档中的语义信息,为处理海量长文档提供了新范式。

纵观OCR技术的发展史,这是一条从 “机械之眼”到“认知之脑”*的演进之路。在方法上,经历了从 模板匹配→ 特征工程→ 统计学习→ 深度学习→多模态理解的发展,在能力上,实现了从识别单一字体→识别多字体→应对复杂场景→理解文档语义的跃迁。

DeepSeek-OCR 之所以能引发如此热烈的讨论,主要归功于它在以下几个方面的突破:

首先,最值得称道的是,思想上的根本性创新。

DeepSeek-OCR跳出了传统纯文本处理的框架,提出了一种名为“上下文光学压缩”的思路。利用“一图胜千言”的道理,将长文本转换为图像并进行高倍率压缩,让模型通过“看图”来理解和还原内容。

DeepSeek-OCR变换了处理方式后,不仅有更优的性能与效率,同时还展现出强大的结构化信息解析能力,不仅限于文本识别。它可以将金融报告中的图表直接转换为表格数据,将化学分子式输出为专业的SMILES格式,或解析几何图形中的关系。这使其在专业领域具有极高的应用价值。

其次,DeepSeek-OCR也给未来OCR研究提供了新方向的启发。研究团队提出了一个有趣的构想,即用这种光学压缩的方式来模拟人类的“遗忘机制” 。近期记忆用高分辨率保留细节,远期记忆则逐步压缩、变得模糊,这为AI处理无限长上下文提供了一个全新的、更接近人类智能的思路。(果青)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普威胁对尼日利亚采取军事行动

特朗普威胁对尼日利亚采取军事行动

参考消息
2025-11-02 09:58:05
王晶发文悼念冯淬帆:做人欺善怕恶,爱骂人和单身有关,称呼改变

王晶发文悼念冯淬帆:做人欺善怕恶,爱骂人和单身有关,称呼改变

一娱三分地
2025-11-01 17:26:04
恒大幕后黑手曝光:刚被“抄家”的许家印,很可能是只“替罪羊”

恒大幕后黑手曝光:刚被“抄家”的许家印,很可能是只“替罪羊”

史行途
2025-11-01 11:40:29
千万不要得罪这个种红薯的小女人!她被小米投诉后居然反杀获胜

千万不要得罪这个种红薯的小女人!她被小米投诉后居然反杀获胜

回旋镖
2025-11-01 18:25:05
牺牲太大了!中国首个出舱女宇航员谈太空之旅:落地后路都走不了

牺牲太大了!中国首个出舱女宇航员谈太空之旅:落地后路都走不了

青途历史
2025-11-01 20:56:18
活久见!山东一宝马汽车“穿棉袄”,网友:天冷,别冻着我的活爹

活久见!山东一宝马汽车“穿棉袄”,网友:天冷,别冻着我的活爹

火山诗话
2025-11-01 13:41:41
两位省委常委跨省履新后,新职务明确

两位省委常委跨省履新后,新职务明确

鲁中晨报
2025-11-02 12:03:14
北青:邵佳一已成国足新帅主要候选人之一

北青:邵佳一已成国足新帅主要候选人之一

懂球帝
2025-11-02 13:40:10
歌手黄安透露,屠颖去世是因为在酒店跑步机上跑步时摔跤致颅内出血

歌手黄安透露,屠颖去世是因为在酒店跑步机上跑步时摔跤致颅内出血

红星新闻
2025-11-02 10:19:19
活久见!苏州一男子征婚曝光,把体制内家庭的优越感写得明明白白

活久见!苏州一男子征婚曝光,把体制内家庭的优越感写得明明白白

火山诗话
2025-10-31 13:29:31
英国火车行凶案9人危殆:袭击者挥舞大刀,目击者最初以为是万圣节恶作剧

英国火车行凶案9人危殆:袭击者挥舞大刀,目击者最初以为是万圣节恶作剧

澎湃新闻
2025-11-02 13:00:30
广东人,又连任了一个外国总统?

广东人,又连任了一个外国总统?

陆弃
2025-11-02 09:00:03
“为了孩子吃上饭,自己只能靠喝水撑着”!政府“停摆”满月, 4200万美国人吃饭成问题,多少个“截止日期”被错过了

“为了孩子吃上饭,自己只能靠喝水撑着”!政府“停摆”满月, 4200万美国人吃饭成问题,多少个“截止日期”被错过了

每日经济新闻
2025-11-01 17:49:10
国际刑事法院裁定结果公布,杜家将被一网打尽,小马已无后顾之忧

国际刑事法院裁定结果公布,杜家将被一网打尽,小马已无后顾之忧

历史求知所
2025-11-01 14:45:03
世界首家5万亿美元公司大公子 黄仁勋儿子:帮老爸工作有时很辛苦

世界首家5万亿美元公司大公子 黄仁勋儿子:帮老爸工作有时很辛苦

阿纂看事
2025-11-01 16:33:31
天塌了!一夜之间2家公司被立案,1家被ST,14万股东集体踩雷

天塌了!一夜之间2家公司被立案,1家被ST,14万股东集体踩雷

财经智多星
2025-11-01 08:16:00
澎湃江苏公众号发文:抱歉,确实没提前准备泰州夺冠的稿子

澎湃江苏公众号发文:抱歉,确实没提前准备泰州夺冠的稿子

懂球帝
2025-11-01 23:30:56
上海警方:全市严查!一周内多人被罚!

上海警方:全市严查!一周内多人被罚!

极目新闻
2025-11-02 10:54:57
痛心!徐州3名孩子失联后遗体在河中找到,其中包括一对姐弟

痛心!徐州3名孩子失联后遗体在河中找到,其中包括一对姐弟

极目新闻
2025-11-02 13:25:07
易纲同志不再担任经济委员会副主任

易纲同志不再担任经济委员会副主任

鲁中晨报
2025-11-01 22:15:05
2025-11-02 16:11:00
TechWeb incentive-icons
TechWeb
做有态度的互联网资讯。
13727文章数 43027关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

"最快女护士"张水华获得"复出"后首个全马冠军

头条要闻

"最快女护士"张水华获得"复出"后首个全马冠军

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

离世的他曾是刘德华张学友御用班底

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

数码
房产
健康
亲子
家居

数码要闻

华为星闪起猛了!蓝牙技术全面应战,还针对中国市场出招

房产要闻

中粮(三亚)国贸中心ITC首期自贸港政策沙龙圆满举行

核磁VS肌骨超声,谁更胜一筹?

亲子要闻

什么是“泪失禁”?00后孩子跟父母完全是2个物种!

家居要闻

吸睛艺术 富有传奇色彩

无障碍浏览 进入关怀版