网易首页 > 网易号 > 正文 申请入驻

DeepSeek-OCR:大模型技术,正站在一个新的十字路口

0
分享至

文|锦缎

想象一下,在这个AI技术如潮水般涌来的时代,我们忽然发现,一张简单的图像,竟然能以惊人的效率承载海量文字信息。这已不是"想象",而是刚刚发生的现实。

本周,DeepSeek开源了一个名为"DeepSeek-OCR"的模型,它首次提出了"上下文光学压缩"(Context Optical Compression)的概念,技术细节和背后的论文也随之公开。

虽然市场上的讨论还不多,但这或许是AI演进史上一个悄然却深刻的转折点——它让我们开始质疑:图像,是否才是信息处理的真正王者?

01 图像的隐秘力量:为什么图像可能胜过文本

回想一下,我们日常处理的文档、报告、书籍,往往被分解成无数的文本标记(tokens),这些标记像砖块一样堆砌成模型的"理解墙"。

但DeepSeek-OCR却另辟蹊径:它将文字视为图像来处理,通过视觉编码,将整页内容压缩成少量"视觉标记",然后再解码还原为文字、表格甚至图表。

结果呢?效率提升了十倍之多,准确率高达97%。

这不仅仅是技术优化,而试图证明:图像不是信息的奴隶,而是它的高效载体。

拿一篇千字文章来说,传统方法可能需要上千个标记来处理,而DeepSeek只需约100个视觉标记,就能以97%的保真度还原一切。这意味着,模型可以轻松应对超长文档,而不必为计算资源发愁。

02 架构与工作原理

DeepSeek-OCR的系统设计像一部精密的机器,分成两个模块:强大的DeepEncoder负责捕捉页面信息,轻量级的文本生成器则像一位翻译家,将视觉标记转化为可读输出。

编码器融合了SAM的局部分析能力和CLIP的全局理解,再通过一个16倍压缩器,将初始的4096个标记精简到仅256个。这正是效率的核心秘密。

更聪明的是,它能根据文档复杂度自动调整:简单的PPT只需64个标记,书籍报告约100个,而密集的报纸最多800个。

相比之下,它超越了GOT-OCR 2.0(需要256个标记)和MinerU 2.0(每页6000+标记),标记量减少了90%。解码器采用混合专家(MoE)架构,拥有约30亿参数(激活时约57亿),能快速生成文本、Markdown或结构化数据。

在实际测试中,一台A100显卡,每天能处理超过20万页文档;如果扩展到20台八卡服务器,日处理量可达3300万页。这已不是实验室玩具,而是工业级利器。

03 一个深刻的悖论:图像为何更"节约"?

这里藏着一个有趣的悖论:图像明明包含更多原始数据,为什么在模型中反而能用更少标记表达?答案在于信息密度。

文本标记虽表面简洁,但在模型内部需展开成数千维度的向量;图像标记则像连续的画卷,能更紧凑地封装信息。这就好比人类记忆:近期事件清晰如昨,遥远往事渐趋模糊,却不失本质。

DeepSeek-OCR证明了视觉标记的可行性,但纯视觉基础模型的训练仍是谜题。传统大模型靠"预测下一词"这个清晰目标成功,而图像文字的预测目标模糊不清——预测下一个图像片段?评估太难;转为文本,又回到了老路。

所以,目前它只是现有体系的增强,而非替代。我们正站在十字路口:前方是无限可能,却需耐心等待突破。

如果这项技术成熟推广,它将如涟漪般扩散影响:

首先,改变"标记经济":长文档不再受上下文窗口限制,处理成本大幅降低。其次,提升信息提取:财务图表、技术图纸能直接转为结构化数据,精准高效。最后,增强灵活性:在非理想硬件下仍稳定运行, democratize AI应用。

更妙的是,它还能改善聊天机器人的长对话记忆。通过"视觉衰减":将旧对话转为低分辨率图像存储,模拟人类记忆衰退,扩展上下文而不爆表标记。

04 结语

DeepSeek-OCR的探索意义,不止于十倍效率提升,更在于它重绘了文档处理的边界。它挑战了上下文限制,优化了成本结构,革新了企业流程。

虽然纯视觉训练的曙光尚遥,但光学压缩无疑是我们迈向未来的一个新选项。

相关常见问题索引:

问:为什么不能直接从文字图像开始训练基础模型?

答:大模型成功靠"预测下一词"的明确目标和易评估方式。对于文字图像,预测下一个图像片段评估困难、速度慢;转为文本标记,又回到了传统路径。DeepSeek选择在现有模型基础上微调,解码视觉表征,但未取代标记基础。

问:与传统OCR系统相比,速度表现如何?

答:处理一张3503×1668像素图像,基础文本提取需24秒,结构化Markdown需39秒,带坐标框的完整解析需58秒。传统OCR更快,但准确率同等时需数千标记——如MinerU 2.0每页6000+,DeepSeek仅需800以内。

问:这项技术能否改善聊天机器人的长对话记忆?

答:是的。通过"视觉衰减":旧对话转为低分辨率图像,模拟记忆衰退,扩展上下文而不增标记消耗。适用于长期记忆场景,但生产实现细节待详述。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
吴君如很早就说过了,陈妍希私下就是这样穿

吴君如很早就说过了,陈妍希私下就是这样穿

八卦王者
2026-05-10 13:24:46
休学门诊挤满了初三学生,北大教培人揭开真相:三条路全被堵死,他们无处可逃

休学门诊挤满了初三学生,北大教培人揭开真相:三条路全被堵死,他们无处可逃

三言四拍
2026-05-10 10:34:00
尴尬!王石公开脱衣秀身材“翻车”,网友:像是一副被榨干的躯体

尴尬!王石公开脱衣秀身材“翻车”,网友:像是一副被榨干的躯体

火山詩话
2026-05-08 21:39:02
米哈累垮坎宁安,哈登:“啥说法?”

米哈累垮坎宁安,哈登:“啥说法?”

张佳玮写字的地方
2026-05-10 12:52:25
打过科兴疫苗的朋友,最近一定要提高警惕!千万不要被骗!

打过科兴疫苗的朋友,最近一定要提高警惕!千万不要被骗!

网络易不易
2026-05-10 11:34:41
大伯出狱全家没人接,我开车去接他,他偷偷塞我一张卡说有1200万

大伯出狱全家没人接,我开车去接他,他偷偷塞我一张卡说有1200万

千秋文化
2026-05-09 20:08:48
城市为什么都在抢山姆?

城市为什么都在抢山姆?

每日经济新闻
2026-05-09 23:00:30
“你要收费我就卸载”,全网最离不开的AI不装了,口碑大反转

“你要收费我就卸载”,全网最离不开的AI不装了,口碑大反转

果壳
2026-05-09 12:33:57
男子为寻求“刺激”,深夜潜入留守妇女家,2020年十多人被其糟蹋

男子为寻求“刺激”,深夜潜入留守妇女家,2020年十多人被其糟蹋

汉史趣闻
2026-05-10 16:38:24
中纪委连发禁令:机关事业单位职工注意,这7种饭局一参加就出局

中纪委连发禁令:机关事业单位职工注意,这7种饭局一参加就出局

细说职场
2026-05-10 09:55:02
歌手黄霄雲在演出现场晕倒,工作室回应:已前往医院就诊,确诊为由缺少睡眠、疲劳和压力引起的耳石症复发,现已强制艺人进入休息状态

歌手黄霄雲在演出现场晕倒,工作室回应:已前往医院就诊,确诊为由缺少睡眠、疲劳和压力引起的耳石症复发,现已强制艺人进入休息状态

潇湘晨报
2026-05-10 12:03:10
刚达成停火协议就毁约,俄阅兵后对乌发起1524次袭击

刚达成停火协议就毁约,俄阅兵后对乌发起1524次袭击

史政先锋
2026-05-10 12:11:06
工作日都爆满!杭州机场附近一个偏僻角落,突然热闹了起来:“特别震撼”

工作日都爆满!杭州机场附近一个偏僻角落,突然热闹了起来:“特别震撼”

都市快报橙柿互动
2026-05-10 13:18:25
揪心!冻死在4600米雪山的重庆32岁女子,生前本有4次活命的机会

揪心!冻死在4600米雪山的重庆32岁女子,生前本有4次活命的机会

另子维爱读史
2026-05-09 18:03:47
难以相信!她已经61岁了,看起来竟然像三四十岁的样子!

难以相信!她已经61岁了,看起来竟然像三四十岁的样子!

情感大头说说
2026-05-10 10:01:18
太过分!皮皮虾风波当事人把泰国濑尿虾说成普通虾,至今没有道歉

太过分!皮皮虾风波当事人把泰国濑尿虾说成普通虾,至今没有道歉

小徐讲八卦
2026-05-10 07:56:14
一季度全国结婚登记169.7万对

一季度全国结婚登记169.7万对

第一财经资讯
2026-05-10 10:17:17
乌克兰的“机器狗”们已实战,单次俘虏多名俄士兵,摧毁俄军坦克

乌克兰的“机器狗”们已实战,单次俘虏多名俄士兵,摧毁俄军坦克

网易新闻出品
2026-05-09 11:37:34
连续潜航超14天 中国造的“麒麟”级潜艇有多厉害?

连续潜航超14天 中国造的“麒麟”级潜艇有多厉害?

环球网资讯
2026-05-10 13:18:11
没有外援就拔刀相向?神权杖硬刚枪杆子,塔利班进入内斗阶段!

没有外援就拔刀相向?神权杖硬刚枪杆子,塔利班进入内斗阶段!

寰球经纬所
2026-05-10 10:55:10
2026-05-10 18:36:49
蓝鲸新闻 incentive-icons
蓝鲸新闻
财经信息服务平台
132474文章数 193872关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

县交警队长被举报工作日KTV饮酒 当地:其事先已请假

头条要闻

县交警队长被举报工作日KTV饮酒 当地:其事先已请假

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

大S女儿玥儿开通账号,用烟花缅怀母亲

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

旅游
家居
游戏
房产
健康

旅游要闻

初夏泰山 青绿漫山野 古建映海棠

家居要闻

菁英人居 全能豪宅

抢疯了!NS2涨价 日本店铺狂设门槛也挡不住热潮

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

干细胞能让人“返老还童”吗

无障碍浏览 进入关怀版