2025年10月20日,AI圈没等来新模型参数翻倍的消息,反倒被DeepSeek-AI团队的一份开源研究炸了锅。
这份名叫DeepSeek-OCR的论文,表面看是做光学字符识别的普通成果,实则藏着改写大模型底层逻辑的野心——它要彻底抛弃文本token,让AI用“看图片”的方式读文字。
![]()
这步棋下得太反常识了。要知道,过去几年AI圈全在拼“上下文窗口”大小,从几千个token卷到百万、千万级,看似进步神速,实则早走进了死胡同。
被算力卡脖子的AI:上下文越长,死得越惨
大模型读文字的原理,其实藏着个致命漏洞。
咱们平时说的“上下文”,在AI眼里是一串“token”(可以理解成文字碎片)。
处理这些token靠的是“注意力机制”,但这机制有个绕不开的毛病:计算成本是token数量的平方。
简单说,上下文长度翻一倍,需要的算力和内存就得翻四倍。
这就像给人背书包,装10本书还能跑,装100本直接压垮。谷歌、微软这些巨头再有钱,也架不住这种“指数级烧钱”。
后来业界搞出了“分组查询注意力”之类的优化手段,本质都是拆东墙补西墙。比如把1000个token分成10组,每组内部单独计算,看似省了力,实则还是在跟“token数量”死磕,没解决根本问题。
到2024年,千万token的模型已经出现,但单条推理成本比普通模型高30倍,普通公司根本用不起。所有人都知道这条路走不通,可没人敢跳出来换条道——直到DeepSeek出手。
反常识破局:把文字变图片,10倍信息压成1份
DeepSeek-OCR的核心想法简单到离谱:既然文本token太费钱,那就干脆不用了,把文字都变成图片,让AI“看”着读。
![]()
这个思路的底层逻辑很接地气:人类写的文字本来就是二维的视觉符号,一张A4纸的文字拍成照片,信息密度比拆成token高得多。
就像咱们看报纸,一眼能扫半页,AI却得一个字一个字啃,效率差太远了。
团队做了个实验:一篇1万个文本token的文章,渲染成高分辨率图片后,通过他们的算法处理,最后只需要几百个“视觉token”就能代表。
这一下就把之前的“平方级成本陷阱”给绕过去了——原来要处理1万个token,现在只要几百个,计算量直接砍到原来的几百分之一。
但这里有个关键问题:高分辨率图片本身也麻烦。一张1024x1024的图,按普通视觉模型的处理方式,得切成几千个图像块,照样会引发“token爆炸”。
为解决这个矛盾,DeepSeek搞出了整个研究的核心——DeepEncoder编码器。这个3.8亿参数的模型,就像个“智能压缩师”,分三步把海量信息榨成精华。
3步压缩魔法:DeepEncoder的“精打细算”套路
DeepEncoder的设计逻辑特别符合直觉,说白了就是“先看细节,再抽重点,最后懂全局”,跟咱们读文章的习惯一模一样。
![]()
第一步是“局部感知”,用的是SAM-base模型的技术。
它会把图片切成4096个小方块,但不搞全局计算,只在每个小窗口里处理细节。
这就像看报纸时先逐行扫字,不着急联想上下文,既能看清每个字,又不会占用太多内存。
第二步“压缩提炼”是最关键的一步。
一个16倍的卷积压缩器会把4096个局部token,像挤海绵一样压成256个。
这一步就像读完文章后划重点,把没用的修饰词全删掉,只留核心句子,信息密度一下就提上来了。
第三步“全局理解”,交给CLIP-large模型来搞定。
因为只剩256个token,模型终于能“奢侈”地用全局注意力,把这些重点串起来理解逻辑。这时候就像读完重点后梳理文章结构,很快能搞懂整篇内容的脉络。
这套组合拳打下来,高分辨率图片的细节留住了,计算成本却降了下来。
跟其他视觉模型比,它既不搞碎片化猜测,也不硬扛海量token的计算压力,而是在内部完成了“压缩-提炼”的闭环。
数据说话:800个token干翻7000个,精度还更高
实验结果一出来,AI圈都安静了——这方法是真能打。
![]()
在10倍压缩率下,也就是用1个视觉token代表10个文本token,DeepSeek-OCR的解码精度能达到96.5%,基本没啥信息损失。就算压缩到20倍,精度也还在可用范围,对付简单的信息提取完全够了。
更狠的是权威基准测试OmniDocBench的数据:DeepSeek-OCR只用不到800个视觉token,就全面超过了需要近7000个文本token的传统顶尖模型。要知道,7000个token的处理成本,是800个的几十倍。
在实际应用里,这东西的效率高得吓人。单张A100-40GGPU一天能处理20万页文档,训练成本只有传统模型的1/7。就算是低质量的扫描件、多语言混合的文档,它的识别准确率也比老模型高45%。
前特斯拉AI总监AndrejKarpathy看完论文直言:“这可能是AI的JPEG时刻”,意思是它就像图片压缩技术一样,会彻底改变行业规则。
终极野心:模拟人类记忆,告别“分词器”时代
如果说10倍压缩只是开胃菜,那DeepSeek在论文结尾透露的“光学遗忘”机制,才是真正的大招——这东西可能让AI拥有“无限上下文”。
人类的记忆本来就是分层的:昨天的对话记得清清楚楚,上个月的事只记得大概,去年的事只剩模糊印象。这种“选择性遗忘”不是缺点,而是高效的信息管理方式。
DeepSeek想让AI也学会这招:近期的对话用高分辨率图片,800个token的“Gundam模式”处理,保证每个细节都没错;一天前的内容用中分辨率,256个token的“Base模式”,留住关键信息;一个月前的就用低分辨率,64个token的“Tiny模式”,只留核心结论。
![]()
这么一来,AI处理百万字的历史对话,可能只需要1000(当前)+256(近期)+64(远期)=1320个token,成本直接降了上千倍。既不用像现在的模型那样硬扛千万token的成本,也不会像“滑动窗口”那样直接丢掉老信息。
更长远的愿景是告别“分词器”。这个被业内称为“肮脏补丁”的东西,一直是大模型的痛点:遇到新词、公式就懵,还会把“apple”和“pie”这种相关词切碎,逼模型重新学习它们的关系。
而像素根本没这问题,不管是文本、表格、公式还是图片,全都是一样的视觉信号。AI“看”的方式,终于和人类阅读的习惯对上了。
现在的DeepSeek-OCR还只是1.0版本,它还做不到“选择性遗忘”关键信息,只能均匀压缩。但这已经足够撕开一个口子——AI圈不用再死磕算力,而是可以回头看看,是不是从一开始就选错了输入方式。
就像当年大家都在拼胶片相机的像素,突然有人发明了数码相机。DeepSeek的这次尝试,或许就是AI从“文本时代”迈入“视觉时代”的转折点。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.