网易首页 > 网易号 > 正文 申请入驻

DeepSeek反卷王炸!像素替文本token,算力成本大降还保96.5%精度

0
分享至

2025年10月20日,AI圈没等来新模型参数翻倍的消息,反倒被DeepSeek-AI团队的一份开源研究炸了锅。

这份名叫DeepSeek-OCR的论文,表面看是做光学字符识别的普通成果,实则藏着改写大模型底层逻辑的野心——它要彻底抛弃文本token,让AI用“看图片”的方式读文字。



这步棋下得太反常识了。要知道,过去几年AI圈全在拼“上下文窗口”大小,从几千个token卷到百万、千万级,看似进步神速,实则早走进了死胡同。

被算力卡脖子的AI:上下文越长,死得越惨

大模型读文字的原理,其实藏着个致命漏洞。

咱们平时说的“上下文”,在AI眼里是一串“token”(可以理解成文字碎片)。

处理这些token靠的是“注意力机制”,但这机制有个绕不开的毛病:计算成本是token数量的平方

简单说,上下文长度翻一倍,需要的算力和内存就得翻四倍。

这就像给人背书包,装10本书还能跑,装100本直接压垮。谷歌、微软这些巨头再有钱,也架不住这种“指数级烧钱”。

后来业界搞出了“分组查询注意力”之类的优化手段,本质都是拆东墙补西墙。比如把1000个token分成10组,每组内部单独计算,看似省了力,实则还是在跟“token数量”死磕,没解决根本问题。

到2024年,千万token的模型已经出现,但单条推理成本比普通模型高30倍,普通公司根本用不起。所有人都知道这条路走不通,可没人敢跳出来换条道——直到DeepSeek出手。

反常识破局:把文字变图片,10倍信息压成1份

DeepSeek-OCR的核心想法简单到离谱:既然文本token太费钱,那就干脆不用了,把文字都变成图片,让AI“看”着读。



这个思路的底层逻辑很接地气:人类写的文字本来就是二维的视觉符号,一张A4纸的文字拍成照片,信息密度比拆成token高得多。

就像咱们看报纸,一眼能扫半页,AI却得一个字一个字啃,效率差太远了。

团队做了个实验:一篇1万个文本token的文章,渲染成高分辨率图片后,通过他们的算法处理,最后只需要几百个“视觉token”就能代表。

这一下就把之前的“平方级成本陷阱”给绕过去了——原来要处理1万个token,现在只要几百个,计算量直接砍到原来的几百分之一。

但这里有个关键问题:高分辨率图片本身也麻烦。一张1024x1024的图,按普通视觉模型的处理方式,得切成几千个图像块,照样会引发“token爆炸”。

为解决这个矛盾,DeepSeek搞出了整个研究的核心——DeepEncoder编码器。这个3.8亿参数的模型,就像个“智能压缩师”,分三步把海量信息榨成精华。

3步压缩魔法:DeepEncoder的“精打细算”套路

DeepEncoder的设计逻辑特别符合直觉,说白了就是“先看细节,再抽重点,最后懂全局”,跟咱们读文章的习惯一模一样。



第一步是“局部感知”,用的是SAM-base模型的技术。

它会把图片切成4096个小方块,但不搞全局计算,只在每个小窗口里处理细节。

这就像看报纸时先逐行扫字,不着急联想上下文,既能看清每个字,又不会占用太多内存。

第二步“压缩提炼”是最关键的一步。

一个16倍的卷积压缩器会把4096个局部token,像挤海绵一样压成256个。

这一步就像读完文章后划重点,把没用的修饰词全删掉,只留核心句子,信息密度一下就提上来了。

第三步“全局理解”,交给CLIP-large模型来搞定。

因为只剩256个token,模型终于能“奢侈”地用全局注意力,把这些重点串起来理解逻辑。这时候就像读完重点后梳理文章结构,很快能搞懂整篇内容的脉络。

这套组合拳打下来,高分辨率图片的细节留住了,计算成本却降了下来。

跟其他视觉模型比,它既不搞碎片化猜测,也不硬扛海量token的计算压力,而是在内部完成了“压缩-提炼”的闭环。

数据说话:800个token干翻7000个,精度还更高

实验结果一出来,AI圈都安静了——这方法是真能打。



在10倍压缩率下,也就是用1个视觉token代表10个文本token,DeepSeek-OCR的解码精度能达到96.5%,基本没啥信息损失。就算压缩到20倍,精度也还在可用范围,对付简单的信息提取完全够了。

更狠的是权威基准测试OmniDocBench的数据:DeepSeek-OCR只用不到800个视觉token,就全面超过了需要近7000个文本token的传统顶尖模型。要知道,7000个token的处理成本,是800个的几十倍。

在实际应用里,这东西的效率高得吓人。单张A100-40GGPU一天能处理20万页文档,训练成本只有传统模型的1/7。就算是低质量的扫描件、多语言混合的文档,它的识别准确率也比老模型高45%。

前特斯拉AI总监AndrejKarpathy看完论文直言:“这可能是AI的JPEG时刻”,意思是它就像图片压缩技术一样,会彻底改变行业规则。

终极野心:模拟人类记忆,告别“分词器”时代

如果说10倍压缩只是开胃菜,那DeepSeek在论文结尾透露的“光学遗忘”机制,才是真正的大招——这东西可能让AI拥有“无限上下文”。

人类的记忆本来就是分层的:昨天的对话记得清清楚楚,上个月的事只记得大概,去年的事只剩模糊印象。这种“选择性遗忘”不是缺点,而是高效的信息管理方式。

DeepSeek想让AI也学会这招:近期的对话用高分辨率图片,800个token的“Gundam模式”处理,保证每个细节都没错;一天前的内容用中分辨率,256个token的“Base模式”,留住关键信息;一个月前的就用低分辨率,64个token的“Tiny模式”,只留核心结论。



这么一来,AI处理百万字的历史对话,可能只需要1000(当前)+256(近期)+64(远期)=1320个token,成本直接降了上千倍。既不用像现在的模型那样硬扛千万token的成本,也不会像“滑动窗口”那样直接丢掉老信息。

更长远的愿景是告别“分词器”。这个被业内称为“肮脏补丁”的东西,一直是大模型的痛点:遇到新词、公式就懵,还会把“apple”和“pie”这种相关词切碎,逼模型重新学习它们的关系。

而像素根本没这问题,不管是文本、表格、公式还是图片,全都是一样的视觉信号。AI“看”的方式,终于和人类阅读的习惯对上了。

现在的DeepSeek-OCR还只是1.0版本,它还做不到“选择性遗忘”关键信息,只能均匀压缩。但这已经足够撕开一个口子——AI圈不用再死磕算力,而是可以回头看看,是不是从一开始就选错了输入方式。

就像当年大家都在拼胶片相机的像素,突然有人发明了数码相机。DeepSeek的这次尝试,或许就是AI从“文本时代”迈入“视觉时代”的转折点。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
尊界SUV M900渲染图曝光:车身超5.5米 对开门设计

尊界SUV M900渲染图曝光:车身超5.5米 对开门设计

手机中国
2025-11-12 18:06:17
李晨和宋雨琦逛超市被拍!两人举止就像情侣!猜猜他们买了什么

李晨和宋雨琦逛超市被拍!两人举止就像情侣!猜猜他们买了什么

乡野小珥
2025-11-12 11:51:55
图灵奖得主:中国顶尖大学新生比斯坦福新生优秀,但4年后却……

图灵奖得主:中国顶尖大学新生比斯坦福新生优秀,但4年后却……

尚曦读史
2025-11-11 07:27:05
网传:电影补贴成提款机?《火种》开机当天地方补贴7200万到手!

网传:电影补贴成提款机?《火种》开机当天地方补贴7200万到手!

眼光很亮
2025-11-10 14:21:29
中俄相继出手,高市早苗求锤得锤,日本领土该重新定义了

中俄相继出手,高市早苗求锤得锤,日本领土该重新定义了

头条爆料007
2025-11-11 21:43:01
赵露思生日音乐会造型封神!又纯又欲氛围感拉满

赵露思生日音乐会造型封神!又纯又欲氛围感拉满

述家娱记
2025-11-09 19:00:42
段永平:不喜欢马斯克品行,不想跟他做朋友,大部分电动车会死掉

段永平:不喜欢马斯克品行,不想跟他做朋友,大部分电动车会死掉

超角度
2025-11-12 10:10:13
快船再遭重创:比尔赛季报销,小卡缺阵

快船再遭重创:比尔赛季报销,小卡缺阵

鸿锦篮球
2025-11-13 07:22:33
人类首次!物理学家终于看到物体加速到 99.9% 光速的样子

人类首次!物理学家终于看到物体加速到 99.9% 光速的样子

科普中国
2025-11-12 19:27:02
王博豪:那次射门机会我应该打上角;欧洲联赛对我锻炼大

王博豪:那次射门机会我应该打上角;欧洲联赛对我锻炼大

懂球帝
2025-11-12 23:20:17
谨防深圳成为印度!

谨防深圳成为印度!

A活着
2025-11-12 20:09:31
古埃及历史真实情况:中国考古破开一角,西方历史果然可疑

古埃及历史真实情况:中国考古破开一角,西方历史果然可疑

小豫讲故事
2025-11-09 06:00:03
赵丽颖和冯绍峰一起送儿子上学,两个人步伐一致,看上去关系很好

赵丽颖和冯绍峰一起送儿子上学,两个人步伐一致,看上去关系很好

老吴教育课堂
2025-11-12 10:10:14
香港置地毁灭性大裁员:一锅端全裁!

香港置地毁灭性大裁员:一锅端全裁!

黯泉
2025-11-12 18:54:21
蔡正元露出真面目后,大陆官媒一句话给他定性,郑丽文再得强援

蔡正元露出真面目后,大陆官媒一句话给他定性,郑丽文再得强援

谛听骨语本尊
2025-11-12 16:18:16
长沙医生不雅视频事件扭转!网传曾医生或被降职,网友们留言声援

长沙医生不雅视频事件扭转!网传曾医生或被降职,网友们留言声援

火山诗话
2025-11-12 18:12:41
祖院长原配护士长高颜值照流出,气质不输曾医生,发声原谅丈夫

祖院长原配护士长高颜值照流出,气质不输曾医生,发声原谅丈夫

文史道
2025-11-11 06:45:03
两败俱伤!大陆市场700台光刻机全部回购?外媒:荷兰这次闹大了

两败俱伤!大陆市场700台光刻机全部回购?外媒:荷兰这次闹大了

闻识
2025-11-12 17:13:52
狂轰18分7板6助!广东大胜浙江,赛后对手主帅这样评价徐杰!

狂轰18分7板6助!广东大胜浙江,赛后对手主帅这样评价徐杰!

田先生篮球
2025-11-12 23:05:55
1:3失利!2:4落败!孙颖莎连败队友,世界第一全运冲金遇挑战

1:3失利!2:4落败!孙颖莎连败队友,世界第一全运冲金遇挑战

阿晞体育
2025-11-12 14:03:16
2025-11-13 08:40:49
刘森森
刘森森
欢迎大家来关注我谢谢
3132文章数 142关注度
往期回顾 全部

科技要闻

月之暗面“内涵”奥特曼:钱不知道怎么烧的

头条要闻

牛弹琴:中日关系急转直下 日本政坛大佬也看不下去了

头条要闻

牛弹琴:中日关系急转直下 日本政坛大佬也看不下去了

体育要闻

消磨你上千小时的足球游戏,走过第20年

娱乐要闻

再王珞丹和白百何 明白两人"差别"在哪

财经要闻

美国次级车贷违约率创历史新高

汽车要闻

7座皆独立座椅/新增5座版 体验第三代吉利豪越L

态度原创

健康
本地
亲子
手机
房产

血液科专家揭秘白血病七大误区

本地新闻

云游安徽 | 凌滩玉魄淬千年,诗意钢城马鞍山

亲子要闻

离手的水不能喝

手机要闻

智能手机厂商首家:小米应用商店打通腾讯元器智能体分发

房产要闻

海垦城建·鹿城壹号品牌发布会暨美学示范区璀璨启幕

无障碍浏览 进入关怀版