网易首页 > 网易号 > 正文 申请入驻

DeepSeek新模型被硅谷疯夸!用二维视觉压缩一维文字,单GPU能跑

0
分享至

DeepSeek最新开源的模型,已经被硅谷夸疯了!

因为实在太DeepSeek了。3B规模、指数级效能变革、大道至简,甚至被认为把谷歌Gemini严防死守的商业机密开源了。

唯一的问题可能就是被“OCR”命名耽误了。

是的,DeepSeek刚刚开源即火爆的模型就叫:DeepSeek-OCR

这个模型瞄准的是大模型处理长文本时的算力爆炸难题……虽然模型参数很小,但四两拨千斤,其背后所代表的“用视觉方式压缩一切”的思想,大道至简,既是人类智能的现实,也不断出现在诸如《三体》的科幻作品中。

简单来说,由于一张图能包含大量文字(用的token还更少),所以他们想到并验证了“将视觉作为文本压缩媒介”这一方法——就好比优秀的人看书都是扫一眼就知道内容,不必一字一句读完才理解内容。

一图胜千言。

而且DeepSeek研究后发现,当压缩率小于10倍时(即文本token数是视觉token数的10倍以内),模型OCR解码准确率高达97%;即使压缩率高达20倍,准确率依旧能保持在60%左右,效果相当能打。

更主要的是,DeepSeek再次展现了高效能风格,他们的方法之下,生成训练数据——仅凭一块A100-40G GPU,每天就能生成超过20万页的优质LLM/VLM训练数据

所以这个研究一经公布,已经快速在GitHub斩获了3.3K star。HuggingFace则已经热榜第二……X上热议,好评声一片。

刚“尖锐”评价过AI现状的卡帕西说:我很喜欢……特别是图像比文字更适合LLM输入,妙啊。

还有人认为这是“AI的JPEG时刻”,AI记忆架构打开了新路径。

还有爆料猜测,谷歌Gemini的核心商业机密被开源了:

当然,如此火爆的工作还带了更多思考——不少人看过论文后,认为这种统一视觉与语言的方法,或许是通往AGI的大门之一。

以及DeepSeek还在论文中,谈到了AI的记忆和“遗忘”机制。

所以,DeepSeek的新模型,论文究竟是怎么说的?

DeepSeek新研究:两大核心组件实现“以小博大”

概括而言,DeepSeek这次提出了一种名为“上下文光学压缩”(Contexts Optical Compression)的思路。

其灵感来自这样一个巧妙的逆向思维:

既然一张图片能“装下”成千上万个字,那我们能不能把文字信息压缩到图片里,让模型通过“看图”来理解内容呢?

本质上来说,这就是一种视觉-文本压缩范式,通过用少量的视觉token来表示原本需要大量文本token的内容,以此降低大模型的计算开销。

为验证这一想法,他们构建了3B大小的DeepSeek-OCR模型,结果发现它在主流文档解析基准OmniDocBench上取得了新SOTA。

下图显示,DeepSeek-OCR(红色圆点)在“平均每张图的视觉token数”(横轴)上位于最右侧,这说明它使用的token数量最少;而在“整体性能”(纵轴,越低越好)上,它却达到了SOTA水平,而且大多还是“以小博大”。

更具体的对比如下:

  • 仅用100个视觉token,DeepSeek-OCR就超过了每页使用256个token的GOT-OCR2.0;
  • 当使用400个视觉token时(其中有效token为285),DeepSeek-OCR就能和之前的SOTA模型表现相当;
  • 使用不到800个视觉token,DeepSeek-OCR便大大超过了平均每页近7000个视觉token的MinerU2.0。

这一切背后都不开DeepSeek-OCR架构的两大核心组件:

  • 编码器DeepEncoder:负责把图片转成高度压缩的视觉token;
  • 解码器DeepSeek3B-MoE-A570M:负责从压缩的视觉token里重建文字。

这里重点说一下整个系统的创新关键——编码器DeepEncoder

其核心使命为,在处理高分辨率图像时,能够产出数量极少但信息密度极高的视觉token。

为此它采用了“先局部处理,再压缩,后全局理解”的串行设计:

  • 局部处理:利用仅使用“窗口注意力”机制的SAM-base模型(8000万参数),第一步先在高分辨率图像上进行细粒度的局部特征提取。尽管此时生成的视觉token数量庞大,但由于窗口注意力的高效性,内存开销仍在可控范围内;
  • 再压缩:然后在中间部分加一个16倍卷积压缩器,从而在特征进入全局注意力模块前大幅砍掉token数量,比如一张1024x1024的图片,经过第一阶段会产生4096个token,但经过压缩机后,只剩下256个token进入第二阶段;
  • 后全局理解:最后利用使用“全局注意力”机制的CLIP-large模型(3亿参数),更深入地理解这些经过浓缩后的少量token,此时由于输入的token数量已经大幅减少,所以这里的计算开销也变得可以接受。

此外值得一提的是,为了灵活应对不同的压缩比需求和实际应用场景,DeepEncoder被训练成支持从“Tiny”(512x512, 64token)到“Gundam”(动态分块,近800token)等多种输入模式。

就是说,同一个模型可以根据任务需要,随机应变地调整其“压缩强度”

总之,基于以上原理和组件搭配,目前DeepSeek-OCR除了具备常规识别能力,还支持对金融报表、化学分子式、数学几何图、100多种语言等更为复杂的图像进行深度解析。

三位作者亮相

如此被夸赞的新研究,来自三位研究人员,依然很DeepSeek——几人都相对低调,网上公开资料很少。

Haoran Wei,曾就职于阶跃星辰,当时还主导开发了意在实现“第二代OCR”的GOT-OCR2.0系统。

(2024年9月发表的这篇论文显示,身为论文一作的Haoran Wei所处单位为阶跃。)

此次DeepSeek-OCR的工作也可谓延续了GOT-OCR2.0之前的技术路径,即致力于通过端到端模型解决复杂文档解析问题。

Yaofeng Sun,从去年开始就陆续参与DeepSeek多款模型研发,包括R1、V3中都有他的身影。

Yukun Li(李宇琨),谷歌学术论文近万引研究员,也持续参与了包括DeepSeek V2/V3在内的多款模型研发。

有意思的是,这三人在提出DeepSeek-OCR之后,还贡献了一个脑洞大开的想法——

用光学压缩模拟人类的遗忘机制

只需将上下文光学压缩与人类记忆的衰退过程进行类比,我们就能发现二者高度相似:

  • 近期记忆:就像近处的物体,清晰可见。所以可以将其渲染成高分辨率图像,用较多的视觉token来保留高保真信息。
  • 远期记忆 :就像远处的物体,逐渐模糊。所以可以将其渐进式地缩放成更小、更模糊的图像,用更少的视觉token来表示,从而实现信息的自然遗忘和压缩。

这样一来,理论上模型就可以在处理超长对话或文档时,动态地为不同时期的上下文分配不同数量的计算资源,从而可能构建出一种无限长上下文的架构

团队表示,虽然这还是个早期研究方向,但不失为模型处理超长上下文的一种新思路。

这个思路确实也更像人类的智能。

之前AI的上下文研究,对于短期中期远期的都是一视同仁,机器味儿十足,但计算资源和响应问题也会相应暴涨……

而现在,DeepSeek提出新思路,是时候让AI记忆更像人了。

传送门:
Hugging Face:
https://huggingface.co/deepseek-ai/DeepSeek-OCR
GitHub:
https://github.com/deepseek-ai/DeepSeek-OCR

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
断交13年的同事突然寄给我一箱腊肉,我把它送给对门邻居,当天晚上12点,他把腊肉还回来:箱子底下有东西

断交13年的同事突然寄给我一箱腊肉,我把它送给对门邻居,当天晚上12点,他把腊肉还回来:箱子底下有东西

品读时刻
2026-05-03 08:52:52
男人要牢记,别怕肉麻,女人无论多大年纪,心底里就喜欢这一套

男人要牢记,别怕肉麻,女人无论多大年纪,心底里就喜欢这一套

王二哥老搞笑
2026-04-28 08:56:40
爱泼斯坦私人飞机驾驶员:克林顿曾坐过26次,空姐像糖果脱衣舞娘

爱泼斯坦私人飞机驾驶员:克林顿曾坐过26次,空姐像糖果脱衣舞娘

历史龙元阁
2026-03-07 13:35:10
毛主席遗体防腐每年耗费巨资,永久保存水晶棺纯度高达99.9999%

毛主席遗体防腐每年耗费巨资,永久保存水晶棺纯度高达99.9999%

时分秒说
2026-05-07 16:00:09
顾客点一盘黄焖鸡吃出24块鸡头,云南一餐馆回应:十几只鸡放一起没分匀,已免单;市监所:已有人员前往现场处置

顾客点一盘黄焖鸡吃出24块鸡头,云南一餐馆回应:十几只鸡放一起没分匀,已免单;市监所:已有人员前往现场处置

大风新闻
2026-05-10 15:07:05
阿司匹林立大功!研究发现:老人吃阿司匹林,或能缓解 5 种症状

阿司匹林立大功!研究发现:老人吃阿司匹林,或能缓解 5 种症状

路医生健康科普
2026-05-01 11:50:03
有一种痛苦叫买了“大平层”,缺点太明显,已经逐渐沦为不动产!

有一种痛苦叫买了“大平层”,缺点太明显,已经逐渐沦为不动产!

科学发掘
2026-05-09 16:09:38
妈生“整容脸”,戏红人不红,32岁的她却为何深得大家的喜欢?

妈生“整容脸”,戏红人不红,32岁的她却为何深得大家的喜欢?

娱人细品
2026-05-08 18:54:03
Lisa被驴老三抛弃,寻找新金主!

Lisa被驴老三抛弃,寻找新金主!

八卦疯叔
2026-05-10 10:00:07
既然给脸不要脸,那就彻底撕破脸!王毅外长已经把话挑明了

既然给脸不要脸,那就彻底撕破脸!王毅外长已经把话挑明了

安安说
2026-02-01 14:01:51
我50岁才悟出一个道理:凡是从不参加同学聚会、不爱发动态、不混圈子的人,十有八九在这两个方面远超常人,观察了身边上百人屡试不爽

我50岁才悟出一个道理:凡是从不参加同学聚会、不爱发动态、不混圈子的人,十有八九在这两个方面远超常人,观察了身边上百人屡试不爽

心理观察局
2026-05-08 10:35:21
科学家首次发现:动脉粥样斑块竟能完全消退!不过需满足4个条件

科学家首次发现:动脉粥样斑块竟能完全消退!不过需满足4个条件

39健康网
2026-05-09 21:11:38
杨幂的“上帝视角” 终于理解了有些女演员为什么要捂胸了

杨幂的“上帝视角” 终于理解了有些女演员为什么要捂胸了

小椰的奶奶
2026-05-11 00:35:43
奔驰新款 S 级和 GLS为什么重回老钱old money赛道?

奔驰新款 S 级和 GLS为什么重回老钱old money赛道?

凡兮说
2026-05-08 14:04:33
镜头扫到马龙那一刻,全网破防:他什么都没说,眼袋替他全说了

镜头扫到马龙那一刻,全网破防:他什么都没说,眼袋替他全说了

小娱乐悠悠
2026-05-07 08:41:34
《亢奋》第三季争议镜头曝光,剧组内部曾激烈反对

《亢奋》第三季争议镜头曝光,剧组内部曾激烈反对

影视情报室
2026-05-11 00:33:52
未经同意,以色列竟在伊拉克建秘密基地!以色列前外交官:特朗普和内塔尼亚胡相互挖坑

未经同意,以色列竟在伊拉克建秘密基地!以色列前外交官:特朗普和内塔尼亚胡相互挖坑

红星新闻
2026-05-10 19:16:12
朝阳这地儿腾退开展入户宣传工作

朝阳这地儿腾退开展入户宣传工作

北京安置房大全
2026-05-09 20:16:45
表面正经,内心火热的女人,90%都有这3个特性,你晓得吗

表面正经,内心火热的女人,90%都有这3个特性,你晓得吗

风起见你
2026-05-11 01:29:51
“求是”文章不足以改变对房地产的预期

“求是”文章不足以改变对房地产的预期

科学发掘
2026-05-10 06:31:04
2026-05-11 03:55:00
量子位 incentive-icons
量子位
追踪人工智能动态
12599文章数 176461关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

教育
时尚
亲子
家居
游戏

教育要闻

高考地理中的共享经济

真爱大牌|| 用了4年都不舍得换,终于把小贵的价格也磨下来了

亲子要闻

从第一声呼唤开始,爱就有了名字

家居要闻

菁英人居 全能豪宅

LPL第二赛段:拒绝让一追二!JDG三局战胜AL,挺进前三

无障碍浏览 进入关怀版