网易首页 > 网易号 > 正文 申请入驻

DeepSeek新模型被硅谷疯夸!用二维视觉压缩一维文字,单GPU能跑

0
分享至

来源:市场资讯

(来源:量子位)

DeepSeek最新开源的模型,已经被硅谷夸疯了!

因为实在太DeepSeek了。3B规模、指数级效能变革、大道至简,甚至被认为把谷歌Gemini严防死守的商业机密开源了。

唯一的问题可能就是被“OCR”命名耽误了。

是的,DeepSeek刚刚开源即火爆的模型就叫:DeepSeek-OCR。

这个模型瞄准的是大模型处理长文本时的算力爆炸难题……虽然模型参数很小,但四两拨千斤,其背后所代表的“用视觉方式压缩一切”的思想,大道至简,既是人类智能的现实,也不断出现在诸如《三体》的科幻作品中。

简单来说,由于一张图能包含大量文字(用的token还更少),所以他们想到并验证了“将视觉作为文本压缩媒介”这一方法——就好比优秀的人看书都是扫一眼就知道内容,不必一字一句读完才理解内容。

一图胜千言。

而且DeepSeek研究后发现,当压缩率小于10倍时(即文本token数是视觉token数的10倍以内),模型OCR解码准确率高达97%;即使压缩率高达20倍,准确率依旧能保持在60%左右,效果相当能打。

更主要的是,DeepSeek再次展现了高效能风格,他们的方法之下,生成训练数据——仅凭一块A100-40G GPU,每天就能生成超过20万页的优质LLM/VLM训练数据。

所以这个研究一经公布,已经快速在GitHub斩获了3.3K star。HuggingFace则已经热榜第二……X上热议,好评声一片。

刚“尖锐”评价过AI现状的卡帕西说:我很喜欢……特别是图像比文字更适合LLM输入,妙啊。

还有人认为这是“AI的JPEG时刻”,AI记忆架构打开了新路径。

还有爆料猜测,谷歌Gemini的核心商业机密被开源了:

当然,如此火爆的工作还带了更多思考——不少人看过论文后,认为这种统一视觉与语言的方法,或许是通往AGI的大门之一。

以及DeepSeek还在论文中,谈到了AI的记忆和“遗忘”机制。

所以,DeepSeek的新模型,论文究竟是怎么说的?

DeepSeek新研究:两大核心组件实现“以小博大”

概括而言,DeepSeek这次提出了一种名为“上下文光学压缩”(Contexts Optical Compression)的思路。

其灵感来自这样一个巧妙的逆向思维:

既然一张图片能“装下”成千上万个字,那我们能不能把文字信息压缩到图片里,让模型通过“看图”来理解内容呢?

本质上来说,这就是一种视觉-文本压缩范式,通过用少量的视觉token来表示原本需要大量文本token的内容,以此降低大模型的计算开销。

为验证这一想法,他们构建了3B大小的DeepSeek-OCR模型,结果发现它在主流文档解析基准OmniDocBench上取得了新SOTA。

下图显示,DeepSeek-OCR(红色圆点)在“平均每张图的视觉token数”(横轴)上位于最右侧,这说明它使用的token数量最少;而在“整体性能”(纵轴,越低越好)上,它却达到了SOTA水平,而且大多还是“以小博大”。

更具体的对比如下:

这一切背后都不开DeepSeek-OCR架构的两大核心组件:

这里重点说一下整个系统的创新关键——编码器DeepEncoder。

其核心使命为,在处理高分辨率图像时,能够产出数量极少但信息密度极高的视觉token。

为此它采用了“先局部处理,再压缩,后全局理解”的串行设计:

此外值得一提的是,为了灵活应对不同的压缩比需求和实际应用场景,DeepEncoder被训练成支持从“Tiny”(512x512, 64token)到“Gundam”(动态分块,近800token)等多种输入模式。

就是说,同一个模型可以根据任务需要,随机应变地调整其“压缩强度”。

总之,基于以上原理和组件搭配,目前DeepSeek-OCR除了具备常规识别能力,还支持对金融报表、化学分子式、数学几何图、100多种语言等更为复杂的图像进行深度解析。

三位作者亮相

如此被夸赞的新研究,来自三位研究人员,依然很DeepSeek——几人都相对低调,网上公开资料很少。

Haoran Wei,曾就职于阶跃星辰,当时还主导开发了意在实现“第二代OCR”的GOT-OCR2.0系统。

(2024年9月发表的这篇论文显示,身为论文一作的Haoran Wei所处单位为阶跃。)

此次DeepSeek-OCR的工作也可谓延续了GOT-OCR2.0之前的技术路径,即致力于通过端到端模型解决复杂文档解析问题。

Yaofeng Sun,从去年开始就陆续参与DeepSeek多款模型研发,包括R1、V3中都有他的身影。

Yukun Li(李宇琨),谷歌学术论文近万引研究员,也持续参与了包括DeepSeek V2/V3在内的多款模型研发。

有意思的是,这三人在提出DeepSeek-OCR之后,还贡献了一个脑洞大开的想法——

用光学压缩模拟人类的遗忘机制。

只需将上下文光学压缩与人类记忆的衰退过程进行类比,我们就能发现二者高度相似:

这样一来,理论上模型就可以在处理超长对话或文档时,动态地为不同时期的上下文分配不同数量的计算资源,从而可能构建出一种无限长上下文的架构。

团队表示,虽然这还是个早期研究方向,但不失为模型处理超长上下文的一种新思路。

这个思路确实也更像人类的智能。

之前AI的上下文研究,对于短期中期远期的都是一视同仁,机器味儿十足,但计算资源和响应问题也会相应暴涨……

而现在,DeepSeek提出新思路,是时候让AI记忆更像人了。

传送门:

Hugging Face:

https://huggingface.co/deepseek-ai/DeepSeek-OCR

GitHub:

https://github.com/deepseek-ai/DeepSeek-OCR

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗因储油罐已满而将石油排入海中?伊官员:欧洲油轮干的

伊朗因储油罐已满而将石油排入海中?伊官员:欧洲油轮干的

观察者网
2026-05-09 09:10:04
从太空看中国|卫星见证了这颗“沙漠明珠”的“复活”

从太空看中国|卫星见证了这颗“沙漠明珠”的“复活”

新华社
2026-05-09 16:20:36
莫氏鸡煲,煲了什么稀奇的东西?

莫氏鸡煲,煲了什么稀奇的东西?

果壳
2026-05-08 20:30:19
斯基拉:那不勒斯、科莫、拉齐奥有意塞巴,国米有40%转会分成

斯基拉:那不勒斯、科莫、拉齐奥有意塞巴,国米有40%转会分成

懂球帝
2026-05-09 21:17:04
非法收受他人财物,数额特别巨大!检察机关依法对胡幼桃涉嫌受贿案提起公诉

非法收受他人财物,数额特别巨大!检察机关依法对胡幼桃涉嫌受贿案提起公诉

大象新闻
2026-05-09 10:43:22
公交集团正式员工已经躺平不了了,想要混到退休不太可能

公交集团正式员工已经躺平不了了,想要混到退休不太可能

娱乐圈见解说
2026-05-09 00:23:44
轰29+5+9!中国女篮20岁后卫新星崛起:宫鲁鸣再栽培她?

轰29+5+9!中国女篮20岁后卫新星崛起:宫鲁鸣再栽培她?

李喜林篮球绝杀
2026-05-09 15:54:46
国产“新伟哥”!效力是西地那非8倍,副作用却更少

国产“新伟哥”!效力是西地那非8倍,副作用却更少

鬼菜生活
2026-05-09 11:20:07
林诗栋赛后理性发声:全队蓄力拼下胜利,夺冠之路仍需全力以赴!

林诗栋赛后理性发声:全队蓄力拼下胜利,夺冠之路仍需全力以赴!

田先生篮球
2026-05-08 22:41:32
志愿军飞行员返航时无意间瞥一眼下方,脊背发凉:竟有几十架敌机

志愿军飞行员返航时无意间瞥一眼下方,脊背发凉:竟有几十架敌机

浩渺青史
2026-04-27 01:41:02
电动自行车头盔放哪儿防丢?北京交警解锁新方法!

电动自行车头盔放哪儿防丢?北京交警解锁新方法!

家住朝阳
2026-05-09 18:05:17
貔貅认主不看财富,这四个生肖千万别碰,戴了反而会破财

貔貅认主不看财富,这四个生肖千万别碰,戴了反而会破财

纸鸢奇谭
2026-04-13 16:06:54
张兰飞湾湾为箖箖庆生,一句话透露孙子现状,小S却发文谈大S和狗

张兰飞湾湾为箖箖庆生,一句话透露孙子现状,小S却发文谈大S和狗

凡知
2026-05-09 16:44:42
搞不懂!一个2米13中锋,29岁拿到8000万合同,30岁被摆上了货架

搞不懂!一个2米13中锋,29岁拿到8000万合同,30岁被摆上了货架

球毛鬼胎
2026-05-09 16:14:33
肖磊:俄罗斯为什么必须要“阅兵”

肖磊:俄罗斯为什么必须要“阅兵”

肖磊看世界
2026-05-09 16:04:41
广州一高速服务区花茶店将“狗鞭果”果子打粉,以12元每克的价格当药材卖,溢价50倍,当地市场监管部门回应

广州一高速服务区花茶店将“狗鞭果”果子打粉,以12元每克的价格当药材卖,溢价50倍,当地市场监管部门回应

环球网资讯
2026-05-09 14:37:15
中美会晤时,美国迎来丢脸一幕!中方:不会再给日本机会

中美会晤时,美国迎来丢脸一幕!中方:不会再给日本机会

梦史
2026-05-09 09:53:23
戴安斯抵京后,开口就提出硬性要求,王毅斩钉截铁,对美反将一军

戴安斯抵京后,开口就提出硬性要求,王毅斩钉截铁,对美反将一军

悦心知足
2026-05-09 16:09:34
2.06亿罚单!IPO造假、年报注水,这家公司或成下一退市票

2.06亿罚单!IPO造假、年报注水,这家公司或成下一退市票

21世纪经济报道
2026-05-09 22:28:09
四川推猴哥社会性死亡:正脸被扒,饭碗恐丢,人民日报也点名

四川推猴哥社会性死亡:正脸被扒,饭碗恐丢,人民日报也点名

不写散文诗
2026-05-09 14:27:07
2026-05-09 22:59:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3159368文章数 7270关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

毛焦尔当选匈牙利总理 此前曾表示有意访问北京

头条要闻

毛焦尔当选匈牙利总理 此前曾表示有意访问北京

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

多地号召,公职人员带头缴纳物业费

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

手机
时尚
亲子
本地
艺术

手机要闻

华为鸿蒙7暂定6月发布!撞车苹果WWDC,这波你站谁?

伊姐周六热推:电视剧《喀什恋歌》;电视剧《低智商犯罪》......

亲子要闻

告别每日一针!儿童长高治疗迎来“周制剂”时代,全新专家共识在沪发布

本地新闻

用苏绣的方式,打开江西婺源

艺术要闻

齐白石 紫藤蜜蜂

无障碍浏览 进入关怀版