网易首页 > 网易号 > 正文 申请入驻

DeepSeek昨天开源的新模型,有点邪门。

0
分享至


DeepSeek 又整出新东西来了,只用到原本十分之一 token,就能存下几乎一样的文字信息,这压缩比,香农看了都要流泪,冯·诺伊曼看了都要沉默。

更是直接把一堆老外给钓成了翘嘴。





昨天,DeepSeek 发布了新模型 DeepSeek-OCR,OCR 这东西咱们都熟悉,就是把图片里的文字给识别出来。


经常用微信的差友应该知道,微信客户端里的图片,被咱们点开后,是可以直接复制文字的。

没错,这就是一种 OCR 技术的应用。


但是 DeepSeek 这次的 「技能 OCR」则是刚好相反,它可以把大量文字变成一张图片,作为 AI 的“记忆载体”。

是的,用文字来存储信息,已经不够满足它了。

过去的大模型,不管是什么 ChatGPT、Gemini、Llama、Qwen、还是 DeepSeek 过去的自己,在读取数据的用的都是一种方式:文字,也就是平时常说的 token。


我们写的 Prompt,会被转换成一大堆的 token 给大模型,我们提供的参考资料,会被转换成一大堆的 token 给大模型,就算是能识别图像的多模态的大模型,也是要先把图片转换成了一段文字描述,来交给大模型来做辨认才行。

但文字 token 真的就是大模型理解世界的唯一方式么?

DeepSeek 决定试一试新的路子,毕竟,如果咱们把一张图片和一段文字放在一起,前者明显可以包含下更多的信息。

比如这个描述,就不够全面


既然如此,那我们能不能直接用图片来训练大模型?

于是 DeepSeek 就开始整,结果发现这个用图片训练出来的模型,既中看,又中用。

一方面,它可以用更少的 token,来记住更多的内容。

在测试文档理解能力的任务里,DeepSeek-OCR 只用了100 个视觉 token,就超过了需要 256 个 token 的 GOT-OCR 2.0。

再放狠点,它用不到 800 个视觉 token, 就吊打了平均要6000+ token的 MinerU 2.0。


这就意味着、当我们让大模型开始使用图像的这种方式来记住数据了之后,模型就有能力用更少的token资源,来取得更好的表达效果。

另外,DeepSeek-OCR 还支持多种分辨率和压缩模式,来适应不同复杂度的文档:

比如说一张只有图片背景和标题文案的 PPT,可能只需要 64 个 视觉token 就足够表示了。

如果这页的文字内容比较多,那就会自动切换到 Large 模式,用上最多 400 个 视觉token 来记录。

如果觉得还不够的话,DeepSeek-OCR 还能支持动态调整的 Gundam 模式来记忆图片,主打一个应记就记,分清轻重缓急的记。


而且比起过去只能识别文字的传统模型来说,DeepSeek-OCR 能记住的数据还会更多。

论文里的一张柱状体,DeepSeek-OCR 能够自动把它给识别成 Excel 格式给保存下来。


文章里出现的有机化合物的分子结构图片,也能自动转化为标准的 SMILES(简化分子线性输入规范)格式存储。


不但能记住图片本身,DeepSeek-OCR 还会同时记住这张图片的位置,记住图片附近的文字在写些什么东西。。。

过去很多看不到的二维信息,都会被 DeepSeek-OCR 给再次捕获。

这玩意的价值有多大,可能大家一下都还没意识到。

这两年做大模型,除了显卡不够之外的最大问题,就是没有训练的数据了。

常规的数据集之前都用过了,想要再搞点高质量的数据集,要么偷偷去网上爬,要么花大价钱去买,再要么就是想办法自己合成。


但现在,很多过去没采集到的数据,就可以在二维信息里被采集到了。

就比如说很多论文文件,过去,大模型只能学到里面的文字信息,但是里面的各种图表,插图那都是两眼一摸黑。

但用上了 DeepSeek-OCR 之后,就可以把之前缺的这部分给无痛补上了。


实际上 DeepSeek 也是这么想的,在论文里还特意提了一嘴,说这个新模型在一张 A100 上,一天可以给大模型采集出 20 万页以上的训练数据。

所以说,在有了 DeepSeek-OCR 之后,过去的所有数据都值得用它来再识别一遍。

毫无疑问,这些数据,又会成为下一个大模型的养料。

另一方面,用二维的方式来存储数据后,整个模型运行起来也变得更省资源了。

咱都知道,我们在用大模型的时候,聊天聊的越久、上下文越长,这个模型就越容易出 bug。

这是因为大模型在运行的时候,要处理每一个单词,和其他所有单词的关系。

你把对话的长度增加一倍,整个模型的计算量就增加了四倍,增加了两倍,那整个模型的计算量就变成了原本的九倍。

这也是为啥现在大模型厂商都在给你限制上下文长度的原因之一,你要是在一个对话里聊的太嗨了的话,成本要直接卷上天去了。


而在用上了图像记忆之后,DeepSeek 可以把 token 的数量,压缩到原本的十分之一。。。

同时,还不会让性能有太大的损失。

在论文里可以看到,初出茅庐的 DeepSeek-OCR,就能用原本 1/10 的token 数量,达到原模型 96.5%的准确率。

即使哥们再狠点,给它压缩个20倍,模型的准确率,也还能保持个六成左右。。。


同时,DeepSeek 的研究人员还发现了一件好玩的事情。

他们会感觉大模型通过不同的清晰度来存储图像的方式,其实和我们人类遗忘信息的方式很像。


对我们人类来说,遗忘是一个循序渐进的过程。

刚发生的事情,就有点像是 DeepSeek 用 Gundam 模式存下来的数据,最清晰。

而随着时间的推移,这件事的重要性也会逐渐降低,存储它的格式也会从最大的 Gundam 一路降级,从 Large 一路降到最小的 Tiny,占用的 token 数量也会越来越少。


把这个概念引入到大模型里的话,咱们就可以把最近的聊天记录,用“4K HDR蓝光” 的格式来存储,而那些早年不太重要的聊天记录,则是给压缩成 480P 的文件保存。

通过这种主动遗忘的方式,是否能让大模型的上下文能力变得更强呢?

这个想法很有意思,只不过目前就连 DeepSeek 自己也没能给出一个明确的答案。


不过好在 DeepSeek-OCR 还是和过去一样开源的,相信这个问题,要不了多久就会变成热门,整出不少新东西来。

最后,提到开源,我还注意到另外一件事。。。

这次研究不但是 DeepSeek 自己的成果,也是开源社区集体的胜利

比如训练数据里,用到了 华为的 Wukong 数据集,在生成样本文字时,借助了 百度的 PaddleOCR,而在图像特征提取部分,核心组件竟然是 Meta 开源的 SAM,在视觉语义理解层面,还整合了 OpenAI 的 CLIP 模型。


正是这些来自全球的开源成果,被 DeepSeek 重新编织成了一个能“用图片思考”的 AI。

所以,R2 什么时候会来呢。

撰文:早起

编辑:江江 & 面线

美编:焕妍

图片、资料来源:

DeepSeek 官网

Bilibili、小红书


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1993年六位上将,还有三位健在,都快100岁了

1993年六位上将,还有三位健在,都快100岁了

文史茶馆2020
2026-02-15 16:43:24
开始恐惧!全国统一的“春节噩梦”来了,网友:从初一吃到十五

开始恐惧!全国统一的“春节噩梦”来了,网友:从初一吃到十五

观察鉴娱
2026-02-18 17:42:06
藏马熊除夕狂捶饭馆卷帘门,老板已回家过年打算提前返岗,派出所回应

藏马熊除夕狂捶饭馆卷帘门,老板已回家过年打算提前返岗,派出所回应

极目新闻
2026-02-18 12:08:19
《镖人》上映仅48小时,口碑暴增,陈丽君立大功,吴京可以放心了

《镖人》上映仅48小时,口碑暴增,陈丽君立大功,吴京可以放心了

小娱乐悠悠
2026-02-18 14:25:14
10年前,那个嫁给知名主持的豪门千金李白,现如今的她过得怎样

10年前,那个嫁给知名主持的豪门千金李白,现如今的她过得怎样

查尔菲的笔记
2026-01-03 21:27:19
16.18亿!广州海珠惊现250米超高层安置房,55层地标级回迁房来了

16.18亿!广州海珠惊现250米超高层安置房,55层地标级回迁房来了

科学发掘
2026-02-18 15:56:48
春晚第一波梗出现了,网友:笑疯了

春晚第一波梗出现了,网友:笑疯了

91.6陕西交通广播
2026-02-16 22:55:14
著名歌手高枫,病逝21年后,妹妹定居美国,父母的坚持令人泪目

著名歌手高枫,病逝21年后,妹妹定居美国,父母的坚持令人泪目

小熊侃史
2026-02-16 07:05:10
冯小刚一家晒除夕照!徐帆忙着炒菜包水饺,女儿穿新中式旗袍超美

冯小刚一家晒除夕照!徐帆忙着炒菜包水饺,女儿穿新中式旗袍超美

乐悠悠娱乐
2026-02-16 19:26:40
续航破800km!2026款Model Y:第五代电机加持,电耗更低更省心!

续航破800km!2026款Model Y:第五代电机加持,电耗更低更省心!

阿芒娱乐说
2026-02-18 11:58:38
山西一景区发布最大承载量的公告

山西一景区发布最大承载量的公告

黄河新闻网吕梁频道
2026-02-18 14:25:36
特朗普访华前,王毅通知美国:华盛顿若做一件事,中美将陷入对抗

特朗普访华前,王毅通知美国:华盛顿若做一件事,中美将陷入对抗

快看张同学
2026-02-17 22:33:30
世界上唯一“没有穷人的国家”:结婚、生娃、买房,国家全给包了

世界上唯一“没有穷人的国家”:结婚、生娃、买房,国家全给包了

看尽人间百态
2026-02-17 14:33:25
绝对不是水货!维尔茨各数据持续领跑,利物浦的新指挥官由他扮演

绝对不是水货!维尔茨各数据持续领跑,利物浦的新指挥官由他扮演

里芃芃体育
2026-02-18 05:00:03
一锅白米饭!美国润人炫耀年夜饭,还嘲讽国人吃不起

一锅白米饭!美国润人炫耀年夜饭,还嘲讽国人吃不起

另子维爱读史
2026-02-18 10:56:48
医生直言:直肠癌早期不是便血,是身上出现4大异常,千万别忽视

医生直言:直肠癌早期不是便血,是身上出现4大异常,千万别忽视

游古史
2025-08-26 13:19:02
美媒及美网友感觉这严重辱美了 赢美国夺冠后意大利选手做晚安手势

美媒及美网友感觉这严重辱美了 赢美国夺冠后意大利选手做晚安手势

劲爆体坛
2026-02-18 09:54:14
上海江桥,房价从2015年22500涨到65800,如今价格回落真实价位

上海江桥,房价从2015年22500涨到65800,如今价格回落真实价位

石辰搞笑日常
2026-02-18 14:08:13
紧急提醒:今日金价释放重要信号,2026年黄金或将这样走

紧急提醒:今日金价释放重要信号,2026年黄金或将这样走

奇思妙想生活家
2026-02-18 17:00:50
厕所里丢一把食盐,真的太实用了,一年省下好几百,学会一定试试

厕所里丢一把食盐,真的太实用了,一年省下好几百,学会一定试试

妙招酷
2026-01-18 00:08:23
2026-02-18 21:24:49
差评XPIN incentive-icons
差评XPIN
用知识和观点Debug the world!
10288文章数 489456关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

5位新能源车主春运开车出行 特斯拉车主:电车更好开

头条要闻

5位新能源车主春运开车出行 特斯拉车主:电车更好开

体育要闻

夺银被问丢金,谷爱凌回击外媒:很荒谬

娱乐要闻

6大卫视春晚收视出炉 北京台稳居第一

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

本地
时尚
家居
教育
公开课

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

冬天穿衣一点都不难!裤子宽松、大衣简约,高级舒适又耐看

家居要闻

中古雅韵 乐韵伴日常

教育要闻

“第一次见亲妈霸凌女儿的”,家长嫌12岁女儿太胖,对话令人窒息

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版