网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

视觉压缩称王？谷歌死守AI黑科技，DeepSeek一夜开源

2025-11-14 22:10:46　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：KingHZ

【新智元导读】谷歌早有类似技术？DeepSeek-OCR开源引发战略拐点，长文本渲染图像框架如Glyph验证视觉压缩的普适性。但故事还没完。

DeepSeek-OCR杀疯了！

前段时间，，提出了「上下文光学压缩」，高效得邪门——

特别是，在长上下文解码固定97%的精度下，OCR版本所需的视觉标记比文本标记少10倍。

也就是说，OCR版本的信息压缩能力比文本版本强10倍。在20倍压缩下，仍能保持60%的准确率。

长上下文解码，即模型将信息压缩为潜在表示并重建的能力。换句话说：对AI而言，单张图像可以用更少的token来表示完整文档。

这燃起了计算机视觉研究者的新希望：图像更关乎智能的本质，文本只是表象！

Karpathy不装了，摊牌了——承认自己只是「假装」在做自然语言处理（NLP），但心在是计算机视觉(CV)。Karpathy狂赞DeepSeek新模型，表示它终结分词器时代。

但DeepSeek-OCR到底有多强？视觉能压缩一切吗？图像和文本狭路相逢，到底谁能胜出？

下面，我们一探究竟。

DeepSeek-OCR很火

开源还得是DeepSeek

毫无疑问，DeepSeek-OCR真的很火——

不仅Github开源项目斩获了超20K星。

Github：https://github.com/deepseek-ai/DeepSeek-OCR

HuggingFace：https://huggingface.co/deepseek-ai/DeepSeek-OCR

甚至「先天下之忧而忧，后天下之乐而乐」就因为出现在提示词例子中，一群英语用户在讨论翻译对不对：

DeepSeek意外地推广了范仲淹这句名言。

而且，DeepSeek-OCR确实很实用。

凌晨4点，网友Brian Roemmele实测证明：

DeepSeek-OCR不仅能识别单个小格，它甚至可以在几秒内扫描整张缩微胶片（microfiche），而且百分之百保留全部数据！

还能完整理解文本内容、复杂图纸以及它们的上下文！

直呼自己「彻底改变了离线数据整理的方式」！

接下来，他还要要试试看，DeepSeek-OCR能不能一次性读懂40多年前的「计算机存储」打孔卡。

他在20世纪80年代贝尔实验室的垃圾桶，收集了73箱Filmsort计算机打孔卡，上面嵌有Microfiche微缩胶片单元。

使用DeepSeek-OCR，alphaXiv从50多万篇AI主题arXiv论文的表格/图表中提取所有数据集，只花了1000美元，而使用Mistral OCR完成相同任务将花费7500美元。

DeepSeek-OCR还能将任天堂的年报（下图右）转换成了Markdown 格式（下图左）

关键的是，连一个错字都没找到。逗号和句点也看起来完美无缺。

微软的云/AI架构师Axel Dittmann，刚刚在本地跑了DeepSeek-OCR，速度惊人：

整图分析加文本提取仅用了11.1秒。

这已经不是简单的提速OCR了，这是实时的文档级AI。

HuggingFace还比较了多个OCR模型。

在下列链接，可直接可体验不同OCR模型的效果：

https://prithivmlmods-multimodal-ocr3.hf.space/

但有个问题，DeepSeek-OCR目的是探索视觉-文本压缩的边界——

从大语言模型视角出发，专注研究视觉编码器作用的模型。

作者不仅仅是为了升级OCR，更是要探讨机器如何感知和处理数据的范式转变。

实用性高是工程成就，但领域内研究人员更在意的是理论突破。

它能为AI新时代吹响号角吗？未来，视觉感知能否胜过文本？计算机视觉能否东山再起？

想法早已有之，但问题是什么？

为什么全网热议DeepSeek-OCR？

除了实用性外，网友Feffrey Emanuel用Claude Opus 4.1总结了论文的关键洞察——

只要编码器-解码器配对得当，密集型视觉表示比线性文本Token更高效。

这意味着：

上下文窗口将变得「弹性」：不再受限于固定的128k Token长度——可以把旧上下文动态压缩成图像存储！

视觉优先架构将成主流：未来的大语言模型可能会先把所有文本转为视觉表示来处理，文本Token仅用于生成阶段。

「计算开销」其实是人为制造的假象：视觉Token之所以「贵」，只是因为我们用错了方式——过去它被当成像素表示，而不是压缩的语义空间。

生物启发是对的：「一图胜千言」并不是比喻，而是经过正确编码后在计算层面上成立的事实！

真正颠覆性的意义在于——我们过去可能从一开始就搞反了LLM的构建方式。

我们一直在做的是「以文本为主、视觉附加」的模型架构，而最优解可能是「以视觉压缩为核心，文本生成只是输出层」。

论文从根本上质疑了业内的前提假设「文本Token是文本信息最高效表达方式」，。

网友甚至推测谷歌早已有类似的方法，但密而不发，严守机密。

而且网友Chirag称，谷歌在语言上公布了类似的方法。

从技术与战略层面看，这无疑是一个决定性的拐点。

DeepSeek的光学压缩技术，有效突破了AI长期以来的瓶颈：长上下文处理效率低下。

它通过将文本转化为高密度的视觉Token，不仅大幅降低内存与计算开销，还能保持语义精度，由此加速了文档级推理、实时翻译与多模态对齐等关键任务。

刚刚，清华大学等也发布了一个将长文本渲染成图像并使用视觉-语言模型（VLM）处理的框架Glyph。

这种方法在保留语义信息的同时，大幅压缩了文本输入。

Github：https://github.com/thu-coai/Glyph

直接阅读视觉文本而不是文本，这种想法早已有之。

Meta超级智能实验室高级研究科学家、德克萨斯大学奥斯汀分校博士江亦凡，读完DeepSeek-OCR论文后，就觉得这不是什么新东西：

直接阅读视觉文本而不是将文本转换为utf-8格式的想法，似乎是一个长期讨论的概念，甚至在LLM 时代之前就是这样。

人类阅读书籍、听音频、触摸盲文，但并不使用utf-8。

在19年，国内的研究者就发现，在多项中文NLP任务中，基于字形的模型持续优于传统的词ID/字ID模型，在多个任务上刷新SOTA表现。

预印本链接：https://arxiv.org/abs/1901.10125

题目：Glyce: Glyph-vectors for Chinese Character Representations

总之，在不同应用领域，多篇论文探讨过这一技术路线，包括但不限于：

Language Modelling with Pixels

Robust OpenVocabulary Translation from Visual Text Representations

Autoregressive Pre-Training on Pixels and Texts

Pix2Struct: Screenshot Parsing as Pretraining for Visual Language

Understanding Improving Language Understanding from Screenshots

对AI训练而言，像素优于字符。或许，这早已是「江湖传说」。但囿于工具、算力或企业文化等等，一直没有开源的类似工具出现。

即便只是工程价值，DeepSeek-OCR已推动了相关研究重回AI行业视野。

不过，视觉和文本，到底谁更贴近智能的本质？

视觉狭路遇上文本

Karpathy笑太早了？

对LLM而言，视觉>文本。这是大家对DeepSeek-OCR的第一印象。

但Palantir前员工Igor Zalutski提出了一个问题：

如果「音频token」被证明更加高效会怎样？

语言毕竟始于声音，而文字是后来才发明的（如象形文字）。而且对许多人来说，阅读时脑海中会产生声音。

Keras3合作者、机器学习研究员Aakash Kumar Nain，指出了他对DeepSeek-OCR的两大「抱怨」：

一方面，包含文本的图像不能无限压缩，信息细节很容易在过程中丢失；

另一方面，我反感把压缩和记忆拟人化的表达方式——我们是否可以避免动不动就用「拟人类」的框架去解释一切？

在他看来，目前提取图像Token的方式仍称不上最优。

DeepSeek-OCR之所以能够跑通，主要是得益于局部注意力与全局注意力的混合机制，而不是提取方式本身有多高效。

其实，LayoutLM系列论文给出了更系统、更结构化的视觉文本对齐方式，从而在信息保留、空间结构理解和上下文建模方面做得更好。

预印本链接：https://arxiv.org/abs/1912.13318

标题：LayoutLM: Pre-training of Text and Layout for Document Image Understanding

威斯康星大学麦迪逊分校电子与计算机工程系副教授Kangwook Lee，更严肃地讨论了「DeepSeek-OCR热潮」。

首先，在DeepSeek-OCR之前，剑桥大学的研究者就已展示了将Prompt Token压缩500倍的可行性——

而且并没有借助将文本转为图像的策略。

论文链接：https://aclanthology.org/2025.acl-long.1219/

标题：500xCompressor: Generalized Prompt Compression for Large Language Models

DeepSeek-OCR的成功，不应归因于图像表示本身的「魔力」。

文本表示本身（无论用何种tokenizer）并没有本质问题。

同样道理，你也可以反其道而行之：比如将图像转为一串文本Token（每个Token代表RGB值），依然能跑通任务——这在LIFT论文中已有验证。

论文链接：https://uw-madison-lee-lab.github.io/LanguageInterfacedFineTuning/

真正的核心启示在于——当前LLM的Embedding空间巨大且可能非常浪费。

现在，大家还远未充分利用这些表示空间的潜力。越来越多研究也在印证这一点。

比如，下面2024年的论文表明：如果你在上下文中混合多种任务的演示，模型能够同时完成多个ICL预测任务。

链接：https://arxiv.org/abs/2410.05603

标题：Everything Everywhere All at Once: LLMs can In-Context Learn Multiple Tasks in Superposition

这再次说明，上下文空间和表示空间的利用效率，才是关键突破口。

真正应该领悟的关键要点：

DeepSeek-OCR确实很酷
但通过对压缩文本令牌进行微调，你可以实现更高的令牌缩减率
更多证据表明，大语言模型并未充分利用其庞大的嵌入空间以及在推理时投入的大量计算资源

或许，这才是研究的真谛：research = re search——

做实验之前，你无法确定结果。

技术争鸣的价值，不在宣布赢家，而在暴露盲区。下一代AI不必「以哪个模态为圣」。

AI范式的成熟，恰恰始于这种「去神话化」的清醒。

参考资料：

https://x.com/Kangwook_Lee/status/1980709769015869488

https://x.com/Kangwook_Lee/status/1980709454522744902

https://x.com/doodlestein/status/1980282222893535376

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

谷歌高层回应AI泡沫质疑：这是工业革命，但速度快10倍、规模大10倍

华尔街见闻官方 2026-02-20 20:16:41
75 跟贴 75
宇树科技王兴兴：给机器人行业多一点耐心

财联社 2026-02-18 18:01:39
0 跟贴 0

PixelRefer ：让AI从“看大图”走向“看懂每个对象”

机器之心Pro 2025-11-11 12:49:23
0 跟贴 0

8500亿美元！OpenAI刷新AI公司估值纪录，断层第一

都市快报橙柿互动 2026-02-20 16:49:27
343 跟贴 343
美国开发六足机器人，跑起来堪比飞人博尔特

装甲铲史官 2026-01-03 11:19:04
809 跟贴 809

OpenAI计划2027年前推出人工智能智能音箱

环球网资讯 2026-02-21 09:38:52
12 跟贴 12

成本仅1/3，效率却翻13倍！这个春节，中国AI黑科技曝光

新智元 2026-02-19 12:39:15
2 跟贴 2
国产双足机器人铁双双开箱，帅气站立超强平衡！

爱范儿 2025-10-25 09:46:36
0 跟贴 0

破解机器人「慢半拍」难题1

机器之心Pro 2026-02-10 14:06:54
0 跟贴 0
懂人性更懂执行，蚂蚁这个万亿开源模型把情商和战斗力都给拉满了

量子位 2026-02-19 12:45:37
2 跟贴 2
你刷到的视频是真的么？用物理规律拆穿Sora谎言

机器之心Pro 2025-11-05 16:27:02
0 跟贴 0
微软将Grok 4.1 Fast引入Copilot Studio 马斯克透露Grok 4.2即将发布

环球网资讯 2026-02-21 09:38:52
13 跟贴 13
从AlphaGo到DeepSeek R1，推理的未来将走向何方？

机器之心Pro 2026-02-20 13:28:45
0 跟贴 0
大模型最难的AI Infra，用Vibe Coding搞定

机器之心Pro 2026-01-07 15:33:06
0 跟贴 0
高效智能体幕后推手是谁？一篇综述带你从记忆×工具学习×规划看透

机器之心Pro 2026-01-27 15:24:36
0 跟贴 0
硅谷大佬拒绝握手，印度AI峰会“槽点”不断

第一财经资讯 2026-02-20 21:10:47
156 跟贴 156
春晚“带货”新物种：具身机器人何以被疯抢

36氪 2026-02-20 17:22:19
3 跟贴 3
VGGT4D：无需训练，挖掘3D基础模型潜力，实现4D动态场景重建

机器之心Pro 2025-12-17 17:46:42
0 跟贴 0
Nature重磅：上海交大团队推出全球首个AI智能体罕见病诊断系统，超越人类专家，3亿罕见病患者迎来新希望

生物世界 2026-02-21 10:05:36
1 跟贴 1
行业最大规模具身数据集！出自简智机器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟贴 0
行业最大规模具身数据集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟贴 0
机器人进汽车厂，给波士顿动力，装上谷歌最强大脑

机器之心Pro 2026-01-06 19:02:05
3 跟贴 3
美股三大指数集体收涨谷歌涨超4%

每日经济新闻 2026-02-21 06:14:22
1 跟贴 1
美国开始出手！一周挖走4名中国顶尖人才，年薪1个亿美元令人咋舌

烽火观察 2026-02-19 11:41:25
1 跟贴 1
农民大叔自制捕鱼工具，亲自实验效果后，立马去申请专利

阿宝叫搞笑 2026-02-18 15:36:00
2 跟贴 2
一位60岁水管工的神奇发明！用空塑料瓶获取源源不断的免费能源

夏洛老湿 2026-02-18 01:48:45
16 跟贴 16
中国铁锅制造全过程，天生做美食的锅子，工艺真罕见

葡萄唠生活 2026-02-18 12:02:16
52 跟贴 52
谷歌发布AI音乐Lyria 3模型，纯小白也能轻松上手变达人

快科技 2026-02-19 18:18:44
0 跟贴 0
下一代谷歌头显，XREAL x Google 定义混合现实头显

爱范儿 2025-12-10 05:12:08
0 跟贴 0
农民发明震撼全网！将旧铲子和自行车变两个神器，这创意该拿大奖

V科技奇趣 2026-02-21 09:01:00
0 跟贴 0
DeepSeek推理分裂出多重人格，越社交越聪明

量子位 2026-02-04 03:32:03
0 跟贴 0
DeepMind负责人：2036 AI意识觉醒？LeCun怒怼：LLM路线全错！

新智元 2025-12-16 16:55:25
0 跟贴 0
美国人为何称这种屋顶近乎完美防水？全程只用一把锤子！

果果哥哥 2026-02-20 19:04:06
1 跟贴 1
还有这种刹车方法啊

夏的世界 2026-02-19 10:41:59
1 跟贴 1
这个可是技术活啊

影视小铺 2026-02-19 18:44:26
1 跟贴 1
日博主来华旅游拿着谷歌地图分析上海造船厂，小样心思不单纯

搞笑荔枝 2026-02-21 03:23:07
0 跟贴 0
你看美国人是怎么用刮胡刀片开锁的？1秒钟打开，太不可思议了！

Patient二音 2026-02-20 02:03:21
35 跟贴 35
未来你会住这里吗

蛇毒不毒 2026-02-17 12:09:06
67 跟贴 67
65岁农民的天才创意工具发明！每家每户都需要它，但却没人做

V科技奇趣 2026-02-18 09:20:00
0 跟贴 0
足球场上黑科技，机器人假动作制服人类，距离替代我们又进一步

小女孩没烦恼 2026-02-20 16:45:00
0 跟贴 0

这下麻烦大了！不到48小时，闫学晶再迎2大噩耗，何庆魁也被牵连

这下麻烦大了！不到48小时，闫学晶再迎2大噩耗，何庆魁也被牵连

揽星河的笔记

2026-01-07 15:09:10

一个残酷的社交逻辑：底层无贵人，弱者无圈子

一个残酷的社交逻辑：底层无贵人，弱者无圈子

洞见

2026-01-10 21:41:53

央视女外卖员短片被骂，骆驼祥子拉黄包车，不是为了欣赏沿途风景

央视女外卖员短片被骂，骆驼祥子拉黄包车，不是为了欣赏沿途风景

壹月情感

2025-12-02 16:42:19

“妈妈让孩子上交2万压岁钱”，冲上热搜！网友热议……

“妈妈让孩子上交2万压岁钱”，冲上热搜！网友热议……

环球网资讯

2026-02-21 11:15:19

机智十足！苏翊鸣颁奖拼命撸袖，炫耀佩戴价值14万卡地亚珠宝全套

机智十足！苏翊鸣颁奖拼命撸袖，炫耀佩戴价值14万卡地亚珠宝全套

卿子书

2026-02-20 12:07:44

79年对越战争许世友为何对邓小平不满？回国当天没人敢去机场迎接

79年对越战争许世友为何对邓小平不满？回国当天没人敢去机场迎接

历史龙元阁

2026-02-16 12:50:06

狂轰7连胜！骑士三杀黄蜂，哈登连创3大神迹，新秀登顶联盟第一

狂轰7连胜！骑士三杀黄蜂，哈登连创3大神迹，新秀登顶联盟第一

老侃侃球

2026-02-21 10:36:56

孙越访谈坦白：和岳云鹏私下不怎么联系，成就如今的“德云一哥”

孙越访谈坦白：和岳云鹏私下不怎么联系，成就如今的“德云一哥”

离离言几许

2026-02-21 09:26:48

澳大利亚慌了：西芒杜铁矿石首次运往中国，为何标志着全球里程碑

澳大利亚慌了：西芒杜铁矿石首次运往中国，为何标志着全球里程碑

命运自认幽默

2026-02-17 19:50:44

太真实！河南舅舅锁门躲拜年，一看门口礼物，戳中无数人的痛点…

太真实！河南舅舅锁门躲拜年，一看门口礼物，戳中无数人的痛点…

火山詩话

2026-02-20 16:02:51

广东一男子留2年长发回家过年，引起长辈们围观都忘记催婚了

广东一男子留2年长发回家过年，引起长辈们围观都忘记催婚了

九方鱼论

2026-02-21 08:45:47

土耳其逮捕多国共产党人，俄共成员涉其中，人权调查变抓捕现场

土耳其逮捕多国共产党人，俄共成员涉其中，人权调查变抓捕现场

老马拉车莫少装

2026-02-20 15:16:53

意甲从全败到全胜，英超保级队新帅首秀大胜，两天后迎战利物浦

意甲从全败到全胜，英超保级队新帅首秀大胜，两天后迎战利物浦

嗨皮看球

2026-02-20 14:23:04

偶像面基时刻！约基奇赛前主动找到杨瀚森打招呼并交流

偶像面基时刻！约基奇赛前主动找到杨瀚森打招呼并交流

懂球帝

2026-02-21 10:11:13

浙江经济，四分之一在杭州，义乌进不了前五

浙江经济，四分之一在杭州，义乌进不了前五

安安小小姐姐说城市

2026-02-21 06:40:06

让人心寒！给弟弟三孩子每人500，自己一孩子回500，姐姐决定断亲

让人心寒！给弟弟三孩子每人500，自己一孩子回500，姐姐决定断亲

火山詩话

2026-02-20 15:43:13

反转！钓鱼大哥救了跳河的女高中生，对方转9000感激，评论区炸锅

反转！钓鱼大哥救了跳河的女高中生，对方转9000感激，评论区炸锅

火山詩话

2026-02-20 07:58:23

林孝埈打破沉默！回应冬奥0奖牌：已尽全力+无遗憾 4年后还想参赛

林孝埈打破沉默！回应冬奥0奖牌：已尽全力+无遗憾 4年后还想参赛

风过乡

2026-02-21 08:25:26

重磅传闻！世界杯后阿尔瓦雷斯将加盟巴萨，锋线新组合呼之欲出！

重磅传闻！世界杯后阿尔瓦雷斯将加盟巴萨，锋线新组合呼之欲出！

田先生篮球

2026-02-20 20:15:52

沈阳飞成都的飞机上遇到沈腾和尹正了，尹正眉清目秀沈腾很接地气

沈阳飞成都的飞机上遇到沈腾和尹正了，尹正眉清目秀沈腾很接地气

东方不败然多多

2026-02-20 21:20:22

AI产业主平台领航智能+时代

14564文章数 66632关注度

往期回顾全部

科技要闻

智谱上市1月涨5倍，市值超越京东、快手

头条要闻

7名中国游客贝加尔湖遇难：冰面裂缝约3米在打捞遗体

头条要闻

7名中国游客贝加尔湖遇难：冰面裂缝约3米在打捞遗体

体育要闻

冬奥第一"海王"？一人和13国选手都有关系

娱乐要闻

镖人反超惊蛰无声拿下单日票房第二！

财经要闻

一觉醒来，世界大变，特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了方程豹首款轿车路跑信息曝光

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

健康

数码

手机

公开课

旅游要闻

马年新春人气旺华夏城海洋馆人气爆棚

转头就晕的耳石症，能开车上班吗？

数码要闻

苹果低价MacBook下月登场：首次搭载A18 Pro手机芯片！

手机要闻

苹果史上首款折叠屏手机！iPhone Fold参数汇总：今年发布

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版