网易首页 > 网易号 > 正文 申请入驻

视觉压缩称王?谷歌死守AI黑科技,DeepSeek一夜开源

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】谷歌早有类似技术?DeepSeek-OCR开源引发战略拐点,长文本渲染图像框架如Glyph验证视觉压缩的普适性。但故事还没完。

DeepSeek-OCR杀疯了!

前段时间,,提出了「上下文光学压缩」,高效得邪门——

特别是,在长上下文解码固定97%的精度下,OCR版本所需的视觉标记比文本标记少10倍。

也就是说,OCR版本的信息压缩能力比文本版本强10倍。在20倍压缩下,仍能保持60%的准确率。

长上下文解码,即模型将信息压缩为潜在表示并重建的能力。换句话说:对AI而言,单张图像可以用更少的token来表示完整文档

这燃起了计算机视觉研究者的新希望:图像更关乎智能的本质,文本只是表象!


Karpathy不装了,摊牌了——承认自己只是「假装」在做自然语言处理(NLP),但心在是计算机视觉(CV)。Karpathy狂赞DeepSeek新模型,表示它终结分词器时代。

但DeepSeek-OCR到底有多强?视觉能压缩一切吗?图像和文本狭路相逢,到底谁能胜出?

下面,我们一探究竟。

DeepSeek-OCR很火

开源还得是DeepSeek

毫无疑问,DeepSeek-OCR真的很火——

不仅Github开源项目斩获了超20K星。


Github:https://github.com/deepseek-ai/DeepSeek-OCR

HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-OCR

甚至「先天下之忧而忧,后天下之乐而乐」就因为出现在提示词例子中,一群英语用户在讨论翻译对不对:


DeepSeek意外地推广了范仲淹这句名言。

而且,DeepSeek-OCR确实很实用。

凌晨4点,网友Brian Roemmele实测证明:

DeepSeek-OCR不仅能识别单个小格,它甚至可以在几秒内扫描整张缩微胶片(microfiche), 而且百分之百保留全部数据

还能完整理解文本内容、复杂图纸以及它们的上下文!

直呼自己「彻底改变了离线数据整理的方式」!



接下来,他还要要试试看,DeepSeek-OCR能不能一次性读懂40多年前的「计算机存储」打孔卡


他在20世纪80年代贝尔实验室的垃圾桶,收集了73箱Filmsort计算机打孔卡,上面嵌有Microfiche微缩胶片单元。

使用DeepSeek-OCR,alphaXiv从50多万篇AI主题arXiv论文的表格/图表中提取所有数据集,只花了1000美元,而使用Mistral OCR完成相同任务将花费7500美元。


DeepSeek-OCR还能将任天堂的年报(下图右)转换成了Markdown 格式(下图左)


关键的是,连一个错字都没找到。逗号和句点也看起来完美无缺。

微软的云/AI架构师Axel Dittmann,刚刚在本地跑了DeepSeek-OCR,速度惊人:

整图分析加文本提取仅用了11.1秒。

这已经不是简单的提速OCR了,这是实时的文档级AI。


HuggingFace还比较了多个OCR模型。


在下列链接,可直接可体验不同OCR模型的效果:

https://prithivmlmods-multimodal-ocr3.hf.space/

但有个问题,DeepSeek-OCR目的是探索视觉-文本压缩的边界——

从大语言模型视角出发,专注研究视觉编码器作用的模型。

作者不仅仅是为了升级OCR,更是要探讨机器如何感知和处理数据的范式转变。

实用性高是工程成就,但领域内研究人员更在意的是理论突破。

它能为AI新时代吹响号角吗?未来,视觉感知能否胜过文本?计算机视觉能否东山再起?



想法早已有之,但问题是什么?

为什么全网热议DeepSeek-OCR?

除了实用性外,网友Feffrey Emanuel用Claude Opus 4.1总结了论文的关键洞察——

只要编码器-解码器配对得当,密集型视觉表示比线性文本Token更高效。

这意味着:

上下文窗口将变得「弹性」不再受限于固定的128k Token长度——可以把旧上下文动态压缩成图像存储!

视觉优先架构将成主流未来的大语言模型可能会先把所有文本转为视觉表示来处理,文本Token仅用于生成阶段

「计算开销」其实是人为制造的假象视觉Token之所以「贵」,只是因为我们用错了方式——过去它被当成像素表示,而不是压缩的语义空间

生物启发是对的:「一图胜千言」并不是比喻,而是经过正确编码后在计算层面上成立的事实


真正颠覆性的意义在于——我们过去可能从一开始就搞反了LLM的构建方式。

我们一直在做的是「以文本为主、视觉附加」的模型架构,而最优解可能是「以视觉压缩为核心,文本生成只是输出层」

论文从根本上质疑了业内的前提假设「文本Token是文本信息最高效表达方式」,

网友甚至推测谷歌早已有类似的方法,但密而不发,严守机密。



而且网友Chirag称,谷歌在语言上公布了类似的方法。


从技术与战略层面看,这无疑是一个决定性的拐点。

DeepSeek的光学压缩技术,有效突破了AI长期以来的瓶颈:长上下文处理效率低下。

它通过将文本转化为高密度的视觉Token,不仅大幅降低内存与计算开销,还能保持语义精度,由此加速了文档级推理、实时翻译与多模态对齐等关键任务。

刚刚,清华大学等也发布了一个将长文本渲染成图像并使用视觉-语言模型(VLM)处理的框架Glyph。

这种方法在保留语义信息的同时,大幅压缩了文本输入。


Github:https://github.com/thu-coai/Glyph

直接阅读视觉文本而不是文本,这种想法早已有之。

Meta超级智能实验室高级研究科学家、德克萨斯大学奥斯汀分校博士江亦凡,读完DeepSeek-OCR论文后,就觉得这不是什么新东西:

直接阅读视觉文本而不是将文本转换为utf-8格式的想法,似乎是一个长期讨论的概念,甚至在LLM 时代之前就是这样。

人类阅读书籍、听音频、触摸盲文,但并不使用utf-8。


在19年,国内的研究者就发现,在多项中文NLP任务中,基于字形的模型持续优于传统的词ID/字ID模型,在多个任务上刷新SOTA表现。


预印本链接:https://arxiv.org/abs/1901.10125

题目:Glyce: Glyph-vectors for Chinese Character Representations

总之,在不同应用领域,多篇论文探讨过这一技术路线,包括但不限于:

Language Modelling with Pixels

Robust Open­Vocabulary Translation from Visual Text Representations

Autoregressive Pre-Training on Pixels and Texts

Pix2Struct: Screenshot Parsing as Pretraining for Visual Language

Understanding Improving Language Understanding from Screenshots






对AI训练而言,像素优于字符。或许,这早已是「江湖传说」。但囿于工具、算力或企业文化等等,一直没有开源的类似工具出现。


即便只是工程价值,DeepSeek-OCR已推动了相关研究重回AI行业视野。

不过,视觉和文本,到底谁更贴近智能的本质?

视觉狭路遇上文本

Karpathy笑太早了?

对LLM而言,视觉>文本。这是大家对DeepSeek-OCR的第一印象。

但Palantir前员工Igor Zalutski提出了一个问题:

如果「音频token」被证明更加高效会怎样?

语言毕竟始于声音,而文字是后来才发明的(如象形文字)。而且对许多人来说,阅读时脑海中会产生声音。


Keras3合作者、机器学习研究员Aakash Kumar Nain,指出了他对DeepSeek-OCR的两大「抱怨」:

一方面, 包含文本的图像不能无限压缩,信息细节很容易在过程中丢失;

另一方面,我反感把压缩和记忆拟人化的表达方式——我们是否可以避免动不动就用「拟人类」的框架去解释一切?


在他看来,目前提取图像Token的方式仍称不上最优

DeepSeek-OCR之所以能够跑通,主要是得益于局部注意力与全局注意力的混合机制,而不是提取方式本身有多高效。

其实,LayoutLM系列论文给出了更系统、更结构化的视觉文本对齐方式,从而在信息保留、空间结构理解和上下文建模方面做得更好。


预印本链接:https://arxiv.org/abs/1912.13318

标题:LayoutLM: Pre-training of Text and Layout for Document Image Understanding

威斯康星大学麦迪逊分校电子与计算机工程系副教授Kangwook Lee,更严肃地讨论了「DeepSeek-OCR热潮」。


首先,在DeepSeek-OCR之前,剑桥大学的研究者就已展示了将Prompt Token压缩500倍的可行性——

而且并没有借助将文本转为图像的策略


论文链接:https://aclanthology.org/2025.acl-long.1219/

标题:500xCompressor: Generalized Prompt Compression for Large Language Models

DeepSeek-OCR的成功,不应归因于图像表示本身的「魔力」。

文本表示本身(无论用何种tokenizer)并没有本质问题。

同样道理,你也可以反其道而行之:比如将图像转为一串文本Token(每个Token代表RGB值),依然能跑通任务——这在LIFT论文中已有验证。


论文链接:https://uw-madison-lee-lab.github.io/LanguageInterfacedFineTuning/

真正的核心启示在于——当前LLM的Embedding空间巨大且可能非常浪费。

现在,大家还远未充分利用这些表示空间的潜力。越来越多研究也在印证这一点。

比如,下面2024年的论文表明:如果你在上下文中混合多种任务的演示,模型能够同时完成多个ICL预测任务


链接:https://arxiv.org/abs/2410.05603

标题:Everything Everywhere All at Once: LLMs can In-Context Learn Multiple Tasks in Superposition

这再次说明,上下文空间和表示空间的利用效率,才是关键突破口

真正应该领悟的关键要点:

  • DeepSeek-OCR确实很酷

  • 但通过对压缩文本令牌进行微调,你可以实现更高的令牌缩减率

  • 更多证据表明,大语言模型并未充分利用其庞大的嵌入空间以及在推理时投入的大量计算资源

或许,这才是研究的真谛:research = re search——

做实验之前,你无法确定结果。


技术争鸣的价值,不在宣布赢家,而在暴露盲区。下一代AI不必「以哪个模态为圣」。

AI范式的成熟,恰恰始于这种「去神话化」的清醒。

参考资料:

https://x.com/Kangwook_Lee/status/1980709769015869488

https://x.com/Kangwook_Lee/status/1980709454522744902

https://x.com/doodlestein/status/1980282222893535376

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
当年南海打捞出日军沉船,发现一铁箱被焊死,切开后专家震惊哽咽

当年南海打捞出日军沉船,发现一铁箱被焊死,切开后专家震惊哽咽

领悟看世界
2025-11-12 01:06:46
大陆发布悬赏通告后,岛内网民的反应来了

大陆发布悬赏通告后,岛内网民的反应来了

参考消息
2025-11-13 21:19:09
中国为什么不能支持哈马斯,历史上的血仇总要留下警惕

中国为什么不能支持哈马斯,历史上的血仇总要留下警惕

大国纪录
2025-10-11 11:37:02
皇马巨星落入替补,图赫尔从欧洲冠军出发,助英格兰剑指世界冠军

皇马巨星落入替补,图赫尔从欧洲冠军出发,助英格兰剑指世界冠军

嗨皮看球
2025-11-14 12:10:21
美军严重误判,五角大楼认为不管咋轰炸中国,解放军都不敢还手​

美军严重误判,五角大楼认为不管咋轰炸中国,解放军都不敢还手​

文史微鉴
2025-11-11 14:45:44
14号收评:三大指数集体回调!所有人都注意,大盘下周开始这样看

14号收评:三大指数集体回调!所有人都注意,大盘下周开始这样看

春江财富
2025-11-14 15:32:52
董路:U22国足踢韩国队输不了 安东尼奥怕球盲骂才不敢打541

董路:U22国足踢韩国队输不了 安东尼奥怕球盲骂才不敢打541

桃叶渡春
2025-11-14 14:07:32
明星也开始失业了?众多腰部明星将无戏可拍,中年明星更是堪忧

明星也开始失业了?众多腰部明星将无戏可拍,中年明星更是堪忧

白面书誏
2025-10-10 11:37:01
厦门一校花,169cm身高仙姿玉色,貌美如花,美的让人移不开眼

厦门一校花,169cm身高仙姿玉色,貌美如花,美的让人移不开眼

东方不败然多多
2025-11-14 10:18:01
越南一中企进口“废铜”变军火噩梦:25吨弹壳藏实弹,这跟头栽大了

越南一中企进口“废铜”变军火噩梦:25吨弹壳藏实弹,这跟头栽大了

越南语学习平台
2025-11-14 09:14:30
商务部重大利好,半导体攻坚,稀土亮剑,今天这两个赛道要炸?

商务部重大利好,半导体攻坚,稀土亮剑,今天这两个赛道要炸?

财报翻译官
2025-11-14 05:19:05
整活还是傲慢?影视飓风CEO潘天鸿现身相亲角,被吐槽学历太低

整活还是傲慢?影视飓风CEO潘天鸿现身相亲角,被吐槽学历太低

雷科技
2025-11-14 11:44:52
小米挖孔盖诉讼爆大瓜:证据藏反转?雷军劝退言论救得了车企吗

小米挖孔盖诉讼爆大瓜:证据藏反转?雷军劝退言论救得了车企吗

一盅情怀
2025-11-13 20:30:38
主动发声,斯玛特认怂,卫冕冠军下太重了,詹姆斯难辞其咎

主动发声,斯玛特认怂,卫冕冠军下太重了,詹姆斯难辞其咎

体育大朋说
2025-11-14 14:38:43
贵州省规模较大的二十家医院

贵州省规模较大的二十家医院

鬼菜生活
2025-11-14 13:47:50
智能车机评测:2025款红旗天工05

智能车机评测:2025款红旗天工05

车质网
2025-10-10 07:18:19
董璇孕肚挡不住了?张维伊大手搂腰像是打掩护,小酒窝手臂受伤了?

董璇孕肚挡不住了?张维伊大手搂腰像是打掩护,小酒窝手臂受伤了?

情感大头说说
2025-11-13 16:39:34
新格伦首次回收成功,蓝色起源打破SpaceX一骑绝尘的十年格局

新格伦首次回收成功,蓝色起源打破SpaceX一骑绝尘的十年格局

三体引力波
2025-11-14 16:49:43
从“北洋双雄”到GDP差40亿:天津要丢“北方第二城”?

从“北洋双雄”到GDP差40亿:天津要丢“北方第二城”?

双色球的方向舵
2025-11-09 00:09:21
12岁的乔治王子现身帅到认不出!身高1米75快要超过妈妈凯特王妃

12岁的乔治王子现身帅到认不出!身高1米75快要超过妈妈凯特王妃

温读史
2025-11-09 09:25:54
2025-11-15 01:59:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13869文章数 66246关注度
往期回顾 全部

科技要闻

京东“失去的五年”后,找到新增长了吗?

头条要闻

怀疑19.9元"原切牛肉卷"是合成肉消费者送检 多方回应

头条要闻

怀疑19.9元"原切牛肉卷"是合成肉消费者送检 多方回应

体育要闻

7-0狂胜!15万人口小岛离世界杯只差1分

娱乐要闻

王家卫让古二替秦雯写剧情主线?

财经要闻

财政部:加强逆周期和跨周期调节

汽车要闻

小鹏X9超级增程动态评测全网首发 高速实测车内65分贝

态度原创

家居
时尚
数码
教育
公开课

家居要闻

现代简逸 寻找生活的光

“羽绒服+半身裙”,混搭风太好看了!保暖又气质!

数码要闻

小米发布Xiaomi Miloco,探索大模型驱动全屋智能生活

教育要闻

独家!小初高贯通部正式成立!朝阳家长的福气还在后头

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版