DeepSeek又又又又发新论文了！这一次，他们重构了AI看图的方式|推理|模态|deepseek

DeepSeek又又又又发新论文了！这一次，他们重构了AI看图的方式

2026-01-27 21:19:22　来源: AI进化论花生

北京举报

分享至

今天，DeepSeek又又又又发论文了。

看到的时候，我的第一反应是：这特么今年才过了不到一个月，我已经写了三篇DeepSeek论文解读了。照这个节奏，我是不是要转型成"DeepSeek论文博主"了？

不过这次倒是没梁文锋什么事（替他松口气），署名里没看到他。

说起来，最近Clawdbot挺火的，后台也一直有粉丝留言让我出教程。但相比追这种应用层的热点，我觉得还是读读论文更有意思——毕竟之前几篇DeepSeek论文解读，大家的反馈都挺好，说是终于看懂了技术内核。

所以，咱们还是继续读论文。

这次的论文叫DeepSeek-OCR 2，看起来是个很垂直的OCR模型。我承认，看到标题时觉得有点无聊——OCR？这么细分的领域，值得单独发论文吗？

但读完之后，我觉得这可能是他们今年最重要的技术突破之一。倒不是因为OCR本身多重要，而是因为他们在这个小问题里，提出了一个关于视觉语言模型（VLM）架构的有趣洞察：

AI看图的方式，一直都错了。

你看报纸的方式，和AI完全不同

想象你拿起一份报纸。

你的眼睛会怎么动？大概率是这样：先扫一眼大标题，跳到配图，看一眼图片说明，再决定要不要读正文。如果是多栏排版，你会根据内容的"重要性"在各栏之间跳跃，而不是从左上角第一个字开始，一行行扫到右下角。

这不是什么高深的认知科学发现。这是你每天都在做的事。

但AI不是这样看图的。

传统的视觉语言模型（VLM）处理图像的方式，更像一台复印机：从左到右，从上到下，逐行扫描。不管图像里有什么，不管哪里重要哪里不重要，它都用同一种机械的顺序把图像"读"成一串数字。

这个问题存在了很多年。直到最近，DeepSeek在一篇看起来很"小"的论文里，提出了一个挺"大"的洞察。

1967年的眼动实验

在讲DeepSeek的解法之前，我想先聊一个认知科学的经典实验。

1967年，苏联心理学家Alfred Yarbus做了一个著名的眼动追踪实验。他让不同的被试看同一幅画——列宾的《意外归来》，画的是一个流放者突然回到家中的场景。

有意思的是，Yarbus给每个被试不同的任务指令：

"估计这家人的经济状况"
"记住画中人物的位置"
"猜测这个人离开家多久了"

结果发现，同一幅画，不同任务下，被试的眼动轨迹完全不同。

让估计经济状况的人，眼睛会在家具、墙壁装饰之间跳跃。让猜测离开时间的人，眼睛会在归来者的脸和家人的表情之间反复扫视。

这说明什么？人类的视觉不是被动的接收，而是主动的搜索。我们的眼睛去哪里，取决于我们想知道什么，取决于我们之前已经看到了什么。

用论文里的话说，人类视觉是"因果性"的——每一次注视都依赖于之前获得的信息来决定下一步看哪里。

而传统AI没有这个能力。它只会机械地扫。

小径分岔的花园

博尔赫斯有一篇短篇小说，叫《小径分岔的花园》。

故事里有一座神秘的花园，主人公最终发现，这座花园其实是一部小说——一部在每个叙事节点都分叉出所有可能性的小说。在这部小说里，主人公可以同时选择所有的路径，每条路径都是真实的。

这个隐喻用来理解DeepSeek OCR 2的核心创新，挺合适。

传统VLM就像一个只会走直线的人穿越迷宫。从入口到出口，只有一条固定的路线：从左到右，从上到下。不管迷宫的结构如何，不管哪条路更近，它都只会沿着预设的方向走。

而人类看图——以及DeepSeek想让AI学会的方式——是站在每个岔路口，根据眼前的信息决定下一步往哪走。这条路看起来有标题？先走这边。那边有张图表？跳过去看看。

这就是论文标题里"Visual Causal Flow"（视觉因果流）的含义：让AI学会根据已经看到的内容，因果性地决定接下来看哪里。

DeepSeek的解法：两阶段级联推理

理解了问题，DeepSeek的解法就很自然了。

核心思路是：把"看图"这件事拆成两步。

第一步：推理"应该按什么顺序看"

传统VLM直接把图像拍平成一串token，顺序是固定的。DeepSeek的做法是，先让模型学会重新排列这些token的顺序——根据图像的语义内容，而不是空间位置。

这一步由一个叫"DeepEncoder V2"的编码器完成。它会输出一组"因果流查询"（causal flow query），这些查询token会按照模型认为合理的顺序，依次"注视"图像的不同部分。

第二步：在正确的顺序上做推理

重排之后，再把这些有序的视觉信息交给LLM做文本生成（比如OCR识别）。

因为顺序对了，LLM就能更好地理解文档的逻辑结构。比如先看到标题，再看到正文，而不是先看到页脚的页码。

一个巧妙的注意力mask

技术细节我尽量简化。

DeepEncoder V2的核心是一个巧妙的注意力机制设计。它把输入分成两部分：

视觉token：用双向注意力，每个token都能看到所有其他token。这保证了全局的感知能力。

因果流查询：用因果注意力，每个查询只能看到前面的查询和所有视觉token。这让查询之间形成"顺序"——第一个查询决定先看哪，第二个查询基于第一个的结果决定接下来看哪。

两种注意力拼在一起，就形成了一个特殊的注意力mask矩阵。视觉token负责"感知"，因果查询负责"排序"。

另一个有意思的设计：他们用一个小型LLM（Qwen2-500M）替换了传统的CLIP ViT作为视觉编码器。这让编码器本身就具备了"推理"能力，而不只是特征提取。

效果怎么样

说点实际的。

在OmniDocBench v1.5这个文档解析基准测试上，DeepSeek OCR 2达到了91.09%的综合得分，比前代提升了3.73%。

更有意义的是"阅读顺序"指标的提升——编辑距离从0.085降到了0.057。这说明模型确实学会了按更合理的顺序"读"文档，而不只是识别准确率提高了。

在实际生产环境中（DeepSeek的在线OCR服务和预训练数据管线），输出的重复率也从6.25%降到了4.17%，下降了33%。

而这一切，只用了256到1120个视觉token。作为对比，Qwen2.5-VL-72B要用超过6000个token。

这只是拼图的一块

OCR 2不是孤立的。

2026年1月，DeepSeek密集发布了一系列论文：

1月1日，mHC论文：提出"流形约束超连接"，解决大模型训练的稳定性问题。梁文锋署名。

1月12日，Engram论文：提出"条件记忆"机制，实现近乎无限的上下文检索。梁文锋署名。

1月27日，OCR 2论文：视觉因果流，让AI像人一样理解图像。

这些技术指向同一个方向：更高效、更稳定、更像人。

它们很可能都会整合进即将发布的DeepSeek V4。根据公开信息，V4预计在2月中旬（春节前后）发布。GitHub代码库意外泄露的"MODEL1"代号显示，这可能是一次架构重构，包括混合精度训练、Blackwell GPU优化、以及超过100万token的上下文窗口。

去年的V3和R1都是在春节窗口发布的。今年看起来也是。

从"看"的方式开始

回到OCR 2这篇论文本身。

它解决的问题看起来很"小"——文档OCR，把图片里的文字读出来。但它触及的问题挺"大"：AI应该怎么理解二维的视觉世界？

论文的讨论部分提到了两个方向：

一个是"Towards Genuine 2D Reasoning"——迈向真正的2D推理。用两个级联的1D因果推理来逼近2D理解。第一个1D负责"排序"，第二个1D负责"推理"。这是否能真正实现2D推理，还有待验证。

另一个是"Towards Native Multimodality"——迈向原生多模态。既然可以用LLM当视觉编码器，那能不能用同一套架构处理图像、音频、文本？只需要换一组模态专属的查询token就行。

期待真正的多模态DeepSeek

说起来，我们之前一直有个遗憾。

DeepSeek V3和R1都是很强的模型，R1甚至在推理能力上超越了o1。但它们都是纯文本模型。在DeepSeek的网站或App上对话时，你能上传图片，但模型只是单纯地识别图中的文字，然后基于文字内容回答——本质上还是文本推理。

这就像一个只能读字幕的人在"看"电影。

而从OCR 2这篇论文传递的信息看，DeepSeek在多模态上已经迈出了关键一步。他们不再满足于识别文字这种初级的图像理解，而是在探索如何让AI真正"理解"视觉信息的结构和语义。

加上之前泄露的GitHub代码里，"MODEL1"代号下有大量关于视觉编码器的配置，以及论文里明确提到的"Native Multimodality"方向——我们有理由期待，即将发布的DeepSeek V4会是一个能力相当不错的原生多模态模型。

真正学会看图。

这些都是开放的问题。但从DeepSeek的论文发布节奏来看，他们已经在路上了。

论文：https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
模型：https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

DeepSeek又又又又发新论文了！这一次，他们重构了AI看图的方式

Anthropic将融资200亿美元、估值3500亿美元

牛弹琴：印欧迎来大喜事 冯德莱恩被痛骂背叛欧洲人民

牛弹琴：印欧迎来大喜事 冯德莱恩被痛骂背叛欧洲人民

冒充职业球员，比赛规则还和对手现学？

张雨绮风波持续发酵，曝多个商务被取消

涨价！新风口，在路上了！

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

现代古典 中性又显韵味

云游中国｜拨开云雾，巫山每帧都是航拍大片

被章若楠、舒淇带火的毛衣，这样穿太时髦了！

美海军"林肯"号航母打击群抵达中东地区

牛弹琴：印欧迎来大喜事冯德莱恩被痛骂背叛欧洲人民

牛弹琴：印欧迎来大喜事冯德莱恩被痛骂背叛欧洲人民

现代古典中性又显韵味