网易首页 > 网易号 > 正文 申请入驻

DeepSeek又又又又发新论文了!这一次,他们重构了AI看图的方式

0
分享至

今天,DeepSeek又又又又发论文了。


看到的时候,我的第一反应是:这特么今年才过了不到一个月,我已经写了三篇DeepSeek论文解读了。照这个节奏,我是不是要转型成"DeepSeek论文博主"了?

不过这次倒是没梁文锋什么事(替他松口气),署名里没看到他。

说起来,最近Clawdbot挺火的,后台也一直有粉丝留言让我出教程。但相比追这种应用层的热点,我觉得还是读读论文更有意思——毕竟之前几篇DeepSeek论文解读,大家的反馈都挺好,说是终于看懂了技术内核。

所以,咱们还是继续读论文。

这次的论文叫DeepSeek-OCR 2,看起来是个很垂直的OCR模型。我承认,看到标题时觉得有点无聊——OCR?这么细分的领域,值得单独发论文吗?

但读完之后,我觉得这可能是他们今年最重要的技术突破之一。倒不是因为OCR本身多重要,而是因为他们在这个小问题里,提出了一个关于视觉语言模型(VLM)架构的有趣洞察:

AI看图的方式,一直都错了。

你看报纸的方式,和AI完全不同

想象你拿起一份报纸。


你的眼睛会怎么动?大概率是这样:先扫一眼大标题,跳到配图,看一眼图片说明,再决定要不要读正文。如果是多栏排版,你会根据内容的"重要性"在各栏之间跳跃,而不是从左上角第一个字开始,一行行扫到右下角。

这不是什么高深的认知科学发现。这是你每天都在做的事。

但AI不是这样看图的。

传统的视觉语言模型(VLM)处理图像的方式,更像一台复印机:从左到右,从上到下,逐行扫描。不管图像里有什么,不管哪里重要哪里不重要,它都用同一种机械的顺序把图像"读"成一串数字。

这个问题存在了很多年。直到最近,DeepSeek在一篇看起来很"小"的论文里,提出了一个挺"大"的洞察。

1967年的眼动实验

在讲DeepSeek的解法之前,我想先聊一个认知科学的经典实验。

1967年,苏联心理学家Alfred Yarbus做了一个著名的眼动追踪实验。他让不同的被试看同一幅画——列宾的《意外归来》,画的是一个流放者突然回到家中的场景。


有意思的是,Yarbus给每个被试不同的任务指令:

  • "估计这家人的经济状况"

  • "记住画中人物的位置"

  • "猜测这个人离开家多久了"

结果发现,同一幅画,不同任务下,被试的眼动轨迹完全不同。


让估计经济状况的人,眼睛会在家具、墙壁装饰之间跳跃。让猜测离开时间的人,眼睛会在归来者的脸和家人的表情之间反复扫视。

这说明什么?人类的视觉不是被动的接收,而是主动的搜索。我们的眼睛去哪里,取决于我们想知道什么,取决于我们之前已经看到了什么。

用论文里的话说,人类视觉是"因果性"的——每一次注视都依赖于之前获得的信息来决定下一步看哪里。

而传统AI没有这个能力。它只会机械地扫。

小径分岔的花园

博尔赫斯有一篇短篇小说,叫《小径分岔的花园》。


故事里有一座神秘的花园,主人公最终发现,这座花园其实是一部小说——一部在每个叙事节点都分叉出所有可能性的小说。在这部小说里,主人公可以同时选择所有的路径,每条路径都是真实的。

这个隐喻用来理解DeepSeek OCR 2的核心创新,挺合适。

传统VLM就像一个只会走直线的人穿越迷宫。从入口到出口,只有一条固定的路线:从左到右,从上到下。不管迷宫的结构如何,不管哪条路更近,它都只会沿着预设的方向走。

而人类看图——以及DeepSeek想让AI学会的方式——是站在每个岔路口,根据眼前的信息决定下一步往哪走。这条路看起来有标题?先走这边。那边有张图表?跳过去看看。

这就是论文标题里"Visual Causal Flow"(视觉因果流)的含义:让AI学会根据已经看到的内容,因果性地决定接下来看哪里。

DeepSeek的解法:两阶段级联推理

理解了问题,DeepSeek的解法就很自然了。

核心思路是:把"看图"这件事拆成两步。

第一步:推理"应该按什么顺序看"

传统VLM直接把图像拍平成一串token,顺序是固定的。DeepSeek的做法是,先让模型学会重新排列这些token的顺序——根据图像的语义内容,而不是空间位置。

这一步由一个叫"DeepEncoder V2"的编码器完成。它会输出一组"因果流查询"(causal flow query),这些查询token会按照模型认为合理的顺序,依次"注视"图像的不同部分。

第二步:在正确的顺序上做推理

重排之后,再把这些有序的视觉信息交给LLM做文本生成(比如OCR识别)。

因为顺序对了,LLM就能更好地理解文档的逻辑结构。比如先看到标题,再看到正文,而不是先看到页脚的页码。

一个巧妙的注意力mask

技术细节我尽量简化。

DeepEncoder V2的核心是一个巧妙的注意力机制设计。它把输入分成两部分:

视觉token:用双向注意力,每个token都能看到所有其他token。这保证了全局的感知能力。

因果流查询:用因果注意力,每个查询只能看到前面的查询和所有视觉token。这让查询之间形成"顺序"——第一个查询决定先看哪,第二个查询基于第一个的结果决定接下来看哪。


两种注意力拼在一起,就形成了一个特殊的注意力mask矩阵。视觉token负责"感知",因果查询负责"排序"。

另一个有意思的设计:他们用一个小型LLM(Qwen2-500M)替换了传统的CLIP ViT作为视觉编码器。这让编码器本身就具备了"推理"能力,而不只是特征提取。

效果怎么样

说点实际的。

在OmniDocBench v1.5这个文档解析基准测试上,DeepSeek OCR 2达到了91.09%的综合得分,比前代提升了3.73%。

更有意义的是"阅读顺序"指标的提升——编辑距离从0.085降到了0.057。这说明模型确实学会了按更合理的顺序"读"文档,而不只是识别准确率提高了。

在实际生产环境中(DeepSeek的在线OCR服务和预训练数据管线),输出的重复率也从6.25%降到了4.17%,下降了33%。

而这一切,只用了256到1120个视觉token。作为对比,Qwen2.5-VL-72B要用超过6000个token。


这只是拼图的一块

OCR 2不是孤立的。

2026年1月,DeepSeek密集发布了一系列论文:

1月1日,mHC论文:提出"流形约束超连接",解决大模型训练的稳定性问题。梁文锋署名。

1月12日,Engram论文:提出"条件记忆"机制,实现近乎无限的上下文检索。梁文锋署名。

1月27日,OCR 2论文:视觉因果流,让AI像人一样理解图像。

这些技术指向同一个方向:更高效、更稳定、更像人。

它们很可能都会整合进即将发布的DeepSeek V4。根据公开信息,V4预计在2月中旬(春节前后)发布。GitHub代码库意外泄露的"MODEL1"代号显示,这可能是一次架构重构,包括混合精度训练、Blackwell GPU优化、以及超过100万token的上下文窗口。

去年的V3和R1都是在春节窗口发布的。今年看起来也是。

从"看"的方式开始

回到OCR 2这篇论文本身。

它解决的问题看起来很"小"——文档OCR,把图片里的文字读出来。但它触及的问题挺"大":AI应该怎么理解二维的视觉世界?

论文的讨论部分提到了两个方向:

一个是"Towards Genuine 2D Reasoning"——迈向真正的2D推理。用两个级联的1D因果推理来逼近2D理解。第一个1D负责"排序",第二个1D负责"推理"。这是否能真正实现2D推理,还有待验证。

另一个是"Towards Native Multimodality"——迈向原生多模态。既然可以用LLM当视觉编码器,那能不能用同一套架构处理图像、音频、文本?只需要换一组模态专属的查询token就行。

期待真正的多模态DeepSeek

说起来,我们之前一直有个遗憾。

DeepSeek V3和R1都是很强的模型,R1甚至在推理能力上超越了o1。但它们都是纯文本模型。在DeepSeek的网站或App上对话时,你能上传图片,但模型只是单纯地识别图中的文字,然后基于文字内容回答——本质上还是文本推理。

这就像一个只能读字幕的人在"看"电影。

而从OCR 2这篇论文传递的信息看,DeepSeek在多模态上已经迈出了关键一步。他们不再满足于识别文字这种初级的图像理解,而是在探索如何让AI真正"理解"视觉信息的结构和语义。

加上之前泄露的GitHub代码里,"MODEL1"代号下有大量关于视觉编码器的配置,以及论文里明确提到的"Native Multimodality"方向——我们有理由期待,即将发布的DeepSeek V4会是一个能力相当不错的原生多模态模型。

真正学会看图。

这些都是开放的问题。但从DeepSeek的论文发布节奏来看,他们已经在路上了。

  • 论文:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

  • 模型:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
阿姨这身职业装把正式感和时尚感完美拿捏了

阿姨这身职业装把正式感和时尚感完美拿捏了

牛弹琴123456
2026-01-26 11:16:56
人社部:三项社保基金累计结余10.2万亿元

人社部:三项社保基金累计结余10.2万亿元

每日经济新闻
2026-01-27 10:47:39
比亚迪“大唐”无伪装实车曝光,D级旗舰SUV唐9系

比亚迪“大唐”无伪装实车曝光,D级旗舰SUV唐9系

IT之家
2026-01-27 11:45:12
何庆魁:我一个人支撑本山传媒好几年!网友:黑土,有人喊你打钱

何庆魁:我一个人支撑本山传媒好几年!网友:黑土,有人喊你打钱

手工制作阿歼
2026-01-28 03:17:23
邵佳一霸气!3位主帅不敢重用之人,被他激活,3场为国足轰进3球

邵佳一霸气!3位主帅不敢重用之人,被他激活,3场为国足轰进3球

何老师呀
2026-01-27 11:51:06
牢A含金量提升!澳洲中国留学生堕胎率超30%,16年前报道数据扎心

牢A含金量提升!澳洲中国留学生堕胎率超30%,16年前报道数据扎心

火山诗话
2026-01-25 06:48:02
让女人“生理性上瘾”的男人,从来不是有钱的,而是这2种!

让女人“生理性上瘾”的男人,从来不是有钱的,而是这2种!

加油丁小文
2026-01-28 07:21:37
央视重磅提醒,奉劝所有中国人提前做好心理准备

央视重磅提醒,奉劝所有中国人提前做好心理准备

老特有话说
2026-01-28 00:37:23
C罗滑稽行为引发球迷热议:一事无成,早该退役了

C罗滑稽行为引发球迷热议:一事无成,早该退役了

本泽体育
2026-01-27 17:26:35
全红婵灰色西装亮相,又甜又飒,颜值气质双开挂

全红婵灰色西装亮相,又甜又飒,颜值气质双开挂

仙味少女心
2026-01-27 16:03:07
椰树为徐冬冬婚礼推出定制饮料包装“从单身喝到结婚”,集团回应

椰树为徐冬冬婚礼推出定制饮料包装“从单身喝到结婚”,集团回应

中国品牌
2026-01-27 19:24:12
奥沙利文复出 公布生涯最终目标 超越亨得利 史上最强八贯王 中国

奥沙利文复出 公布生涯最终目标 超越亨得利 史上最强八贯王 中国

越岭寻踪
2026-01-28 07:51:29
6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

小熊侃史
2025-12-25 11:24:12
曼联官方:COO科莱特-罗奇被任命为新球场开发首席执行官

曼联官方:COO科莱特-罗奇被任命为新球场开发首席执行官

懂球帝
2026-01-28 08:26:10
知情人士:俄乌和平协议签署已成乌获美安全保障先决条件

知情人士:俄乌和平协议签署已成乌获美安全保障先决条件

界面新闻
2026-01-28 07:13:51
出什么事了?加仓547%!北向资金锁定芯片唯一低估大真龙

出什么事了?加仓547%!北向资金锁定芯片唯一低估大真龙

财报翻译官
2026-01-28 06:53:32
李宗仁归国之后,希望能出任人大副委员长一职,毛主席却给出了三条关键理由,直言此事并不合适

李宗仁归国之后,希望能出任人大副委员长一职,毛主席却给出了三条关键理由,直言此事并不合适

史海孤雁
2025-12-25 16:48:16
Clawdbot改名Moltbot,它凭什么红遍硅谷

Clawdbot改名Moltbot,它凭什么红遍硅谷

虎嗅APP
2026-01-28 06:00:07
离春节不到一个月,4位名人翻车 卖惨欠税吃相难看,都不值得原谅

离春节不到一个月,4位名人翻车 卖惨欠税吃相难看,都不值得原谅

科学发掘
2026-01-28 07:20:35
13年了!英媒:车王舒马赫不再长期卧床 目前能借助轮椅活动

13年了!英媒:车王舒马赫不再长期卧床 目前能借助轮椅活动

新英体育
2026-01-27 10:33:55
2026-01-28 08:39:00
AI进化论花生 incentive-icons
AI进化论花生
AI博主,AppStore付费榜第一的小猫补光灯app开发者
127文章数 59关注度
往期回顾 全部

科技要闻

Anthropic将融资200亿美元、估值3500亿美元

头条要闻

牛弹琴:印欧迎来大喜事 冯德莱恩被痛骂背叛欧洲人民

头条要闻

牛弹琴:印欧迎来大喜事 冯德莱恩被痛骂背叛欧洲人民

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

张雨绮风波持续发酵,曝多个商务被取消

财经要闻

涨价!新风口,在路上了!

汽车要闻

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

家居
本地
时尚
公开课
军事航空

家居要闻

现代古典 中性又显韵味

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

被章若楠、舒淇带火的毛衣,这样穿太时髦了!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美海军"林肯"号航母打击群抵达中东地区

无障碍浏览 进入关怀版