网易首页 > 网易号 > 正文 申请入驻

DeepSeek又发新论文:让AI用“人类思维”理解图像

0
分享至

2026开年未满一个月,DeepSeek就发布了两篇创始人梁文锋署名的论文——元旦抛出mHC架构论文破解模型稳定性难题,月中又靠Engram论文提出 “静态知识存为可检索记忆表”的新思路。

1月27日,DeepSeek开源模型DeepSeek-OCR 2(其核心定位为处理静态图像)并同步发布论文《DeepSeek-OCR 2: Visual Causal Flow(直译为“视觉因果流”)》。新京报贝壳财经记者浏览论文发现,视觉因果流机制可使模型不再像扫描仪一样按像素顺序“扫图”,而是能够像人类阅读一样,依据语义和逻辑关系理解图像内容,从而显著提升其在表格、文档和公式等复杂结构场景中的识别与理解效果。


DeepSeek最新论文在github平台上的截图

不是模型不够强,而是看图的顺序不对

长期以来,主流视觉语言模型在处理图像时,普遍采用固定的像素扫描顺序。将图像切分为若干视觉单元后,按照从左到右、从上到下的方式输入模型。这种方式在自然图片中尚能发挥作用,但在表格、多栏文档、技术资料和数学公式等结构化内容中,却暴露出明显局限。

在这些场景下,信息之间往往存在清晰的语义层级和逻辑依赖,例如标题与正文、行名与数值、主公式与注释等。然而,固定的空间顺序无法反映这些关系,导致模型虽然能够识别局部文字,却难以还原整体结构,从而影响后续理解与推理效果。

随着模型规模不断扩大,这一问题并未得到根本解决。研究者逐渐意识到,性能瓶颈并不完全源于参数数量或算力不足,而在于视觉信息被组织和输入模型的方式本身。换言之,模型“看得见”,但“怎么看”才是关键。DeepSeek-OCR 2 正是在这一背景下提出,它尝试从根本上调整模型对图像的理解路径,而不是继续依赖更大的模型规模来弥补结构理解的不足。

先理清关系,再让模型去“理解”

在此背景下,DeepSeek-OCR 2的核心创新在于提出“视觉因果流”机制,使模型不再机械地按像素顺序处理图像,而是根据语义和逻辑关系动态组织视觉信息。在具体实现上,模型在视觉编码阶段引入语义与因果感知能力,通过改进的视觉编码器,对不同视觉单元之间的依赖关系进行建模,判断哪些信息在理解上具有先行性,哪些内容是对前者的补充或延展。

基于这种判断,模型会对视觉token进行动态重排,并结合可重组的位置编码,将结构更加清晰的序列输入语言模型。这样,语言模型在生成和推理阶段接收到的,不再是杂乱无序的像素序列,而是一条更接近人类阅读习惯的“理解路径”。研究团队将这一过程概括为“视觉因果流”,即图像中隐含的语义理解顺序。

实验结果表明,该机制在表格解析、多栏文档理解和公式识别等任务中表现突出,相较于前代 DeepSeek-OCR,整体性能提升 3.73%,阅读顺序(R-order)的编辑距离(ED)也显著降低(从0.085降至0.057),这表明新的DeepEncoder V2能够根据图像信息有效地选择和排列初始视觉标记。

论文最后表示,尽管光学字符识别,尤其是文档解析,是大模型时代最具实用价值的视觉任务之一,但它只是更广泛视觉理解版图中的一部分。未来,相关架构还将持续优化并拓展至更多复杂场景,进一步探索多模态智能在更深层次视觉理解中的潜力。

新京报贝壳财经记者 罗亦丹 实习生 郭雯华

编辑 王进雨

校对 薛京宁

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
险被NBA选中!国手王浩然进入国王次轮选秀考察名单 曾打爆哈珀

险被NBA选中!国手王浩然进入国王次轮选秀考察名单 曾打爆哈珀

醉卧浮生
2026-06-25 17:52:47
世界杯看台抢镜一幕:贝克汉姆捧着“一缸红酒”看巴西队大胜

世界杯看台抢镜一幕:贝克汉姆捧着“一缸红酒”看巴西队大胜

红星新闻
2026-06-25 09:45:40
致命“晾衣架”:一场火灾致两死五伤,159万元判决成“白条”

致命“晾衣架”:一场火灾致两死五伤,159万元判决成“白条”

大风新闻
2026-06-25 12:31:28
“欠下”10000亿!雷军做什么都是错的

“欠下”10000亿!雷军做什么都是错的

鸣金网
2026-06-24 20:20:42
韩红「走个热面」,《抓特务》更冷:那个装腔作势的「京圈」,终于没人拜了……

韩红「走个热面」,《抓特务》更冷:那个装腔作势的「京圈」,终于没人拜了……

家传编辑部
2026-06-25 10:00:51
世界杯最幸运球队诞生:3轮1胜,以小组第3晋级32强,创造了历史

世界杯最幸运球队诞生:3轮1胜,以小组第3晋级32强,创造了历史

球场没跑道
2026-06-25 09:41:06
今年夏天太反常!六月不热早晚凉,老话预兆别不当回事!

今年夏天太反常!六月不热早晚凉,老话预兆别不当回事!

爱下厨的阿酾
2026-06-24 16:45:27
长鑫科技、长江存储所在地券商遭爆炒,华安证券28天翻倍之后,长江证券4天3板,封单一度超170万手,“买券商等于买打折科技股”逻辑继续发酵!

长鑫科技、长江存储所在地券商遭爆炒,华安证券28天翻倍之后,长江证券4天3板,封单一度超170万手,“买券商等于买打折科技股”逻辑继续发酵!

金融界
2026-06-25 15:14:48
“霸总专业户”退出短剧后摆摊卖菜,“我依然想演戏”

“霸总专业户”退出短剧后摆摊卖菜,“我依然想演戏”

极目新闻
2026-06-25 19:29:22
听过最恐怖的故事是什么 看网友讲述 我身上的汗毛倒竖人间地狱啊

听过最恐怖的故事是什么 看网友讲述 我身上的汗毛倒竖人间地狱啊

侃神评故事
2026-06-25 11:02:06
性感A妹胸部全漏走光!本人幽默回应

性感A妹胸部全漏走光!本人幽默回应

草莓解说体育
2026-06-25 17:55:37
0-1输球后再迎坏消息,韩国3分或也难出线,球迷:被德国摆一道!

0-1输球后再迎坏消息,韩国3分或也难出线,球迷:被德国摆一道!

我就是一个说球的
2026-06-25 19:40:03
旅居东京三个月彻底悟透:日本遍地没早餐店,根本不是没钱没人做

旅居东京三个月彻底悟透:日本遍地没早餐店,根本不是没钱没人做

老特有话说
2026-06-24 15:07:56
9队遭淘汰,韩国爆冷出局,非洲黑马晋级,亚洲无一出线

9队遭淘汰,韩国爆冷出局,非洲黑马晋级,亚洲无一出线

吴朑爱游泳
2026-06-25 16:41:12
随着巴西3-0苏格兰,日本进退两难!想进世界杯8强,可能末轮放水

随着巴西3-0苏格兰,日本进退两难!想进世界杯8强,可能末轮放水

侃球熊弟
2026-06-25 08:04:38
给韩国队算分!世界杯小组第3最新形势:6队同分,比利时无缘前8

给韩国队算分!世界杯小组第3最新形势:6队同分,比利时无缘前8

球场没跑道
2026-06-25 12:07:52
“走个面”再升级!网友深扒:半只脚踏入美国的人,教我们抓特务

“走个面”再升级!网友深扒:半只脚踏入美国的人,教我们抓特务

火山詩话
2026-06-25 05:08:44
3场3助攻!巴西28岁中场大师创队史60年神迹:辅佐维尼修斯冲冠

3场3助攻!巴西28岁中场大师创队史60年神迹:辅佐维尼修斯冲冠

李喜林篮球绝杀
2026-06-25 16:19:40
空调“铝代铜”争议持续发酵 格力、松下、海尔三家立场清晰

空调“铝代铜”争议持续发酵 格力、松下、海尔三家立场清晰

鳌头财经
2026-06-23 17:41:39
乌法炼油综合体被炸!百年难遇之机即将到来,莫要放过当历史罪人

乌法炼油综合体被炸!百年难遇之机即将到来,莫要放过当历史罪人

鹰眼Defence
2026-06-25 18:09:49
2026-06-25 23:47:00
贝壳财经 incentive-icons
贝壳财经
新京报旗下财经品牌
66328文章数 14040关注度
往期回顾 全部

科技要闻

存储成本压力山大!苹果罕见全球提价

头条要闻

男子徒手抓蛇被咬还淡定合影 结果历经4次抢救两进ICU

头条要闻

男子徒手抓蛇被咬还淡定合影 结果历经4次抢救两进ICU

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

又有纸尿裤送检后被检测出甲酰胺!

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

游戏
本地
教育
数码
军事航空

R星官方确认《GTA6》没光盘!且实体版数量有限

本地新闻

2026世界杯全勤太难?这份保姆级攻略请收好

教育要闻

暑假不补课,补“学习力”——为什么说暑假是ADHD孩子能力提升的最佳窗口?

数码要闻

消息称OLED屏幕iPad mini面板开始量产,预计年底前发布

军事要闻

特朗普:现在到了关注朝鲜问题的时候了

无障碍浏览 进入关怀版