网易首页 > 网易号 > 正文 申请入驻

DeepSeek又发新论文:让AI用“人类思维”理解图像

0
分享至

2026开年未满一个月,DeepSeek就发布了两篇创始人梁文锋署名的论文——元旦抛出mHC架构论文破解模型稳定性难题,月中又靠Engram论文提出 “静态知识存为可检索记忆表”的新思路。

1月27日,DeepSeek开源模型DeepSeek-OCR 2(其核心定位为处理静态图像)并同步发布论文《DeepSeek-OCR 2: Visual Causal Flow(直译为“视觉因果流”)》。新京报贝壳财经记者浏览论文发现,视觉因果流机制可使模型不再像扫描仪一样按像素顺序“扫图”,而是能够像人类阅读一样,依据语义和逻辑关系理解图像内容,从而显著提升其在表格、文档和公式等复杂结构场景中的识别与理解效果。


DeepSeek最新论文在github平台上的截图

不是模型不够强,而是看图的顺序不对

长期以来,主流视觉语言模型在处理图像时,普遍采用固定的像素扫描顺序。将图像切分为若干视觉单元后,按照从左到右、从上到下的方式输入模型。这种方式在自然图片中尚能发挥作用,但在表格、多栏文档、技术资料和数学公式等结构化内容中,却暴露出明显局限。

在这些场景下,信息之间往往存在清晰的语义层级和逻辑依赖,例如标题与正文、行名与数值、主公式与注释等。然而,固定的空间顺序无法反映这些关系,导致模型虽然能够识别局部文字,却难以还原整体结构,从而影响后续理解与推理效果。

随着模型规模不断扩大,这一问题并未得到根本解决。研究者逐渐意识到,性能瓶颈并不完全源于参数数量或算力不足,而在于视觉信息被组织和输入模型的方式本身。换言之,模型“看得见”,但“怎么看”才是关键。DeepSeek-OCR 2 正是在这一背景下提出,它尝试从根本上调整模型对图像的理解路径,而不是继续依赖更大的模型规模来弥补结构理解的不足。

先理清关系,再让模型去“理解”

在此背景下,DeepSeek-OCR 2的核心创新在于提出“视觉因果流”机制,使模型不再机械地按像素顺序处理图像,而是根据语义和逻辑关系动态组织视觉信息。在具体实现上,模型在视觉编码阶段引入语义与因果感知能力,通过改进的视觉编码器,对不同视觉单元之间的依赖关系进行建模,判断哪些信息在理解上具有先行性,哪些内容是对前者的补充或延展。

基于这种判断,模型会对视觉token进行动态重排,并结合可重组的位置编码,将结构更加清晰的序列输入语言模型。这样,语言模型在生成和推理阶段接收到的,不再是杂乱无序的像素序列,而是一条更接近人类阅读习惯的“理解路径”。研究团队将这一过程概括为“视觉因果流”,即图像中隐含的语义理解顺序。

实验结果表明,该机制在表格解析、多栏文档理解和公式识别等任务中表现突出,相较于前代 DeepSeek-OCR,整体性能提升 3.73%,阅读顺序(R-order)的编辑距离(ED)也显著降低(从0.085降至0.057),这表明新的DeepEncoder V2能够根据图像信息有效地选择和排列初始视觉标记。

论文最后表示,尽管光学字符识别,尤其是文档解析,是大模型时代最具实用价值的视觉任务之一,但它只是更广泛视觉理解版图中的一部分。未来,相关架构还将持续优化并拓展至更多复杂场景,进一步探索多模态智能在更深层次视觉理解中的潜力。

新京报贝壳财经记者 罗亦丹 实习生 郭雯华

编辑 王进雨

校对 薛京宁

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
南京地铁1号线发生故障,乘客步行下站,目前全段已恢复

南京地铁1号线发生故障,乘客步行下站,目前全段已恢复

大象新闻
2026-03-18 10:40:12
老年人的性生活多久一次合理?要戴套吗?答案颠覆认知

老年人的性生活多久一次合理?要戴套吗?答案颠覆认知

贱议你读史
2026-03-06 23:28:50
山西一副县长受贿数百万,察觉被调查后密集退还受贿款

山西一副县长受贿数百万,察觉被调查后密集退还受贿款

创作者_IE2295
2026-03-18 08:54:23
浙江男子花88元买彩票中748万:暂时不告诉两个孩子,不想让他们觉得人生可以通过中大奖走捷径

浙江男子花88元买彩票中748万:暂时不告诉两个孩子,不想让他们觉得人生可以通过中大奖走捷径

扬子晚报
2026-03-17 07:29:41
一年亏损四千万,全国陷“关停潮”!苦苦支撑的公交,还能走多远

一年亏损四千万,全国陷“关停潮”!苦苦支撑的公交,还能走多远

青眼财经
2026-03-17 15:08:21
赵匡胤小舅子:四年吃掉100多女子,赵匡胤袒护,赵光义怒斩

赵匡胤小舅子:四年吃掉100多女子,赵匡胤袒护,赵光义怒斩

爆史君带你读历史
2026-03-17 21:32:47
太惊人了!忘了上螺丝,零跑车主一家三口高速险酿悲剧

太惊人了!忘了上螺丝,零跑车主一家三口高速险酿悲剧

中国能源网
2026-03-15 15:24:03
广东老人菜地挖出“淮山手”,这哪是山药,就是地里长出的“手”

广东老人菜地挖出“淮山手”,这哪是山药,就是地里长出的“手”

阿天爱旅行
2026-03-18 09:21:17
若霍尔木兹被掐断,中国会断油吗?

若霍尔木兹被掐断,中国会断油吗?

舆图司马
2026-03-18 13:00:03
开战16天!以色列怕了!

开战16天!以色列怕了!

大嘴说天下
2026-03-15 20:16:07
双标!反战高官痛骂美国打伊朗,却力挺俄罗斯侵乌,嘴脸太真实

双标!反战高官痛骂美国打伊朗,却力挺俄罗斯侵乌,嘴脸太真实

老马拉车莫少装
2026-03-17 22:30:09
何音喜迎59岁生日,梳双马尾娇俏似少女,儿子比爸爸黄志忠帅多了

何音喜迎59岁生日,梳双马尾娇俏似少女,儿子比爸爸黄志忠帅多了

章眽八卦
2026-03-18 10:34:15
4月搞钱最猛的4个星座女,真的藏不住了

4月搞钱最猛的4个星座女,真的藏不住了

朗威谈星座
2026-03-18 13:51:07
曾志回忆:毛主席选择和贺子珍离婚,背后有一般人难以理解的苦衷

曾志回忆:毛主席选择和贺子珍离婚,背后有一般人难以理解的苦衷

明月清风阁
2026-03-18 13:10:08
水果也塌房了,央视曝光4大假水果骗局,越看越害怕,你还敢吃吗

水果也塌房了,央视曝光4大假水果骗局,越看越害怕,你还敢吃吗

叮当当科技
2026-03-18 12:06:36
WTI原油失守92美元/桶,日内跌3.77%

WTI原油失守92美元/桶,日内跌3.77%

每日经济新闻
2026-03-18 13:44:12
拉里贾尼遇袭身亡,空袭后的废墟现场疑曝光

拉里贾尼遇袭身亡,空袭后的废墟现场疑曝光

新浪财经
2026-03-18 10:50:48
60亿债务压顶,贱卖豪车,拍蒜失败的“张小泉”晚节不保

60亿债务压顶,贱卖豪车,拍蒜失败的“张小泉”晚节不保

毒sir财经
2026-02-17 17:30:51
入日籍嫁日本丈夫,击败邓亚萍大喊吆西的她,如今竟想回上海养老

入日籍嫁日本丈夫,击败邓亚萍大喊吆西的她,如今竟想回上海养老

秋姐居
2026-03-18 10:02:17
《我的山与海》大结局:赵俊回神仙顶创业,方婉之给何永旺养老

《我的山与海》大结局:赵俊回神仙顶创业,方婉之给何永旺养老

丁丁鲤史纪
2026-03-18 10:43:10
2026-03-18 15:04:50
贝壳财经 incentive-icons
贝壳财经
新京报旗下财经品牌
62089文章数 13975关注度
往期回顾 全部

科技要闻

直连微信!腾讯QClaw宣布大规模放量

头条要闻

拉里贾尼被"斩首"细节披露:德黑兰居民提供情报

头条要闻

拉里贾尼被"斩首"细节披露:德黑兰居民提供情报

体育要闻

晋级2026世界杯,这届中国女篮啥水平?

娱乐要闻

郑恺苗苗晒全家福 首次公开三胎小女儿

财经要闻

“永不爆雷的宇宙大所”掌门人,自首了

汽车要闻

价格10万级 四驱中级电混轿车银河星耀7来了

态度原创

时尚
教育
本地
公开课
军事航空

每年只等这一个月穿风衣

教育要闻

初中英语很好,高中学得道心破碎了,到底怎么学啊?

本地新闻

春色满城关不住|粉色浪漫已至,来宁波共赏樱花雨

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

拉里贾尼生死罗生门:以军称其身亡 他本人社媒账号发信

无障碍浏览 进入关怀版