网易首页 > 网易号 > 正文 申请入驻

DeepSeek又发新论文:让AI用“人类思维”理解图像

0
分享至

2026开年未满一个月,DeepSeek就发布了两篇创始人梁文锋署名的论文——元旦抛出mHC架构论文破解模型稳定性难题,月中又靠Engram论文提出 “静态知识存为可检索记忆表”的新思路。

1月27日,DeepSeek开源模型DeepSeek-OCR 2(其核心定位为处理静态图像)并同步发布论文《DeepSeek-OCR 2: Visual Causal Flow(直译为“视觉因果流”)》。新京报贝壳财经记者浏览论文发现,视觉因果流机制可使模型不再像扫描仪一样按像素顺序“扫图”,而是能够像人类阅读一样,依据语义和逻辑关系理解图像内容,从而显著提升其在表格、文档和公式等复杂结构场景中的识别与理解效果。


DeepSeek最新论文在github平台上的截图

不是模型不够强,而是看图的顺序不对

长期以来,主流视觉语言模型在处理图像时,普遍采用固定的像素扫描顺序。将图像切分为若干视觉单元后,按照从左到右、从上到下的方式输入模型。这种方式在自然图片中尚能发挥作用,但在表格、多栏文档、技术资料和数学公式等结构化内容中,却暴露出明显局限。

在这些场景下,信息之间往往存在清晰的语义层级和逻辑依赖,例如标题与正文、行名与数值、主公式与注释等。然而,固定的空间顺序无法反映这些关系,导致模型虽然能够识别局部文字,却难以还原整体结构,从而影响后续理解与推理效果。

随着模型规模不断扩大,这一问题并未得到根本解决。研究者逐渐意识到,性能瓶颈并不完全源于参数数量或算力不足,而在于视觉信息被组织和输入模型的方式本身。换言之,模型“看得见”,但“怎么看”才是关键。DeepSeek-OCR 2 正是在这一背景下提出,它尝试从根本上调整模型对图像的理解路径,而不是继续依赖更大的模型规模来弥补结构理解的不足。

先理清关系,再让模型去“理解”

在此背景下,DeepSeek-OCR 2的核心创新在于提出“视觉因果流”机制,使模型不再机械地按像素顺序处理图像,而是根据语义和逻辑关系动态组织视觉信息。在具体实现上,模型在视觉编码阶段引入语义与因果感知能力,通过改进的视觉编码器,对不同视觉单元之间的依赖关系进行建模,判断哪些信息在理解上具有先行性,哪些内容是对前者的补充或延展。

基于这种判断,模型会对视觉token进行动态重排,并结合可重组的位置编码,将结构更加清晰的序列输入语言模型。这样,语言模型在生成和推理阶段接收到的,不再是杂乱无序的像素序列,而是一条更接近人类阅读习惯的“理解路径”。研究团队将这一过程概括为“视觉因果流”,即图像中隐含的语义理解顺序。

实验结果表明,该机制在表格解析、多栏文档理解和公式识别等任务中表现突出,相较于前代 DeepSeek-OCR,整体性能提升 3.73%,阅读顺序(R-order)的编辑距离(ED)也显著降低(从0.085降至0.057),这表明新的DeepEncoder V2能够根据图像信息有效地选择和排列初始视觉标记。

论文最后表示,尽管光学字符识别,尤其是文档解析,是大模型时代最具实用价值的视觉任务之一,但它只是更广泛视觉理解版图中的一部分。未来,相关架构还将持续优化并拓展至更多复杂场景,进一步探索多模态智能在更深层次视觉理解中的潜力。

新京报贝壳财经记者 罗亦丹 实习生 郭雯华

编辑 王进雨

校对 薛京宁

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
再次表达不满,许利民:球队有脓包必须切除,解决了才有希望

再次表达不满,许利民:球队有脓包必须切除,解决了才有希望

懂球帝
2026-01-28 23:03:15
出卖信任的刀,最终刺向了谁?汇丰银行为孟晚舟事件付出惊人代价

出卖信任的刀,最终刺向了谁?汇丰银行为孟晚舟事件付出惊人代价

一曲一场談
2026-01-28 17:47:47
“流氓有文化更可怕”,退休老干部频繁联系女幼师,聊天记录曝光

“流氓有文化更可怕”,退休老干部频繁联系女幼师,聊天记录曝光

妍妍教育日记
2026-01-27 19:58:28
5天4个大瓜!涉毒、代孕、偷税漏税、代言暴雷,郭晶晶也“遭殃”

5天4个大瓜!涉毒、代孕、偷税漏税、代言暴雷,郭晶晶也“遭殃”

叨唠
2026-01-28 05:50:07
牢A命中,被一窝端16人都是女留学生

牢A命中,被一窝端16人都是女留学生

雪中风车
2026-01-28 13:23:54
别再尬演情妇了,脸肿嘴歪,强行装嫩,这是迷倒男人该有的皮囊?

别再尬演情妇了,脸肿嘴歪,强行装嫩,这是迷倒男人该有的皮囊?

查尔菲的笔记
2026-01-28 13:09:51
U23亚洲杯刚结束第4天,李昊终于得到公平待遇,亚足联官方被打脸

U23亚洲杯刚结束第4天,李昊终于得到公平待遇,亚足联官方被打脸

侃球熊弟
2026-01-29 00:05:03
董明珠卸任仅2天,停职审查、转移资产、办公室恋情,哪个是真的

董明珠卸任仅2天,停职审查、转移资产、办公室恋情,哪个是真的

离离言几许
2026-01-28 20:47:56
欧冠3-2,阿森纳8连胜,头名晋级淘汰赛,哲凯赖什、哈弗茨传射建功

欧冠3-2,阿森纳8连胜,头名晋级淘汰赛,哲凯赖什、哈弗茨传射建功

侧身凌空斩
2026-01-29 05:52:21
2026年反腐力度加大,退休多年照样被查,官至副国级也难逃法网

2026年反腐力度加大,退休多年照样被查,官至副国级也难逃法网

李昕言温度空间
2026-01-28 23:18:11
官方通报“3元加面纠纷”事件:商家行为涉嫌违反《价格法》

官方通报“3元加面纠纷”事件:商家行为涉嫌违反《价格法》

封面新闻
2026-01-28 19:55:02
阿富汗塔利班恢复奴隶制?

阿富汗塔利班恢复奴隶制?

孙晓宇
2026-01-28 14:18:17
牢A居然连“法律面前人人平等”都要推翻?

牢A居然连“法律面前人人平等”都要推翻?

非典型佛教徒
2026-01-29 00:02:20
20年来首次!特朗普发现:亚洲刺头不止中国一个,美5年阴谋泡汤

20年来首次!特朗普发现:亚洲刺头不止中国一个,美5年阴谋泡汤

军机Talk
2026-01-28 14:26:48
性行为缺失会促癌?华中大最新:性行为缺失会削弱抗癌免疫力,保持性行为则有利于抗癌

性行为缺失会促癌?华中大最新:性行为缺失会削弱抗癌免疫力,保持性行为则有利于抗癌

医诺维
2026-01-26 17:02:36
涉及133亿!深圳水贝一珠宝平台疑卷款跑路,大量投资客欲哭无泪

涉及133亿!深圳水贝一珠宝平台疑卷款跑路,大量投资客欲哭无泪

火山诗话
2026-01-28 14:36:53
“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

路医生健康科普
2026-01-28 12:18:49
万科原董事长郁亮失联

万科原董事长郁亮失联

地产微资讯
2026-01-28 10:28:07
中国甩出“王炸”!5000万人直接改命!已进入最后倒计时

中国甩出“王炸”!5000万人直接改命!已进入最后倒计时

毛豆论道
2026-01-27 17:51:43
补贴一停,销量归零,不是危言耸听,恰是中国电车的真相!

补贴一停,销量归零,不是危言耸听,恰是中国电车的真相!

柏铭锐谈
2026-01-28 09:27:02
2026-01-29 07:24:49
贝壳财经 incentive-icons
贝壳财经
新京报旗下财经品牌
60322文章数 13943关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

中国代表:支持伊朗国家稳定 武力解决不了问题

头条要闻

中国代表:支持伊朗国家稳定 武力解决不了问题

体育要闻

没天赋的CBA第一小前锋,秘诀只有一个字

娱乐要闻

金子涵拉黑蔡徐坤,蔡徐坤工作室回应

财经要闻

从万科退休20天后,郁亮疑似失联

汽车要闻

新手必看!冰雪路面不敢开?记住这4点 关键时刻真能保命

态度原创

家居
本地
数码
房产
手机

家居要闻

跃式别墅 包络石木为生

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

数码要闻

荣耀平板新春版本今启推送,升级计划公布

房产要闻

实景兑现在即!绿城,在海棠湾重新定义终极旅居想象!

手机要闻

HyperOS 3.1淘汰名单:REDMI K60、POCO F5在列,有你的手机吗

无障碍浏览 进入关怀版