网易首页 > 网易号 > 正文 申请入驻

DeepSeek又发新论文:让AI用“人类思维”理解图像

0
分享至

2026开年未满一个月,DeepSeek就发布了两篇创始人梁文锋署名的论文——元旦抛出mHC架构论文破解模型稳定性难题,月中又靠Engram论文提出 “静态知识存为可检索记忆表”的新思路。

1月27日,DeepSeek开源模型DeepSeek-OCR 2(其核心定位为处理静态图像)并同步发布论文《DeepSeek-OCR 2: Visual Causal Flow(直译为“视觉因果流”)》。新京报贝壳财经记者浏览论文发现,视觉因果流机制可使模型不再像扫描仪一样按像素顺序“扫图”,而是能够像人类阅读一样,依据语义和逻辑关系理解图像内容,从而显著提升其在表格、文档和公式等复杂结构场景中的识别与理解效果。


DeepSeek最新论文在github平台上的截图

不是模型不够强,而是看图的顺序不对

长期以来,主流视觉语言模型在处理图像时,普遍采用固定的像素扫描顺序。将图像切分为若干视觉单元后,按照从左到右、从上到下的方式输入模型。这种方式在自然图片中尚能发挥作用,但在表格、多栏文档、技术资料和数学公式等结构化内容中,却暴露出明显局限。

在这些场景下,信息之间往往存在清晰的语义层级和逻辑依赖,例如标题与正文、行名与数值、主公式与注释等。然而,固定的空间顺序无法反映这些关系,导致模型虽然能够识别局部文字,却难以还原整体结构,从而影响后续理解与推理效果。

随着模型规模不断扩大,这一问题并未得到根本解决。研究者逐渐意识到,性能瓶颈并不完全源于参数数量或算力不足,而在于视觉信息被组织和输入模型的方式本身。换言之,模型“看得见”,但“怎么看”才是关键。DeepSeek-OCR 2 正是在这一背景下提出,它尝试从根本上调整模型对图像的理解路径,而不是继续依赖更大的模型规模来弥补结构理解的不足。

先理清关系,再让模型去“理解”

在此背景下,DeepSeek-OCR 2的核心创新在于提出“视觉因果流”机制,使模型不再机械地按像素顺序处理图像,而是根据语义和逻辑关系动态组织视觉信息。在具体实现上,模型在视觉编码阶段引入语义与因果感知能力,通过改进的视觉编码器,对不同视觉单元之间的依赖关系进行建模,判断哪些信息在理解上具有先行性,哪些内容是对前者的补充或延展。

基于这种判断,模型会对视觉token进行动态重排,并结合可重组的位置编码,将结构更加清晰的序列输入语言模型。这样,语言模型在生成和推理阶段接收到的,不再是杂乱无序的像素序列,而是一条更接近人类阅读习惯的“理解路径”。研究团队将这一过程概括为“视觉因果流”,即图像中隐含的语义理解顺序。

实验结果表明,该机制在表格解析、多栏文档理解和公式识别等任务中表现突出,相较于前代 DeepSeek-OCR,整体性能提升 3.73%,阅读顺序(R-order)的编辑距离(ED)也显著降低(从0.085降至0.057),这表明新的DeepEncoder V2能够根据图像信息有效地选择和排列初始视觉标记。

论文最后表示,尽管光学字符识别,尤其是文档解析,是大模型时代最具实用价值的视觉任务之一,但它只是更广泛视觉理解版图中的一部分。未来,相关架构还将持续优化并拓展至更多复杂场景,进一步探索多模态智能在更深层次视觉理解中的潜力。

新京报贝壳财经记者 罗亦丹 实习生 郭雯华

编辑 王进雨

校对 薛京宁

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
几轮博弈后,特朗普认清现实,美媒警告:中国远比想象强大的多!

几轮博弈后,特朗普认清现实,美媒警告:中国远比想象强大的多!

深析古今
2026-05-11 15:10:49
陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

杰丝聊古今
2026-05-03 13:35:27
武大余思月“我妈有两个老公”文案引愤怒,中广协痛批,武大回应

武大余思月“我妈有两个老公”文案引愤怒,中广协痛批,武大回应

影像温度
2026-05-10 19:54:25
颜宁不懂为何网友质疑她吗?其实她心里很清楚,只是不愿接受

颜宁不懂为何网友质疑她吗?其实她心里很清楚,只是不愿接受

明眼人谈教育
2026-05-10 08:30:03
中纪委连发禁令:机关事业单位职工注意,这7种饭局一参加就出局

中纪委连发禁令:机关事业单位职工注意,这7种饭局一参加就出局

细说职场
2026-05-10 09:55:02
广东入夏湿气重!要多喝这款老广靓汤,清甜润口,喝完清爽不黏腻

广东入夏湿气重!要多喝这款老广靓汤,清甜润口,喝完清爽不黏腻

房产衫哥
2026-05-10 12:11:03
57年中央为何修改“南昌起义”领导人排名?周总理:有2点不合适

57年中央为何修改“南昌起义”领导人排名?周总理:有2点不合适

春秋砚
2026-04-25 13:45:05
脱离实际的报价遭冷遇,世界杯中国转播费从3亿美元腰斩到1.5亿美元;多国转播权的不明朗形势陷入罕见僵局

脱离实际的报价遭冷遇,世界杯中国转播费从3亿美元腰斩到1.5亿美元;多国转播权的不明朗形势陷入罕见僵局

大风新闻
2026-05-10 15:28:26
特朗普访华前再对中方“狮子大开口”,这招现在不灵了

特朗普访华前再对中方“狮子大开口”,这招现在不灵了

孤单是寂寞的毒
2026-05-11 14:17:16
印军“辛杜尔行动”战果猛涨:11个巴机场被炸,13架飞机毁在地面?

印军“辛杜尔行动”战果猛涨:11个巴机场被炸,13架飞机毁在地面?

惊视
2026-05-11 13:26:34
美国一人汉坦病毒检测呈阳性,疫苗研发已启动,谭德塞发出警告

美国一人汉坦病毒检测呈阳性,疫苗研发已启动,谭德塞发出警告

中国网
2026-05-11 14:08:15
英国成伊斯兰国家了?斯塔默宣布:穆斯林是现代英国的标志性面孔

英国成伊斯兰国家了?斯塔默宣布:穆斯林是现代英国的标志性面孔

番外行
2026-05-11 08:50:52
朝鲜姑娘怀孕,查明是志愿军营长所为,彭总得知后批示8个字

朝鲜姑娘怀孕,查明是志愿军营长所为,彭总得知后批示8个字

元哥说历史
2026-04-26 11:40:03
职称要倒查十年了

职称要倒查十年了

新浪财经
2026-05-10 14:14:04
与申敏儿10年恋修正果!金宇彬甜曝新婚日常「每天必做这事」

与申敏儿10年恋修正果!金宇彬甜曝新婚日常「每天必做这事」

ETtoday星光云
2026-05-11 12:18:05
心脏有没有病睡觉就知道?心脏不好的人,晚上睡觉一般有4个异常

心脏有没有病睡觉就知道?心脏不好的人,晚上睡觉一般有4个异常

芹姐说生活
2026-05-11 14:11:34
中芯国际406亿并购今日上会!

中芯国际406亿并购今日上会!

EETOP半导体社区
2026-05-11 12:11:24
“你要收费我就卸载”,全网最离不开的AI不装了,口碑大反转

“你要收费我就卸载”,全网最离不开的AI不装了,口碑大反转

果壳
2026-05-09 12:33:57
孙铭徽什么时候复出?王博给出了1个答案!

孙铭徽什么时候复出?王博给出了1个答案!

体育哲人
2026-05-11 09:47:11
孙颖莎在本次伦敦世乒赛的表现,彻底宣告自己登顶女子乒坛。

孙颖莎在本次伦敦世乒赛的表现,彻底宣告自己登顶女子乒坛。

小光侃娱乐
2026-05-11 15:00:05
2026-05-11 15:52:49
贝壳财经 incentive-icons
贝壳财经
新京报旗下财经品牌
64400文章数 14013关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

媒体:中美元首即将北京会晤 美方一细节耐人寻味

头条要闻

媒体:中美元首即将北京会晤 美方一细节耐人寻味

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

"手搓汽车"曝光:伪造证件、电池以旧代新

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

教育
家居
数码
手机
艺术

教育要闻

鸡娃放养,都不如养个“晨型人格”的孩子,他会自信又自律

家居要闻

多元生活 此处无声

数码要闻

努比亚推出GT Buds耳机:支持35dB降噪,269元

手机要闻

华为Mate 80系列卖爆:销量逼近600万大关 史上最火Mate实至名归

艺术要闻

陆抑非写竹,笔力遒劲

无障碍浏览 进入关怀版