网易首页 > 网易号 > 正文 申请入驻

DeepSeek开源的新东西到底强在哪?我帮你找专家问了问

0
分享至



本周,DeepSeek 新开源的 DeepSeek-OCR 在开源社区的热度持续发酵。

人们兴奋的点是:它不仅是一款新的光学字符识别模型,还更像是一次对 “ 大模型记忆机制 ” 的重新设计。

在 DeepSeek-OCR 的架构中,图像不再只是文字的载体,而是成为一种语义压缩的中间语言。文字被渲染成图像后,经由 DeepEncoder 转换为紧凑的视觉表征;这些视觉 token 既可以通过 DeepSeek 3B-MoE 模型还原为原始文本(这也是标准的 OCR 机制),也可以与其他输入 token 与 prompt 结合,执行问答、摘要、检索等复杂任务。

通俗来说,就是我们可以把大量文字打包压缩成一张图片来节省空间,等需要使用的时候再解压出来,甚至在一部分使用场景中,你甚至不需要解压,直接用压缩包就可以达成目的。



DeepSeek-OCR 模型架构。图源:
https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

即便在 10× 压缩比的条件下,模型的文本还原精度仍可达 97%。随着大模型逐渐向越来越复杂的场景嵌入,上下文长度资源远不够用甚至越来越不够用,而基座模型在此参数上升级颇为缓慢的当下,DeepSeek-OCR 的发布瞬间带来很大的想象空间。

研究团队甚至还进一步提出 “ 遗忘机制 ” 的构想,模型可依据信息的 “ 时序远近 ”,在视觉压缩阶段主动衰减细节,从而实现一种类人记忆式的上下文管理。

那么,视觉 token 为何能在信息量不损失太多的情况下,比文本 token 少一个数量级?模型记忆能否完全用视觉逻辑来替代?DeepSeek-OCR 是否为解决大模型上下文长度受限的问题提供了一条现实可行的途径?DeepSeek-OCR 反映了多模态大模型的什么发展趋势?

带着这些问题,知危与 Sand.ai 联合创始人、首席科学家、《 Swin Transformer 》作者张拯进行了简单的对话。

知危:

同一段输入,为什么视觉 token 可以比文本 token 的数量少得多,有没有直观或本质的解释?

张拯:

有两种观点。第一种,视觉是一个 2D 表达,因此可以比 1D 的表达更高效。

第二种,高效的原因不是视觉 v.s. 文本,而是两边采用的 token 表达方式不同:做视觉表达的时候,我们是在一个高维的连续空间中做信息压缩( 把 image patch 映射为一个高维特征 ),之前 LLM 里常用的 tokenizer( 把文本数据向量化的工具,通俗理解是一种把自然语言翻译为机器能理解的语言的工具 )则实际上可以被认为是在一个一维空间中做压缩( 把文本映射为 id )。高维连续空间本来就有更好的表达能力,因此可以用更少的 token 数量来表达更多信息。其实文本也可以做成连续表达,来大幅度减少文本 token,但是目前应该没有被很广泛地用到 LLM 里。

这两种观点,我 buy-in 第二种。

知危:

DeepSeek-OCR 相比过往的 OCR 模型,除了效率提升方面,还有哪些独创性?

张拯:

我最近没有特别研究过 OCR 模型的进展,但基于我看过的一些信息,我觉得 DeepSeek-OCR 的技术本身好像并没有非常特别的部分。但是在观点上,“ 把视觉作为文本长上下文的压缩介质 ”,这个 idea 还是很棒的。这个 idea 有路线上的启发意义,相较于现在的多模态模型,DeepSeek-OCR 会使用两种不同的 tokenizer 机制,这种路线也许会启发更好的多模态模型设计方案。

知危:

这项技术对于基础模型上下文长度难以扩展的当下,可以带来多大的成本效益?对上下文工程的优化有哪些好处?

张拯:

理论上最多能拿到 N^2 倍的收益,N 是 Vision Token 相较于 Text Token 的压缩率。对于上下文工程的优化,最大的好处应该就是不用那么仔细地管理上下文长度了。

知危:

DeepSeek 设想的遗忘机制是否过于简化?忽略了语义的重要性排序?

张拯:

这种设想肯定还是很初步的,但是也能脑洞出很多改进的空间,比如语义重要的部分可以渲染成更大的字体?

知危:

Andrej Karpathy 认为视觉 token 有潜力可以完全替代文本 token,因为信息压缩、多模态、可双向注意力处理、无需 tokenizer 等优势,您怎么看?

张拯:

大部分都同意,但是 “ 可双向注意力处理 ” 这里有待探讨,“ 可双向注意力处理 ” 很大程度上和 training objective( 训练目标 )有关。

另外,如果后面都是处理视觉 token 了,是不是有机会让模型能在一个 2D 的空间里做思考?从而带来更高效的推理( 类似 GPT-4o 的 thinking with image )?这个我觉得还是挺有意思的。

知危:近期 Meta 也提出了一个无需 tokenizer 的模型架构 Byte Latent Transformer ,可以跳过 tokenization ,直接学习原始字节流。结合以上讨论和领域现状,您认为这体现了多模态大模型的哪些发展趋势?

张拯:

宏观一点来看,不同模态模型的范式还是有机会持续进化的。

更细节一点的话,我初步想到的有两个:

  • 现在的多模态大模型的主流做法基本上可以认为在捏合各种不同的模态的模块,整个训练 pipeline 其实还是有点复杂( 不优雅 )的。大家肯定希望有更简单、更统一的方式来处理。类似 DeepSeek-OCR 这样的工作对我们开发更好的多模态模型范式还是挺有启发的。
  • 离散表达和连续表达之间的关系,以及是否有更好的组合方式,可能也挺重要的。

( 对话全文完 )

总体来看,DeepSeek-OCR 更多是基于效率上的大幅提升启发了一个新的路线。

当模型的 “ 思考空间 ” 从一维文本拓展至二维视觉,思考和推理也可能变得更加高效和简洁。而在技术层面,则指向当前多模态大模型领域正等待一把 “ 奥卡姆剃刀 ” 简化模型范式的时刻。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
震惊!陈丽华葬礼现场,迟重瑞以“当家人”姿态,排在队伍第一位

震惊!陈丽华葬礼现场,迟重瑞以“当家人”姿态,排在队伍第一位

火山詩话
2026-04-09 15:51:43
向比亚迪、小米等发起冲击!大众启动在华最大规模电动化攻势 平均每两周一款新车上市

向比亚迪、小米等发起冲击!大众启动在华最大规模电动化攻势 平均每两周一款新车上市

快科技
2026-04-08 09:29:10
郑丽文的婚姻:女主外男主内,不生育孩子,事业理想置于家庭之上

郑丽文的婚姻:女主外男主内,不生育孩子,事业理想置于家庭之上

芳芳历史烩
2026-04-08 16:28:15
全球第一针逆龄针已注射人体,OSK重编程细胞返老还童!

全球第一针逆龄针已注射人体,OSK重编程细胞返老还童!

时光派长寿观察
2026-04-09 17:48:51
穆杰塔巴·哈梅内伊发文

穆杰塔巴·哈梅内伊发文

南方都市报
2026-04-09 23:10:07
F-15飞行员跳伞情报外泄,美国内鬼被抓

F-15飞行员跳伞情报外泄,美国内鬼被抓

桂系007
2026-04-09 23:59:42
零缓冲!全国一刀切!6月1日起,车主自己去车管所“横着走”!

零缓冲!全国一刀切!6月1日起,车主自己去车管所“横着走”!

混沌录
2026-04-07 22:00:19
消息称雅迪强制OTA致大量车辆锁死,官方回应

消息称雅迪强制OTA致大量车辆锁死,官方回应

DoNews
2026-04-08 18:52:07
中纪委:禁止机关事业单位在编职工去做这几种副业!

中纪委:禁止机关事业单位在编职工去做这几种副业!

细说职场
2026-04-09 15:34:47
张雪公布自己设计的跨界踏板车设计图,最新回应:正在制作踏板摩托,这款踏板偏运动越野风格,售价可能比传统的贵一点

张雪公布自己设计的跨界踏板车设计图,最新回应:正在制作踏板摩托,这款踏板偏运动越野风格,售价可能比传统的贵一点

鲁中晨报
2026-04-07 17:13:05
迟先生哭了 ,陈丽华追悼会现场,儿子儿媳接待众人,孙子罕见露面

迟先生哭了 ,陈丽华追悼会现场,儿子儿媳接待众人,孙子罕见露面

生性洒脱
2026-04-10 00:28:01
米切尔单节44分炸场,骑士用一节球把老鹰打懵

米切尔单节44分炸场,骑士用一节球把老鹰打懵

体坛观察猿
2026-04-09 19:45:43
曝台湾省歌手费玉清现状曝光!无儿无女,和女闺蜜互相解决需求

曝台湾省歌手费玉清现状曝光!无儿无女,和女闺蜜互相解决需求

小徐讲八卦
2026-04-02 07:51:08
终于出手!委内瑞拉代总统正式宣布:5月1日起全国迎来上调

终于出手!委内瑞拉代总统正式宣布:5月1日起全国迎来上调

斜烟风起雨未
2026-04-10 04:37:05
“解冻是真实的”!中方证实:5年多来首次访华

“解冻是真实的”!中方证实:5年多来首次访华

第一财经资讯
2026-04-09 14:49:20
原来她已去世4年,曾穿旗袍满身帝王绿,300间商铺345套房随便住

原来她已去世4年,曾穿旗袍满身帝王绿,300间商铺345套房随便住

混沌录
2026-04-09 18:24:16
赛季报销!新疆官宣阿不都跖骨骨折 多主力受伤大概率无缘季后赛

赛季报销!新疆官宣阿不都跖骨骨折 多主力受伤大概率无缘季后赛

醉卧浮生
2026-04-09 19:50:32
女子假信佛与多位高僧发生不当关系,秘密录制5600段视频。

女子假信佛与多位高僧发生不当关系,秘密录制5600段视频。

特约前排观众
2026-02-09 00:05:05
奉陪到底,中方专机抵朝前,朝鲜亮出集束弹头,日韩防长紧急通话

奉陪到底,中方专机抵朝前,朝鲜亮出集束弹头,日韩防长紧急通话

共工之锚
2026-04-10 01:25:50
汤姆·哈迪带老婆海滩放风!穿“毒液短裤”裸上身,身材明显发福

汤姆·哈迪带老婆海滩放风!穿“毒液短裤”裸上身,身材明显发福

星野娱乐天地
2026-04-09 21:35:10
2026-04-10 07:47:00
知危 incentive-icons
知危
投资不立危墙之下
558文章数 1835关注度
往期回顾 全部

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

头条要闻

伊朗最高领袖发表最新声明 提出三点主张

头条要闻

伊朗最高领袖发表最新声明 提出三点主张

体育要闻

8万人面前心脏骤停 现在他还站在球场上

娱乐要闻

金莎官宣结婚 与老公孙丞潇相差18岁

财经要闻

停火又悬了,最糟糕的情况要来了?

汽车要闻

文飞掌舵,给神行者带来了什么?

态度原创

艺术
游戏
数码
房产
公开课

艺术要闻

这位清末大家,笔下尽是江南风骨!

Xbox手柄重大失误!微软补偿方案出炉堪称豪华

数码要闻

华为多款新品在路上:Pura 90、阔折叠、AI眼镜、平板耳机全都有

房产要闻

利润暴跌44%!那个春节被骂惨了的海峡股份 正在经历什么?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版