网易首页 > 网易号 > 正文 申请入驻

DeepSeek开源的新东西到底强在哪?我帮你找专家问了问

0
分享至



本周,DeepSeek 新开源的 DeepSeek-OCR 在开源社区的热度持续发酵。

人们兴奋的点是:它不仅是一款新的光学字符识别模型,还更像是一次对 “ 大模型记忆机制 ” 的重新设计。

在 DeepSeek-OCR 的架构中,图像不再只是文字的载体,而是成为一种语义压缩的中间语言。文字被渲染成图像后,经由 DeepEncoder 转换为紧凑的视觉表征;这些视觉 token 既可以通过 DeepSeek 3B-MoE 模型还原为原始文本(这也是标准的 OCR 机制),也可以与其他输入 token 与 prompt 结合,执行问答、摘要、检索等复杂任务。

通俗来说,就是我们可以把大量文字打包压缩成一张图片来节省空间,等需要使用的时候再解压出来,甚至在一部分使用场景中,你甚至不需要解压,直接用压缩包就可以达成目的。



DeepSeek-OCR 模型架构。图源:
https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

即便在 10× 压缩比的条件下,模型的文本还原精度仍可达 97%。随着大模型逐渐向越来越复杂的场景嵌入,上下文长度资源远不够用甚至越来越不够用,而基座模型在此参数上升级颇为缓慢的当下,DeepSeek-OCR 的发布瞬间带来很大的想象空间。

研究团队甚至还进一步提出 “ 遗忘机制 ” 的构想,模型可依据信息的 “ 时序远近 ”,在视觉压缩阶段主动衰减细节,从而实现一种类人记忆式的上下文管理。

那么,视觉 token 为何能在信息量不损失太多的情况下,比文本 token 少一个数量级?模型记忆能否完全用视觉逻辑来替代?DeepSeek-OCR 是否为解决大模型上下文长度受限的问题提供了一条现实可行的途径?DeepSeek-OCR 反映了多模态大模型的什么发展趋势?

带着这些问题,知危与 Sand.ai 联合创始人、首席科学家、《 Swin Transformer 》作者张拯进行了简单的对话。

知危:

同一段输入,为什么视觉 token 可以比文本 token 的数量少得多,有没有直观或本质的解释?

张拯:

有两种观点。第一种,视觉是一个 2D 表达,因此可以比 1D 的表达更高效。

第二种,高效的原因不是视觉 v.s. 文本,而是两边采用的 token 表达方式不同:做视觉表达的时候,我们是在一个高维的连续空间中做信息压缩( 把 image patch 映射为一个高维特征 ),之前 LLM 里常用的 tokenizer( 把文本数据向量化的工具,通俗理解是一种把自然语言翻译为机器能理解的语言的工具 )则实际上可以被认为是在一个一维空间中做压缩( 把文本映射为 id )。高维连续空间本来就有更好的表达能力,因此可以用更少的 token 数量来表达更多信息。其实文本也可以做成连续表达,来大幅度减少文本 token,但是目前应该没有被很广泛地用到 LLM 里。

这两种观点,我 buy-in 第二种。

知危:

DeepSeek-OCR 相比过往的 OCR 模型,除了效率提升方面,还有哪些独创性?

张拯:

我最近没有特别研究过 OCR 模型的进展,但基于我看过的一些信息,我觉得 DeepSeek-OCR 的技术本身好像并没有非常特别的部分。但是在观点上,“ 把视觉作为文本长上下文的压缩介质 ”,这个 idea 还是很棒的。这个 idea 有路线上的启发意义,相较于现在的多模态模型,DeepSeek-OCR 会使用两种不同的 tokenizer 机制,这种路线也许会启发更好的多模态模型设计方案。

知危:

这项技术对于基础模型上下文长度难以扩展的当下,可以带来多大的成本效益?对上下文工程的优化有哪些好处?

张拯:

理论上最多能拿到 N^2 倍的收益,N 是 Vision Token 相较于 Text Token 的压缩率。对于上下文工程的优化,最大的好处应该就是不用那么仔细地管理上下文长度了。

知危:

DeepSeek 设想的遗忘机制是否过于简化?忽略了语义的重要性排序?

张拯:

这种设想肯定还是很初步的,但是也能脑洞出很多改进的空间,比如语义重要的部分可以渲染成更大的字体?

知危:

Andrej Karpathy 认为视觉 token 有潜力可以完全替代文本 token,因为信息压缩、多模态、可双向注意力处理、无需 tokenizer 等优势,您怎么看?

张拯:

大部分都同意,但是 “ 可双向注意力处理 ” 这里有待探讨,“ 可双向注意力处理 ” 很大程度上和 training objective( 训练目标 )有关。

另外,如果后面都是处理视觉 token 了,是不是有机会让模型能在一个 2D 的空间里做思考?从而带来更高效的推理( 类似 GPT-4o 的 thinking with image )?这个我觉得还是挺有意思的。

知危:近期 Meta 也提出了一个无需 tokenizer 的模型架构 Byte Latent Transformer ,可以跳过 tokenization ,直接学习原始字节流。结合以上讨论和领域现状,您认为这体现了多模态大模型的哪些发展趋势?

张拯:

宏观一点来看,不同模态模型的范式还是有机会持续进化的。

更细节一点的话,我初步想到的有两个:

  • 现在的多模态大模型的主流做法基本上可以认为在捏合各种不同的模态的模块,整个训练 pipeline 其实还是有点复杂( 不优雅 )的。大家肯定希望有更简单、更统一的方式来处理。类似 DeepSeek-OCR 这样的工作对我们开发更好的多模态模型范式还是挺有启发的。
  • 离散表达和连续表达之间的关系,以及是否有更好的组合方式,可能也挺重要的。

( 对话全文完 )

总体来看,DeepSeek-OCR 更多是基于效率上的大幅提升启发了一个新的路线。

当模型的 “ 思考空间 ” 从一维文本拓展至二维视觉,思考和推理也可能变得更加高效和简洁。而在技术层面,则指向当前多模态大模型领域正等待一把 “ 奥卡姆剃刀 ” 简化模型范式的时刻。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李承德为老婆胡杏儿庆祝生日,手腕金镯抢镜,满满的幸福味道

李承德为老婆胡杏儿庆祝生日,手腕金镯抢镜,满满的幸福味道

陈意小可爱
2025-11-09 09:52:02
大势已去!录音门事件再升级,向太、李安、黄百鸣的话字字珠玑

大势已去!录音门事件再升级,向太、李安、黄百鸣的话字字珠玑

阿废冷眼观察所
2025-11-06 11:21:30
金晨穿这样,自己不尴尬的吗?不冷吗?

金晨穿这样,自己不尴尬的吗?不冷吗?

小椰的奶奶
2025-10-11 11:27:57
若中日再次爆发战争,结局会如何?俄罗斯和美国看法一致​

若中日再次爆发战争,结局会如何?俄罗斯和美国看法一致​

寻途
2025-11-04 21:16:03
一家三代短命!蔡磊抱怨世道不公:我爷爷50岁去世,父亲47岁离世

一家三代短命!蔡磊抱怨世道不公:我爷爷50岁去世,父亲47岁离世

来科点谱
2025-10-07 22:09:18
王家卫还敢搞金靖?以为她只会搞笑?他怕是没搞清金靖的底细吧!

王家卫还敢搞金靖?以为她只会搞笑?他怕是没搞清金靖的底细吧!

科学发掘
2025-11-09 00:19:46
儿子在柬埔寨被打死,又被捞人中介收解救费25万,最后人财两空

儿子在柬埔寨被打死,又被捞人中介收解救费25万,最后人财两空

社会酱
2025-11-08 17:23:31
副院长与眼科医生事件影响有多大?更多细节疑曝光,或有医院作出针对性改变

副院长与眼科医生事件影响有多大?更多细节疑曝光,或有医院作出针对性改变

今日养生之道
2025-11-08 15:13:35
中国女导演曝漫威男星塌房真相:发不雅照、酒后发疯,还把她吓到锁门求生!

中国女导演曝漫威男星塌房真相:发不雅照、酒后发疯,还把她吓到锁门求生!

北美省钱快报
2025-11-08 08:03:44
订单爆棚!根本做不完,东莞一工厂要求加班加点,每月补助500元

订单爆棚!根本做不完,东莞一工厂要求加班加点,每月补助500元

火山诗话
2025-11-09 07:00:23
怒砸球拍!萨巴伦卡丢冠后痛哭:抢七0-7巨大蒙羞 0-2不敌世界第6

怒砸球拍!萨巴伦卡丢冠后痛哭:抢七0-7巨大蒙羞 0-2不敌世界第6

风过乡
2025-11-09 07:29:34
淘宝已被调查

淘宝已被调查

政知新媒体
2025-11-08 20:27:47
与雷军分道扬镳,美的方洪波言论刷屏,十几万字报告拆解小米

与雷军分道扬镳,美的方洪波言论刷屏,十几万字报告拆解小米

公子麦少
2025-11-07 20:43:25
海昏侯墓考古发掘领队:首次发现秦汉时期全本《诗经》

海昏侯墓考古发掘领队:首次发现秦汉时期全本《诗经》

上观新闻
2025-11-09 06:39:05
正式交易?独行侠发声,汤普森下家3选1,勇士热门,豪门或截胡

正式交易?独行侠发声,汤普森下家3选1,勇士热门,豪门或截胡

乐聊球
2025-11-08 09:56:16
8场投进14记三分,命中率超5成!火箭神射手崛起,斯通留人需加钱

8场投进14记三分,命中率超5成!火箭神射手崛起,斯通留人需加钱

熊哥爱篮球
2025-11-09 11:36:31
江西弃婴被加拿大夫妇收养,获奥运会冠军后称:我不会认亲生父母

江西弃婴被加拿大夫妇收养,获奥运会冠军后称:我不会认亲生父母

卷史
2025-11-08 14:48:31
稳定币“爆雷”! USDX从1块跌到1毛 近乎归零

稳定币“爆雷”! USDX从1块跌到1毛 近乎归零

每日经济新闻
2025-11-08 22:13:55
五年2.7亿首秀几分?福克斯24+3献决胜球 马刺三后卫先发会成常态

五年2.7亿首秀几分?福克斯24+3献决胜球 马刺三后卫先发会成常态

颜小白的篮球梦
2025-11-09 11:31:53
“光刻机之父”林本坚:中国现有设备能造出5nm芯片,美国已承认

“光刻机之父”林本坚:中国现有设备能造出5nm芯片,美国已承认

趣文说娱
2025-11-08 17:14:30
2025-11-09 11:59:00
知危 incentive-icons
知危
投资不立危墙之下
493文章数 1826关注度
往期回顾 全部

科技要闻

黄仁勋亲赴台积电“讨要更多芯片”

头条要闻

浙江男子在家门口发现"人参"直接生吃半根 结果悲剧了

头条要闻

浙江男子在家门口发现"人参"直接生吃半根 结果悲剧了

体育要闻

马刺绞赢火箭,不靠文班亚马?

娱乐要闻

《繁花》剧组又回应了?

财经要闻

10月CPI同比上涨0.2% CPI同比下降2.1%

汽车要闻

钛7月销破2万 霜雾灰与青峦翠配色正式开启交付

态度原创

本地
旅游
亲子
健康
游戏

本地新闻

这届干饭人,已经把博物馆吃成了食堂

旅游要闻

北京彩叶树迎来最佳观赏期!有南方游客专程“飞”来北京赶秋

亲子要闻

孩子脾胃弱不用愁,四神汤搭对食材,养胃补营养元气足

超声探头会加重受伤情况吗?

GTA6新预告?曝R星官网秘密上传新视频 即将公开

无障碍浏览 进入关怀版