网易首页 > 网易号 > 正文 申请入驻

DeepSeek OCR:醉翁之意不在酒

0
分享至

DeepSeek 昨天开源的 OCR 新模型在 AI 圈内小火了一把。


项目地址:https://github.com/deepseek-ai/DeepSeek-OCR

简单来说,DeepSeek-OCR 模型是一个专门能「读懂」图片里文字的 AI 模型。但厉害的地方不是简单的「识字」,是采用了一种非常新颖的思路:把文字当成图片来处理和压缩。

你可以把它想象成一个超级高效的「视觉压缩器」。传统的 AI 模型是直接「读」文本,但 DeepSeek-OCR 是先「看」文本的图像,然后把一页文档的图片信息高度压缩成很少的 visual tokens。

DeepSeek-OCR 的能力强在,能把一篇 1000 字的文章,压缩成 100 个视觉 token。在十倍的压缩下,识别准确率可以达到 96.5%。

Karpathy 在 X 上表达了对 DeepSeek-OCR 研究工作的肯定,同时思考了对于 LLM 信息处理的未来范式:也许未来所有输入大模型的信息都应该是图像形式,哪怕是纯文本,也先渲染成图片再喂给模型

Remio 创始人、前网易副总裁汪源对于DeepSeek-OCR 有一点不一样的想法,在他看来,不能只把 DeepSeek-OCR 当做一个 OCR 模型来看待。

作者介绍:汪源,久痕科技创始人,前网易副总裁、杭州研究院执行院长。久痕科技曾推出 AI 办公助手产品 remio。

文章转载自汪源个人公众号,Founder Park 授权转载。

超 15000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者,飞书扫码加群:

进群后,你有机会得到:

  • 最新、最值得关注的 AI 新品资讯;

  • 不定期赠送热门新品的邀请码、会员码;

  • 最精准的AI产品曝光渠道

01

Karpathy:或许 LLM 的所有输入都应该是图像

DeepSeek 刚发的 OCR 模型有点小火,一方面是突出的性能,号称压缩 10 倍还有 97%准确率,另一方面关于用分辨率来压缩信息和模拟遗忘机制的假想,恰巧 AK 在最近的访谈中说人的遗忘是一个 feature 而不是 bug。

这个模型引起了很多人的关注,不少人惊呼太牛逼了,一张图只需要几十个 token,有些人认为是最近最惊喜的模型,有些人认为 DeepSeek 团队思路清奇,堪称鬼才。AK 昨天也发了一个长推,对 DeepSeek 使用视觉模型来处理和压缩文本信息的思路表示欣赏,他认为或许 LLM 的所有输入都应该是图像,因为文本输入的 tokenizer 有挺多问题。AK 说他骨子里是搞视觉的,只是现在 LLM 大火也不得不参与。作为李飞飞的高徒和特斯拉自动驾驶 AI 负责人,AK 确实骨子里是视觉派。

02

研究思路不算是首创,
核心是把研究成果进一步做扎实,产品化

我认为,作为一个 OCR 模型,DeepSeek OCR 的性能和思路可能不算很大的突破,但产品化的贡献值得肯定

DeepSeek OCR 模型很有意思的一点是提供了好多个「分辨率」选项,并且看起来用的 token 很少。最低的 512 x 512 一张图只需要 64 个 token,稍大一点的 1024 x 1024 是 256 个 token。复杂版面还组合使用多种分辨率,首先是整张图用 i 个 1024 x 1024,此外重点区域可能用多个 640 x 640。

其实至少在学术界,这样的视觉编码效率并不算很大的突破。效果上,AK 的评价是 DeepSeek OCR 是一个不错的 OCR 模型,但感觉略弱于 dots.ocr,这个是前段时间小红书搞的。

DeepSeek OCR 多分辨率的搞法,和去年字节的那篇 best paper 的思路有相似(还记得去年字节有个实习生搞破坏被公司索赔 800 万吗,他就是 paper 的作者)。那篇 paper 是去年顶会 NeurIPS 的 best paper,提出的 Visual Autoregressive Modeling(VAR)方法就是采用"粗到细"的多尺度预测,逐步从低分辨率扩展到高分辨率。另外,去年豆包团队也有一篇 paper,把 512 x 512 的图片也是编码到了 64 个 token,和 DeepSeek OCR 一模一样。那篇 paper 还能把 256 x 256 的图片编码到更小的 32 个 token。DeepSeek OCR 模型毕竟是要做文字识别而不是场景理解的,可能因此舍去了不太实用的 256 x 256 尺寸。

所以有可能 DeepSeek OCR 也是受到了这两篇 paper 的启发,把它进一步工程化产品化了。从过往的记录看,DeepSeek 团队特别把其它实验室的研究成果进一步做扎实,产品化。

03

一个有潜力的方向,不能只当成 OCR 模型看

AK 提到的用图像代替文本作为LLM输入的想法,我认为确实有可能成为一个有潜力的方向,因为如果技术能成熟的话,会很有用。大量的网页和文档都是图、文、表格等混排的,很多 SaaS 软件都有一堆有一堆的 Dashboard,PPT 也是非常典型的有很多版面布局。这些信息都是有效的视觉传达,如果强行转化成文本会有很多信息损失。但因为现在视觉大模型在处理这类图文表混排的场景时效果还不够好,成本还很高,导致应用还是只能采取转文本的方式。如果 DeepSeek OCR 这次引起业界对图文表混排场景优化的研究热潮,把这块的效果快速提上去,成本快速降下来,就已经非常有意义了。

至于 DeepSeek 团队用分辨率来模拟遗忘机制的假想,确实是个有点意思的想法,但也感觉有点不太对。越来越模糊的分辨率,感觉模拟的更像是越来越高度的近视,这是一种很好的遗忘机制吗?另外,人脑的遗忘机制可能适合人脑,未必适合数字的第二大脑。人脑要遗忘也可能是因为一个人的脑容量毕竟有限,数字系统容量可以一直扩,是不是一定要遗忘呢。这些都是问题。这得多想想。

DeepSeek OCR,不要只当作 OCR 模型看,可能是醉翁之意不在酒。

(顺便打个广告,我们开发的remio应该拥有现在最方便的文档问答工作流 ,只要配置好桌面、文档、下载等几个常用的文件夹,所有文档都可以很方便的问答, 再也不需要手动查找文档再上传给豆包、ima、Kimi 之类的产品了, 文末点击「阅读原文」可以访问remio官网下载 )


转载原创文章请添加微信:founderparker

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
震惊!苹果手机竟然能玩塞尔达,这个模拟器太强了!

震惊!苹果手机竟然能玩塞尔达,这个模拟器太强了!

叨叨游戏
2025-11-03 15:29:42
普通人搞钱成本最低的方式:当“二道贩子”,空手套白狼!

普通人搞钱成本最低的方式:当“二道贩子”,空手套白狼!

第一桶金学派
2025-11-03 10:25:12
霍思燕这件衣服太宽松了吧,练个瑜伽都快走光了,是故意的吧

霍思燕这件衣服太宽松了吧,练个瑜伽都快走光了,是故意的吧

东方不败然多多
2025-10-21 08:45:50
朱珠竟然真空出行边走边喝饮料 这厚度这粗度还有腰身 这样穿舒服吗

朱珠竟然真空出行边走边喝饮料 这厚度这粗度还有腰身 这样穿舒服吗

TVB的四小花
2025-10-25 13:55:10
重大突破!利好来了

重大突破!利好来了

环球时报新闻
2025-11-01 23:08:51
黄仁勋儿子罕见谈在公司与父亲关系:他就是老板!亚裔父母的孩子都会受到父母的压力,没有压力不可能!

黄仁勋儿子罕见谈在公司与父亲关系:他就是老板!亚裔父母的孩子都会受到父母的压力,没有压力不可能!

大白聊IT
2025-11-02 00:03:05
全新宝马国内上市,说实话这才叫“顶级优雅”!

全新宝马国内上市,说实话这才叫“顶级优雅”!

米粒说车唯一呀
2025-11-02 15:05:25
14年前,用全部积蓄买下10万个比特币的新东方老师,如今过得如何

14年前,用全部积蓄买下10万个比特币的新东方老师,如今过得如何

娱乐督察中
2025-10-30 10:33:53
俄罗斯以北方这四岛屿,换我们一艘国产航母?这笔买卖是否划算?

俄罗斯以北方这四岛屿,换我们一艘国产航母?这笔买卖是否划算?

乐趣纪史
2025-10-31 16:25:33
全红婵全运会带娃!变壮更好戴腰凳,谢思埸满足她当“德华”愿望

全红婵全运会带娃!变壮更好戴腰凳,谢思埸满足她当“德华”愿望

三十年莱斯特城球迷
2025-11-04 00:21:12
俄罗斯等八国达成共识

俄罗斯等八国达成共识

新京报
2025-11-03 14:58:46
弃车保帅!太子集团陈志末日已到,是被“自己人”灭口的

弃车保帅!太子集团陈志末日已到,是被“自己人”灭口的

吃瓜局
2025-10-31 21:11:55
64岁的刘德华终于开始大大方方的公开自己和老婆朱丽倩的照片

64岁的刘德华终于开始大大方方的公开自己和老婆朱丽倩的照片

乡野小珥
2025-10-27 11:08:35
尴尬!谢晖3年送2支中超队降级,曾是本土最红少帅,如今无人敢用

尴尬!谢晖3年送2支中超队降级,曾是本土最红少帅,如今无人敢用

国足风云
2025-11-03 11:39:52
超越华为!这个干“土生意”的夫妻档,一年狂赚8177亿养活17万人

超越华为!这个干“土生意”的夫妻档,一年狂赚8177亿养活17万人

热风追逐者
2025-10-13 14:19:09
李在明:完全同意,一字不差!

李在明:完全同意,一字不差!

寰宇大观察
2025-10-31 18:30:03
重磅!中国移动新董事长人选保密到最后一刻,全网几乎没人猜对!

重磅!中国移动新董事长人选保密到最后一刻,全网几乎没人猜对!

运营商段子手
2025-10-31 18:52:38
前所未有!俄军空袭刚开始,乌军就开始反击,直接与俄罗斯对轰!

前所未有!俄军空袭刚开始,乌军就开始反击,直接与俄罗斯对轰!

阿龙聊军事
2025-06-07 20:04:46
杀疯了!张兰这次彻底放开了,大S的规矩全白费!

杀疯了!张兰这次彻底放开了,大S的规矩全白费!

做一个合格的吃瓜群众
2025-11-02 17:41:05
感动!张水华4年前支援宜昌抗疫 10万奖金需缴税 频繁参赛存1隐忧

感动!张水华4年前支援宜昌抗疫 10万奖金需缴税 频繁参赛存1隐忧

风过乡
2025-11-03 12:58:19
2025-11-04 08:04:49
FounderPark incentive-icons
FounderPark
关注AI创业,专注和创业者聊真问题
1030文章数 143关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

全世界静待美国最高法怎么判 特朗普突然改口"不去了"

头条要闻

全世界静待美国最高法怎么判 特朗普突然改口"不去了"

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

男导演曝丑闻 蒋欣的含金量还在上升

财经要闻

最新省市GDP:谁在飙升,谁掉队了?

汽车要闻

环比增长28.7% 方程豹品牌10月销量31052辆

态度原创

游戏
艺术
房产
手机
公开课

小岛秀夫谈最喜欢的死亡搁浅2角色:可惜不能复活他

艺术要闻

刘溢:当代超现实主义画家

房产要闻

信达·繁花里 | 老照片征集活动 温情启幕

手机要闻

苹果发布iOS 26.1系统 新增液态玻璃开关、滑动停止闹钟等特性

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版