网易首页 > 网易号 > 正文 申请入驻

像素取代文本?DeepSeek-OCR引发AI底层范式之思

0
分享至

近日,DeepSeek宣布开源最新大模型DeepSeek-OCR。所谓的OCR,据DeepSeek在论文中解释称,是通过光学2D映射压缩长上下文可行性的初步研究。DeepSeek-OCR由两部分组成:DeepEncoder和作为解码器的DeepSeek3B-MoE-A570M。DeepEncoder作为核心引擎,设计为在高分辨率输入下保持低激活,同时实现高压缩比,以确保视觉tokens数量优化且可管理。

通俗而言,这是一种视觉-文本压缩范式,通过用少量的视觉token来表示原本需要大量文本token的内容,以此降低大模型的计算开销。

让AI长出“眼睛”和学会“遗忘”

这一创新不仅解决了长文本处理的技术难题,更让我们重新审视大模型的认知方式。传统以大模型始终通过文本token这一抽象符号来理解世界,而DeepSeek-OCR的革命性在于,它让模型首次真正拥有了“视觉感知”的能力。通过将文本转化为图像再进行压缩处理,模型得以绕过语言的抽象过滤层,直接从更丰富的视觉信息中提取特征,这类似于人类通过眼睛直接观察世界而非仅依靠他人描述。

过去的大模型,不管是什么 ChatGPT、Gemini、Llama、Qwen、还是 DeepSeek 过去的自己,在读取数据的用的都是一种方式:文字,也就是平时常说的 token。

但目前的大模型普遍面临一个超长文本的效率处理问题。当下主流大模型的上下文窗口大多在 128k-200k tokens,可财报、科研论文、书籍等动辄上千页,还混着表格、公式,传统办法只能 “切片段、多轮传”,不仅逻辑断档,还会有延时等问题。而 DeepSeek-OCR 用了个反常规思路:把文本转成图像再压缩,需要用到文本时候再解压缩。不但 Tokens 消耗直接降一个数量级,精度还没怎么丢。

为此DeepSeek-OCR模型,首次提出了“上下文光学压缩(Contexts Optical Compression)”的概念,通过文本转图像实现信息的高效压缩。

这一方法的可行性已经得到验证,在10倍压缩比下,DeepSeek-OCR的解码精度可达97%,近乎实现无损压缩;在20倍压缩比下,精度仍保持约60%。

在论文中DeepSeek团队还提出用光学压缩模拟人类的遗忘机制。

例如近期记忆就像近处的物体,清晰可见。所以可以将其渲染成高分辨率图像,用较多的视觉token来保留高保真信息。

远期记忆 就像远处的物体,逐渐模糊。所以可以将其渐进式地缩放成更小、更模糊的图像,用更少的视觉token来表示,从而实现信息的自然遗忘和压缩。

这样一来,理论上模型就可以在处理超长对话或文档时,动态地为不同时期的上下文分配不同数量的计算资源,从而可能构建出一种无限长上下文的架构。

团队表示,虽然这还是个早期研究方向,但不失为模型处理超长上下文的一种新思路。

这样的创新无疑引发了AI社区对视觉路线的深入思考。OpenAI联合创始成员、前特斯拉自动驾驶总监Andrej Karpathy表示,它是一个很好的OCR模型,但更值得关注的是它可能带来的范式转变。

Karpathy提出一个大胆设想:对于大语言模型来说,像素是否比文本更适合作为输入?

像素对于文本的优势和目前的问题

从信息密度的角度看,像素作为原始视觉信号,其承载的信息远超经过高度抽象和压缩的文本。一段文字描述“夕阳下的金色麦田”,虽能传达概念,但丢失了光影的渐变、麦穗的纹理和空间的层次感。而这些细节,恰恰蕴含在像素矩阵之中。大模型直接处理像素,等于绕过了人类语言的“过滤层”,能从更本源、更丰富的感官数据中学习世界的复杂模式。

DeepSeek-OCR的团队认为:“一张包含文档文本(document text)的图像,可以用比等效数字文本(digital text)少得多的token,来表示丰富信息。这表明,通过视觉token进行光学压缩可以实现更高的压缩比。”

其次,像素具有跨文化的通用性。文本受限于特定语言体系和文化背景,存在理解壁垒。而一幅图像或一段视频的像素,其所呈现的物理世界规律(如重力、光影)是普适的,这为模型构建一个更统一、更底层的世界模型奠定了基础。模型无需先掌握英语或中文的语法,就能理解“球体滚动”这一物理现象。

最终,这种以像素为起点的学习路径,更接近人类“眼见为实”的认知过程。它迫使模型从混沌的感官输入中主动抽象出对象、属性和关系,从而可能催生出更鲁棒、更具泛化能力的智能。当模型能够理解并生成连贯的像素序列(如视频),它便掌握了模拟和创造视觉世界的能力,这无疑是迈向通用人工智能更为坚实的一步。因此,像素作为信息载体,为大模型提供了更接近现实、更本真的学习素材。

那么DeepSeek-OCR模型是不是完美无缺的呢?那也不是。论文里也坦诚提到问题。

例如超高压缩比有风险。压缩比超过 30 倍,关键信息保留率会跌破 45%,法律、医疗这种对精度要求极高的场景不太适用。其次是复杂图形识别还不够强,三维图表、手写艺术字的识别准确率比印刷体低 12-18 个百分点。

结语:DeepSeek-OCR提供了新的解题思路

DeepSeek-OCR的推出,标志着AI发展进入了一个新的探索阶段。它不仅仅是一个技术工具的升级,更是一次认知框架的重构——当大模型开始通过像素而非纯文本来理解世界时,我们正在见证一场从“符号处理”到“感知理解”的范式转移。这种转变的意义远超出解决长文本处理这一具体问题,它暗示着未来AI可能建立起更接近人类感官体验的认知体系,从多模态的原始数据中直接构建对世界的理解。

然而,正如研究团队所提示的,这仍是一个早期研究方向。技术突破往往伴随着新的挑战:如何在压缩效率与信息保真度之间找到最佳平衡?如何让模型在“学会遗忘”的同时不丢失关键信息?这些问题都需要学术界和产业界的共同探索。更重要的是,这种技术路径的转变将如何重塑人机交互的方式,又将催生哪些全新的应用场景,都值得我们持续关注。

从更广阔的视角看,DeepSeek-OCR所代表的视觉路线,与当前主流的文本路线并非替代关系,而是互补共生的两种认知维度。未来的通用人工智能,或许正是需要融合文本的抽象推理与视觉的具象感知,才能构建出真正全面、鲁棒的智能体系。这条探索之路刚刚开始,但其指向的未来已足够令人期待。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为啥美国马桶有缺口,我国的马桶没有,缺口设计有啥特殊用意吗?

为啥美国马桶有缺口,我国的马桶没有,缺口设计有啥特殊用意吗?

诗意世界
2025-11-12 20:20:39
日本驻澳大利亚大使在社交平台发文称,侮辱日本等同于宣战!

日本驻澳大利亚大使在社交平台发文称,侮辱日本等同于宣战!

我心纵横天地间
2025-11-14 18:40:58
闫妮与任素汐现身沈阳烤肉店,闫妮老得不能看,任素汐室内抽烟!

闫妮与任素汐现身沈阳烤肉店,闫妮老得不能看,任素汐室内抽烟!

小娱乐悠悠
2025-11-13 10:04:58
传苹果从微信小程序抽成 15%,腾讯回应;特斯拉考虑支持 CarPlay;iPhone Air 成功支持实体卡 | 极客早知道

传苹果从微信小程序抽成 15%,腾讯回应;特斯拉考虑支持 CarPlay;iPhone Air 成功支持实体卡 | 极客早知道

极客公园
2025-11-14 08:16:20
刚刚确认:-6℃!即将抵达天津!最新时间表来了!

刚刚确认:-6℃!即将抵达天津!最新时间表来了!

鲁中晨报
2025-11-14 18:51:06
5130米!神舟二十一号落点精度有多高?飞行14.8万公里后精准着陆

5130米!神舟二十一号落点精度有多高?飞行14.8万公里后精准着陆

火星一号
2025-11-15 00:52:42
曾主任与祖副院长偷欢现场惊现反转!

曾主任与祖副院长偷欢现场惊现反转!

霹雳炮
2025-11-12 23:05:53
泰王首次访华,专机直飞北京,高规格接待引发热议!

泰王首次访华,专机直飞北京,高规格接待引发热议!

爱下厨的阿酾
2025-11-15 10:02:44
+1球1助,梅西阿根廷国家队生涯数据:196场115球61助攻

+1球1助,梅西阿根廷国家队生涯数据:196场115球61助攻

懂球帝
2025-11-15 09:28:48
美媒提前摊牌:若台海战争爆发,中国高价买的设备可能被远程瘫痪

美媒提前摊牌:若台海战争爆发,中国高价买的设备可能被远程瘫痪

老谢谈史
2025-11-14 21:11:46
被爆踢出F4后,“一言不发”的朱孝天,终于不再顾忌所谓的体面!

被爆踢出F4后,“一言不发”的朱孝天,终于不再顾忌所谓的体面!

苏言朝
2025-11-15 03:35:08
美政府将部分农产品移出“对等关税”清单

美政府将部分农产品移出“对等关税”清单

财联社
2025-11-15 05:44:18
女乘客后座留下“一滩不明液体”,网约车司机懵了:这大冬天,都用了十几张纸巾了

女乘客后座留下“一滩不明液体”,网约车司机懵了:这大冬天,都用了十几张纸巾了

用车指南
2025-11-14 10:07:46
A股:国常会重磅部署!央行、证监会发声,推动市场更具韧性、稳健

A股:国常会重磅部署!央行、证监会发声,推动市场更具韧性、稳健

阿纂看事
2025-11-15 08:26:15
10年时间变化如此的大,装备精良的日本海军对中国海军有多少优势

10年时间变化如此的大,装备精良的日本海军对中国海军有多少优势

近史博览
2025-11-01 21:02:05
陈梦指导员疑戴AI眼镜观赛引热议!博主回放:赛中没戴赛后才戴上

陈梦指导员疑戴AI眼镜观赛引热议!博主回放:赛中没戴赛后才戴上

颜小白的篮球梦
2025-11-14 13:59:23
女人都是表面正经,只要你胆子大,没有什么女人拿不下

女人都是表面正经,只要你胆子大,没有什么女人拿不下

人间故事集
2023-11-18 21:47:38
赵心童冲击140万奖金!特鲁姆普直言状态不佳,罗伯逊是最大阻碍

赵心童冲击140万奖金!特鲁姆普直言状态不佳,罗伯逊是最大阻碍

排球黄金眼
2025-11-14 11:25:47
奥斯卡检查确诊为血管迷走性晕厥,究竟这是什么病?

奥斯卡检查确诊为血管迷走性晕厥,究竟这是什么病?

星耀国际足坛
2025-11-14 23:52:48
永远是榜样!周鹏透露易建联近况 身材管理特别棒

永远是榜样!周鹏透露易建联近况 身材管理特别棒

胖子喷球
2025-11-14 20:28:55
2025-11-15 11:19:00
泡财经 incentive-icons
泡财经
做投资人看得见的财经资讯。
17341文章数 680关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

业主爆改一梯一户 公摊电梯厅成火锅涮菜区和私人影院

头条要闻

业主爆改一梯一户 公摊电梯厅成火锅涮菜区和私人影院

体育要闻

7-0狂胜!15万人口小岛离世界杯只差1分

娱乐要闻

争议!评委张艺谋被质疑保送易烊千玺

财经要闻

小米之“惑”

汽车要闻

小鹏X9超级增程动态评测全网首发 高速实测车内65分贝

态度原创

本地
艺术
亲子
旅游
军事航空

本地新闻

云游安徽 | 江声浩荡阅千年,文脉相承看芜湖

艺术要闻

书法界惊呆了!14字狂草为何让专家称赞不已?

亲子要闻

勇敢朝前走彩虹在后头

旅游要闻

大槐树景区跻身全国百强!

军事要闻

解密福建舰电磁弹射背后的硬核支撑

无障碍浏览 进入关怀版