网易首页 > 网易号 > 正文 申请入驻

「看」能否取代「读」,为何DeepSeek-OCR 爆火的重点不在性能?

0
分享至

来源:市场资讯

(来源:机器之心)

机器之心PRO · 会员通讯 Week 43

--- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ---

1.「看」能否取代「读」,为何DeepSeek-OCR 爆火的重点不在性能?

DeepSeek-OCR 热度的重点是什么?为什么视觉 token 更擅长处理长上下文?视觉 token 可以如何规避 NTP 机制的「近视」缺陷?为什么视觉 token 不会有「误差累计」问题?有哪些奠基工作?...

2. 从 ReasoningBank 到 MetaAgent,RL 未必是 Agent 自进化的必要解?

RL 优化智能体自进化之外,记忆系统带来了哪些新的实践应用突破?从无记忆到工作流记忆,再到 ReasoningBank,智能体记忆系统进化到了哪一步?IML 能否让智能体真正实现「自我完善」?从 MetaAgent 到 POAD,目前智能体自进化摆脱人类设计的程度有多高?...

3. 黄仁勋:AI 并非泡沫,且会在未来开启三个万亿级市场?

为什么黄仁勋认为这轮 AI 狂潮不会重演互联网泡沫?底层逻辑究竟变了什么?当 GPU 不再是唯一护城河,全栈式的 AI 工厂竞争正在改变算力格局?从芯片到认知,下一代智能系统的「能效优势」会取代「算力优势」吗?从数字劳动力到物理 AI,黄仁勋所说的「智能经济」离现实还有多远?...

本期完整版通讯含 2 项专题解读 + 29 项本周 AI & Robotics 赛道要事速递,其中技术方面 9 项,国内方面 10 项,国外方面 10 项。

本期通讯总计 27434 字,可免费试读至 8%

消耗 288 微信豆可兑换完整本期解读(约合人民币 28.8 元)


要事解读① 「看」能否取代「读」,为何DeepSeek-OCR 爆火的重点不在性能?

引言:DeepSeek-OCR 发布后引起了大量关注。以「并非单纯的 OCR」为共识,AI 社区在热议中引出了一种思潮,即,LLM 会「看」或许比会「读」更重要 。

DeepSeek-OCR 爆火的重点不在性能?

1、DeepSeek 近期开源的 DeepSeek-OCR 在 AI 社区引起热议。该工作通过视觉 token 实现了 10 倍于文本 token 的压缩效率,且保留 97%的回复精度。

① DeepSeek-OCR 提出了「上下文光学压缩」(Contexts Optical Compression)的核心理念,不再将文本作为一维的符号序列处理,而是将其渲染成二维图像,通过视觉编码器进行高效压缩 。

2、在性能之外,AI 社区关注的重点在于其「以视觉方式压缩一切」的研究思路或许对流行的 NTP(Next t Token Prediction)范式着更深远的影响。[1-1] [1-2]

① 经济层面,采用 NTP 机制的模型在在处理长上下文时,其计算和内存成本会随着序列长度的增加而呈二次方增长,通过视觉 token 进行压缩可以大幅降低输入 LLM 的 token 数量,有望解决长上下文的经济性难题。

② 从架构上看,以 Andrej Karpathy 为代表的观点认为将文本渲染为图像,完全绕过了分词器(tokenizer)模块,因而规避不必要的复杂性和对多语言处理的不公平性(即「分词器税」),以及对细微编码差异的脆弱性。

③ 此外,有观点认为 DeepSeek-OCR 的实践挑战了长期以来「视觉 Token 在处理文本数据时效率低于文本 Token」的传统认知并非永恒。[1-3]

3、一系列热议引发的思潮在于,对 LLM 的 NTP 范式而言,相比传统地「阅读」文本 token,让模型直接「看见」文本来进行预测会不会是一条更有前途的技术路线?

放弃文本,视觉token作为llm输入底层逻辑是什么?

1、DeepSeek-OCR 引发热议的重点在于,这种用视觉 token 进行压缩范式并非对现有 LLM 架构的简单优化,而是在信息表征、处理流程和误差动态上的重构,直接回应了传统 NTP 范式中的内在缺陷。

2、学术界长期对 NTP 的批评在于,这种机制与人类认知过程存在根本性的背离,缺乏对全局的规划,本质上是一种「近视」(myopic)的工作模式。[1-4]

① 传统模型在训练阶段,训练时的「教师强制」(teacher-forcing)和推理时的自回归生成促成了这种 NTP 范式的根本性缺陷。

② 「教师强制」指训练阶段,为了提高学习效率和稳定性,模型在预测第下个 token 时,其输入是数据集中真实的、无误的整个前置 token 序列,强制模型在每一步都基于「正确答案」进行学习。

③ 在推理(或生成)阶段,模型不再拥有外部提供的真实前缀。它必须将自己上一步生成的 token 作为下一步的输入,形成一个迭代循环,从而形成「误差累计」的问题,导致处理「前瞻任务」(lookahead tasks)时表现不佳。

3、此外,以 Andrej Karpathy 为代表的一种思潮认为 NTP 模型的分词器(tokenizer)存在根本的缺陷,应当被彻底移除。[1-5]

① NTP 模型的运作还依赖于 tokenization 前置步骤。即将原始文本分割成一个固定的、预定义词汇表中的 token 序列。这种离散化的表示方式带来了其自身的一系列问题。

② 固定词汇表无法覆盖所有可能的字符串,导致模型训练遇到「罕见 token」或「故障 token」(如特定的用户名、编码或新词)时,无法为其学习到丰富和稳健的语义表征,使这些 token 成为模型的「盲点」,甚至被用于对抗性攻击。

③ 其次,tokenization 破坏了文本的底层结构。模型处理的是抽象的 token ID,而非字符本身。这导致模型在执行简单的字符级操作任务时表现得非常糟糕,因而被诟病为其「智能」更多是基于大规模统计模式的拟合,而非对语言基本构成单元的灵活掌握。[1-6]

4、DeepSeek-OCR 的核心思想在于,不再将长篇文档视为一个由数千甚至数万个文本 token 组成的线性序列,而是将其渲染成一张高分辨率的图像,然后将这张图像压缩成一小组信息高度浓缩的「视觉 token」(vision tokens)。[1-7]

① 这些 vision tokens 是一种低维、稠密且连续的潜变量空间(Latent Space)表征,不直接对应某个单词,而是对页面上一块区域内所有视觉信息的综合编码,天然保留了二维空间关系。

② 这种表征的信息带宽远超文本 token,使模型能够原生理解那些纯文本模型难以处理的复杂元素,例如直接解析图表并将其转换为 HTML 表格,或识别化学分子式。

5、DeepSeek-OCR 的通过 CoC 重构了信息处理流程,将全局上下文的理解前置,某种程度上绕过了传统 NTP 的「近视问题」,并规避了 Tokenization 的环节。[1-7]

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
连续三场单节40+!西部最被低估球队,五大首发平均28岁,要冲冠

连续三场单节40+!西部最被低估球队,五大首发平均28岁,要冲冠

你的篮球频道
2025-11-14 14:02:52
口交不入刑,教材当废纸:丹阳案背后的黑色幽默

口交不入刑,教材当废纸:丹阳案背后的黑色幽默

有戏
2025-09-17 17:48:36
虽败犹荣!河南女排0-3江苏,朱婷双拳难敌四手,吴梦洁强攻发威

虽败犹荣!河南女排0-3江苏,朱婷双拳难敌四手,吴梦洁强攻发威

骑马寺的少年
2025-11-14 20:49:43
51年女匪王兵败被俘,面对我军将领,她苦笑:十五年前我也是红军

51年女匪王兵败被俘,面对我军将领,她苦笑:十五年前我也是红军

不易一字
2025-11-12 17:41:40
陈慧琳演唱会穿搭性感,三角裤衩造型很完美?

陈慧琳演唱会穿搭性感,三角裤衩造型很完美?

娱乐领航家
2025-11-14 23:00:03
局势再次升级!日本召见中国大使抗议,高市早苗仍不撤回危险言论

局势再次升级!日本召见中国大使抗议,高市早苗仍不撤回危险言论

虎哥闲聊
2025-11-15 08:55:12
奥运冠军覃海洋,被取消成绩!“非常无语”

奥运冠军覃海洋,被取消成绩!“非常无语”

鲁中晨报
2025-11-14 06:59:02
6分钟2球 哈兰德奔向世界杯!末轮惨败0-8意大利 照样能晋级

6分钟2球 哈兰德奔向世界杯!末轮惨败0-8意大利 照样能晋级

叶青足球世界
2025-11-14 08:52:45
七国集团拉上8个国家一起开会,不仅没请中国,还支持日本立场

七国集团拉上8个国家一起开会,不仅没请中国,还支持日本立场

坠入二次元的海洋
2025-11-14 11:00:13
吴思瑶这回尴尬了,黄国昌发声痛斥,蒋万安、张善政乐开了花!

吴思瑶这回尴尬了,黄国昌发声痛斥,蒋万安、张善政乐开了花!

科普100克克
2025-11-14 19:43:38
妹子“把胸放桌上休息”被拍走红!女菩萨们不服发照片PK:最后这波赢麻了

妹子“把胸放桌上休息”被拍走红!女菩萨们不服发照片PK:最后这波赢麻了

经典段子
2025-10-11 22:34:42
刚刚确认:-6℃!即将抵达天津!最新时间表来了!

刚刚确认:-6℃!即将抵达天津!最新时间表来了!

鲁中晨报
2025-11-14 18:51:06
刘诗雯/林高远刚夺冠,陈梦樊振东又来了,王楚钦孙颖莎要当心了

刘诗雯/林高远刚夺冠,陈梦樊振东又来了,王楚钦孙颖莎要当心了

林子说事
2025-11-15 08:29:42
【汽车人】卷不动了?比亚迪10月销量跌31 %

【汽车人】卷不动了?比亚迪10月销量跌31 %

侃故事的阿庆
2025-11-15 08:36:23
和平小屋后续,贾女士道歉已达成一致,社区书记被停职,当地通报

和平小屋后续,贾女士道歉已达成一致,社区书记被停职,当地通报

一只番茄鱼
2025-11-14 08:07:54
毛主席对尼泊尔首相说:你想把珠峰全部划归贵国?还有更好的办法

毛主席对尼泊尔首相说:你想把珠峰全部划归贵国?还有更好的办法

鹤羽说个事
2025-10-30 15:53:46
湖北一永辉超市被指盒装牛肋条中掺猪肉,相关部门已介入,顾客:不要赔偿,只要真相

湖北一永辉超市被指盒装牛肋条中掺猪肉,相关部门已介入,顾客:不要赔偿,只要真相

潇湘晨报
2025-11-14 10:29:11
85年我喜欢的女军医选择了团长,十五年后我授衔少将,她突然出现了

85年我喜欢的女军医选择了团长,十五年后我授衔少将,她突然出现了

源远讲堂
2025-11-11 10:35:11
“没班味”大湾鸡爆红!给“鸡宝宝”庆功奖状已经在做了,走红背后:全员16岁以下,每天负重8公斤,最颠的动作都是自由发挥

“没班味”大湾鸡爆红!给“鸡宝宝”庆功奖状已经在做了,走红背后:全员16岁以下,每天负重8公斤,最颠的动作都是自由发挥

极目新闻
2025-11-14 22:27:23
主持人程雷在上海超市购物,他打扮潮流,头发白了,但还是挺帅的

主持人程雷在上海超市购物,他打扮潮流,头发白了,但还是挺帅的

乡野小珥
2025-11-14 14:06:14
2025-11-15 10:28:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1392220文章数 4502关注度
往期回顾 全部

科技要闻

2025年天猫双11近600品牌成交破亿

头条要闻

牛弹琴:中方对高市早苗的愤怒升级 严重后果正在显现

头条要闻

牛弹琴:中方对高市早苗的愤怒升级 严重后果正在显现

体育要闻

7-0狂胜!15万人口小岛离世界杯只差1分

娱乐要闻

王家卫让古二替秦雯写剧情主线?

财经要闻

银行直供房激增 有房产低于市场均价54%

汽车要闻

小鹏X9超级增程动态评测全网首发 高速实测车内65分贝

态度原创

时尚
本地
房产
艺术
健康

什么?!你告诉我佘诗曼已经50岁了

本地新闻

云游安徽 | 江声浩荡阅千年,文脉相承看芜湖

房产要闻

共话产业变革下的投资新思维与新机遇|蓝湾财富论坛精华

艺术要闻

书法界惊呆了!14字狂草为何让专家称赞不已?

金振口服液助力科学应对呼吸道疾病

无障碍浏览 进入关怀版