网易首页 > 网易号 > 正文 申请入驻

DeepSeek-OCR是「长文本理解」未来方向?中科院VTCBench给出答案

0
分享至



DeepSeek-OCR 的视觉文本压缩(VTC)技术通过将文本编码为视觉 Token,实现高达 10 倍的压缩率,大幅降低大模型处理长文本的成本。但是,视觉语言模型能否理解压缩后的高密度信息?中科院自动化所等推出 VTCBench 基准测试,评估模型在视觉空间中的认知极限,包括信息检索、关联推理和长期记忆三大任务。

近期,DeepSeek-OCR 凭借其创新的「视觉文本压缩」(Vision-Text Compression, VTC)范式引发了技术圈的高度关注,以极少的视觉 Token 实现高效的文本信息编码,为长文本处理开辟了新路径。

这一突破性进展让大模型处理超长文本的成本大幅降低,但也抛出了一个核心问题:当长文本被高度压缩为 2D 图像后,视觉语言模型(VLM)真的能理解其中的内容吗?

为了解答这一疑问,来自中科院自动化所、中国科学院香港创新研究院等机构的研究团队推出了首个专门针对视觉 - 文本压缩范式的基准测试 ——VTCBench。



  • 论文链接:https://arxiv.org/abs/2512.15649
  • VTCBench 链接: https://github.com/Moenupa/VTCBench
  • VLMEvalKit 链接:https://github.com/bjzhb666/VLMEvalKit
  • Huggingface 链接: https://huggingface.co/datasets/MLLM-CL/VTCBench



图 1:视觉 - 文本压缩 (VTC) 流程演示及 VTCBench

与传统大模型直接读取成千上万的纯文本 Token 不同,VTC 范式(如 DeepSeek-OCR)先将长文档渲染 (Rendering)为高密度的 2D 图像,再由视觉编码器转化为少量的视觉 Token。

该技术可实现 2 倍至 10 倍的 Token 压缩率,显著降低了长文本处理时的计算与显存开销。

VTCBench 现已在 GitHub 和 Huggingface 全面开源,其衍生版本 VTCBench-Wild 是一个统一的、全方位评估模型在复杂现实场景下视觉文本压缩的鲁棒性,现已集成到 VLMevalkit。

核心使命——衡量「看得见」之后的「看得懂」

目前的 VLM 也许能出色地完成 OCR 识别,但在处理 VTC 压缩后的高密度信息时,其长文本理解能力仍存疑。

VTCBench 通过三大任务,系统性地评估模型在视觉空间中的认知极限:

  1. VTC-Retrieval (信息检索):在视觉「大海」中寻找特定事实的「针」(Needle-in-a-Haystack),测试模型对空间分布信息的捕捉能力;
  2. VTC-Reasoning (关联推理):挑战模型在几乎没有文本重叠的情况下,通过关联推理寻找事实,超越单纯的词汇检索;
  3. VTC-Memory (长期记忆):模拟超长对话,评估模型在视觉压缩框架下,抵御时间与结构性信息衰减的能力。

此外,团队同步推出了 VTCBench-Wild,引入 99 种不同的渲染配置(涵盖多种字体、字号、行高及背景),全方位检测模型在复杂现实场景下的鲁棒性。

揭秘视觉压缩背后的认知瓶颈



图 2:VTCBench 针对模型在长图像中检索信息的热力图。横轴代表上下文长度,纵轴代表关键事实(Needle)在文档中的深度。展现了模型表现的「迷失」与突破。

测试结果呈现出显著的 「U 型曲线」:与文本模型类似,视觉语言模型(VLM)能够精准捕捉开头和结尾的信息,但对于中间部分的事实,理解能力会随着文档变长而剧烈衰退。

这证明了即使在视觉空间,模型依然存在严重的「空间注意力偏见」,是未来 VTC 架构优化的关键方向。

行业洞察 —— 视觉压缩是长文本的终局吗?



通过对 GPT、Gemini、Claude、QwenVL、InternVL、Gemma、KimiVL、Seed1.5 等 10 余种尖端模型的深度评测,可以发现:

虽然 VTC 极大提升了效率,但现有 VLM 在复杂推理和记忆任务上的表现仍显著弱于纯文本 LLM;

消融实验证明,信息密度是决定模型性能的关键因素,直接影响视觉编码器的识别精度;

Gemini-3-Pro 在 VTCBench-Wild 上表现惊艳,其视觉理解能力已几乎追平其纯文本基准,证明了 VTC 是实现大规模长文本处理的极其可行的路径!

总结

如果说传统的长文本处理是「逐字阅读」,那么, DeepSeek-OCR 所引领的 VTC 范式就是「过目成诵」的摄影式记忆。VTCBench 的出现,正是为了确保模型在拥有这种「超能力」的同时,依然能够读懂字里行间的微言大义。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
法媒:“伊朗战争的首个受害者是真相”

法媒:“伊朗战争的首个受害者是真相”

参考消息
2026-03-26 13:30:07
这就是钱学森后人真实的样貌,女儿定居美国,儿子长孙精忠报国!

这就是钱学森后人真实的样貌,女儿定居美国,儿子长孙精忠报国!

旧史新谭
2026-03-25 13:15:22
停炸五天的真正含义:伊朗被迫进入二选一困局

停炸五天的真正含义:伊朗被迫进入二选一困局

斌闻天下
2026-03-26 07:45:03
正式确定!CBA名将加盟浙江广厦,重返老东家,全力卫冕总冠军

正式确定!CBA名将加盟浙江广厦,重返老东家,全力卫冕总冠军

体坛瞎白话
2026-03-25 16:52:09
经济下行后,正常人变得越来越稀缺了

经济下行后,正常人变得越来越稀缺了

经济学教授V
2026-03-24 08:04:04
张雪峰的家人发声明!丧事从简,28号办葬礼,公开了张雪峰的遗愿

张雪峰的家人发声明!丧事从简,28号办葬礼,公开了张雪峰的遗愿

苗苗情感说
2026-03-26 09:33:59
美军中央司令部:美军“亚伯拉罕·林肯”号航空母舰“在区域海域航行期间,继续针对伊朗境内的军事目标开展作战行动”

美军中央司令部:美军“亚伯拉罕·林肯”号航空母舰“在区域海域航行期间,继续针对伊朗境内的军事目标开展作战行动”

潇湘晨报
2026-03-26 10:55:27
教育彻底变天!2026届初中生注意,这是最后一届只拼分数的一届

教育彻底变天!2026届初中生注意,这是最后一届只拼分数的一届

老特有话说
2026-03-25 15:22:58
南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

火山詩话
2026-03-26 06:37:23
中国移动正式发布通知:全国将统一执行:4月30日起

中国移动正式发布通知:全国将统一执行:4月30日起

云舟史策
2026-03-26 07:34:02
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
余承东正式宣布问界M6订单超6万台后,一个奇怪的现象就出现了

余承东正式宣布问界M6订单超6万台后,一个奇怪的现象就出现了

春雨说科技
2026-03-26 14:46:46
公职人员下班后这5种行为,将严肃处理,千万别踩红线!

公职人员下班后这5种行为,将严肃处理,千万别踩红线!

细说职场
2026-03-26 11:13:03
改口!姆巴佩为皇马队医发声:他们并未误诊 这事我也有一定责任

改口!姆巴佩为皇马队医发声:他们并未误诊 这事我也有一定责任

风过乡
2026-03-26 05:54:46
巴蒂:曾想成为大罗那样的前锋但我做不到;哈兰德让我很惊讶

巴蒂:曾想成为大罗那样的前锋但我做不到;哈兰德让我很惊讶

懂球帝
2026-03-26 11:02:09
歼-16D携载LD-8A,开启反辐射作战新篇!

歼-16D携载LD-8A,开启反辐射作战新篇!

杨风
2026-03-25 20:50:09
全国禁赛5年!凉山队一球员不满判罚赛后飞踹拳击裁判,此前已被四川省内禁赛5年

全国禁赛5年!凉山队一球员不满判罚赛后飞踹拳击裁判,此前已被四川省内禁赛5年

红星新闻
2026-03-25 23:19:21
如果美国疯狂印钞还完所有债会怎样 网友深度剖析 原来有人等着呢

如果美国疯狂印钞还完所有债会怎样 网友深度剖析 原来有人等着呢

侃神评故事
2026-03-23 17:20:03
骗贷6.6亿余元 潜逃境外涉金融领域犯罪嫌疑人张某被押解回国

骗贷6.6亿余元 潜逃境外涉金融领域犯罪嫌疑人张某被押解回国

新京报
2026-03-26 12:58:08
京华城案一审宣判不只柯文哲,应晓薇被判15年半,沈庆京10年

京华城案一审宣判不只柯文哲,应晓薇被判15年半,沈庆京10年

海峡导报社
2026-03-26 15:29:03
2026-03-26 18:56:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
房产
时尚
本地
军事航空

《刺客信条》又一新作野心炸裂!三张地图横跨半个地球

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

皮衣+裙,高级到炸

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版