网易首页 > 网易号 > 正文 申请入驻

DeepSeek-OCR是「长文本理解」未来方向?中科院VTCBench给出答案

0
分享至



DeepSeek-OCR 的视觉文本压缩(VTC)技术通过将文本编码为视觉 Token,实现高达 10 倍的压缩率,大幅降低大模型处理长文本的成本。但是,视觉语言模型能否理解压缩后的高密度信息?中科院自动化所等推出 VTCBench 基准测试,评估模型在视觉空间中的认知极限,包括信息检索、关联推理和长期记忆三大任务。

近期,DeepSeek-OCR 凭借其创新的「视觉文本压缩」(Vision-Text Compression, VTC)范式引发了技术圈的高度关注,以极少的视觉 Token 实现高效的文本信息编码,为长文本处理开辟了新路径。

这一突破性进展让大模型处理超长文本的成本大幅降低,但也抛出了一个核心问题:当长文本被高度压缩为 2D 图像后,视觉语言模型(VLM)真的能理解其中的内容吗?

为了解答这一疑问,来自中科院自动化所、中国科学院香港创新研究院等机构的研究团队推出了首个专门针对视觉 - 文本压缩范式的基准测试 ——VTCBench。



  • 论文链接:https://arxiv.org/abs/2512.15649
  • VTCBench 链接: https://github.com/Moenupa/VTCBench
  • VLMEvalKit 链接:https://github.com/bjzhb666/VLMEvalKit
  • Huggingface 链接: https://huggingface.co/datasets/MLLM-CL/VTCBench



图 1:视觉 - 文本压缩 (VTC) 流程演示及 VTCBench

与传统大模型直接读取成千上万的纯文本 Token 不同,VTC 范式(如 DeepSeek-OCR)先将长文档渲染 (Rendering)为高密度的 2D 图像,再由视觉编码器转化为少量的视觉 Token。

该技术可实现 2 倍至 10 倍的 Token 压缩率,显著降低了长文本处理时的计算与显存开销。

VTCBench 现已在 GitHub 和 Huggingface 全面开源,其衍生版本 VTCBench-Wild 是一个统一的、全方位评估模型在复杂现实场景下视觉文本压缩的鲁棒性,现已集成到 VLMevalkit。

核心使命——衡量「看得见」之后的「看得懂」

目前的 VLM 也许能出色地完成 OCR 识别,但在处理 VTC 压缩后的高密度信息时,其长文本理解能力仍存疑。

VTCBench 通过三大任务,系统性地评估模型在视觉空间中的认知极限:

  1. VTC-Retrieval (信息检索):在视觉「大海」中寻找特定事实的「针」(Needle-in-a-Haystack),测试模型对空间分布信息的捕捉能力;
  2. VTC-Reasoning (关联推理):挑战模型在几乎没有文本重叠的情况下,通过关联推理寻找事实,超越单纯的词汇检索;
  3. VTC-Memory (长期记忆):模拟超长对话,评估模型在视觉压缩框架下,抵御时间与结构性信息衰减的能力。

此外,团队同步推出了 VTCBench-Wild,引入 99 种不同的渲染配置(涵盖多种字体、字号、行高及背景),全方位检测模型在复杂现实场景下的鲁棒性。

揭秘视觉压缩背后的认知瓶颈



图 2:VTCBench 针对模型在长图像中检索信息的热力图。横轴代表上下文长度,纵轴代表关键事实(Needle)在文档中的深度。展现了模型表现的「迷失」与突破。

测试结果呈现出显著的 「U 型曲线」:与文本模型类似,视觉语言模型(VLM)能够精准捕捉开头和结尾的信息,但对于中间部分的事实,理解能力会随着文档变长而剧烈衰退。

这证明了即使在视觉空间,模型依然存在严重的「空间注意力偏见」,是未来 VTC 架构优化的关键方向。

行业洞察 —— 视觉压缩是长文本的终局吗?



通过对 GPT、Gemini、Claude、QwenVL、InternVL、Gemma、KimiVL、Seed1.5 等 10 余种尖端模型的深度评测,可以发现:

虽然 VTC 极大提升了效率,但现有 VLM 在复杂推理和记忆任务上的表现仍显著弱于纯文本 LLM;

消融实验证明,信息密度是决定模型性能的关键因素,直接影响视觉编码器的识别精度;

Gemini-3-Pro 在 VTCBench-Wild 上表现惊艳,其视觉理解能力已几乎追平其纯文本基准,证明了 VTC 是实现大规模长文本处理的极其可行的路径!

总结

如果说传统的长文本处理是「逐字阅读」,那么, DeepSeek-OCR 所引领的 VTC 范式就是「过目成诵」的摄影式记忆。VTCBench 的出现,正是为了确保模型在拥有这种「超能力」的同时,依然能够读懂字里行间的微言大义。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
前一场拿下30+三双,湖人二队后场核心后一场后疯狂砍下了45分?

前一场拿下30+三双,湖人二队后场核心后一场后疯狂砍下了45分?

稻谷与小麦
2026-02-03 09:43:02
春运路上充电桩是否够用?在服务区如何歇得安心?记者观察→

春运路上充电桩是否够用?在服务区如何歇得安心?记者观察→

极目新闻
2026-02-03 07:47:15
以媒:以色列对美国与伊朗谈判提“三不”要求

以媒:以色列对美国与伊朗谈判提“三不”要求

环球网资讯
2026-02-03 06:01:44
日本综艺有多变态?看完下面这些,保证你菊花一紧!

日本综艺有多变态?看完下面这些,保证你菊花一紧!

日本窗
2026-02-02 17:28:30
迈克尔·杰克逊新录音曝光,知情人士透露“令人毛骨悚然”

迈克尔·杰克逊新录音曝光,知情人士透露“令人毛骨悚然”

社会日日鲜
2026-02-02 11:18:44
王哲林谈张镇麟加盟上海:中国篮球被网暴最狠的两个人当队友

王哲林谈张镇麟加盟上海:中国篮球被网暴最狠的两个人当队友

狼叔评论
2026-02-02 12:30:03
陪玩陪睡不够!集体开嫖、舔手指、目无王法,阴暗面彻底藏不住了

陪玩陪睡不够!集体开嫖、舔手指、目无王法,阴暗面彻底藏不住了

好贤观史记
2025-11-09 21:58:39
西贝面临群体诉讼风险,这才是贾国龙的大麻烦

西贝面临群体诉讼风险,这才是贾国龙的大麻烦

月满大江流
2026-02-02 19:07:50
004航母水线下船体春节前可能合拢,推测舰体总长360米左右

004航母水线下船体春节前可能合拢,推测舰体总长360米左右

Ck的蜜糖
2026-02-03 01:34:02
《太平年》5个帝王结局凄惨:最惨的非石重贵、钱弘倧,是刘承祐

《太平年》5个帝王结局凄惨:最惨的非石重贵、钱弘倧,是刘承祐

暖心萌阿菇凉
2026-02-02 16:52:34
大S雕像在雨中揭开,如少女迎风而立

大S雕像在雨中揭开,如少女迎风而立

红星新闻
2026-02-02 15:01:44
捧红王菲、那英、S.H.E的著名音乐人,走了

捧红王菲、那英、S.H.E的著名音乐人,走了

中国新闻周刊
2026-02-02 18:11:19
陕西男子连续3天梦见亡妻求救,不顾阻拦挖坟开棺后,果断报警

陕西男子连续3天梦见亡妻求救,不顾阻拦挖坟开棺后,果断报警

可儿故事汇
2024-08-30 20:04:57
今年NBA全明星阵容,4人不该入选!诞生5位遗珠,伦纳德最可惜

今年NBA全明星阵容,4人不该入选!诞生5位遗珠,伦纳德最可惜

篮球扫地僧
2026-02-02 23:50:31
喜讯!郑智刚上任,就为西海岸敲定两笔重磅签约,冲击亚冠稳了?

喜讯!郑智刚上任,就为西海岸敲定两笔重磅签约,冲击亚冠稳了?

罗掌柜体育
2026-02-03 06:05:03
实探北京菜百:回购柜台排队两小时,有人一次卖出212万元金条

实探北京菜百:回购柜台排队两小时,有人一次卖出212万元金条

中新经纬
2026-02-02 18:46:15
NBA官宣!生涯首次!詹姆斯离队倒计时?

NBA官宣!生涯首次!詹姆斯离队倒计时?

老牛体育解说
2026-02-03 09:36:14
李润五:北京市原副市长

李润五:北京市原副市长

坠入二次元的海洋
2026-02-03 06:57:44
山东人怎么委婉表达东西难吃?被网友的评论笑发财了!

山东人怎么委婉表达东西难吃?被网友的评论笑发财了!

另子维爱读史
2026-02-02 21:33:13
开国上将许世友之孙:中国首位火箭军女博士,长相俊美,为人低调

开国上将许世友之孙:中国首位火箭军女博士,长相俊美,为人低调

文史达观
2026-01-15 14:50:48
2026-02-03 10:27:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12238文章数 142562关注度
往期回顾 全部

科技要闻

马斯克官宣,SpaceX并购xAI,打造天基算力

头条要闻

克林顿夫妇同意就爱泼斯坦案调查赴美众议院作证

头条要闻

克林顿夫妇同意就爱泼斯坦案调查赴美众议院作证

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

57岁音乐人袁惟仁去世,家属发文悼念

财经要闻

“精准查人”黑产链条遭查

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

旅游
家居
艺术
房产
公开课

旅游要闻

风情小镇醉游人

家居要闻

现代几何彩拼 智焕童梦居

艺术要闻

12字草书挑战,高手才能一眼认出!

房产要闻

狂卖1548亿后,海南又上演疯狂抢地!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版