网易首页 > 网易号 > 正文 申请入驻

DeepSeek-OCR是「长文本理解」未来方向吗?中科院新基准给出答案

0
分享至


新智元报道

编辑:LRST

【新智元导读】DeepSeek-OCR的视觉文本压缩(VTC)技术通过将文本编码为视觉Token,实现高达10倍的压缩率,大幅降低大模型处理长文本的成本。但是,视觉语言模型能否理解压缩后的高密度信息?中科院自动化所等推出VTCBench基准测试,评估模型在视觉空间中的认知极限,包括信息检索、关联推理和长期记忆三大任务。

近期,DeepSeek-OCR凭借其创新的「视觉文本压缩」(Vision-Text Compression, VTC)范式引发了技术圈的高度关注,以极少的视觉Token实现高效的文本信息编码,为长文本处理开辟了新路径。

这一突破性进展让大模型处理超长文档的成本大幅降低,但也抛出了一个核心问题:当长文本被高度压缩为2D图像后,视觉语言模型(VLM)真的能理解其中的内容吗?

为了解答这一疑问,来自中科院自动化所、中国科学院香港创新研究院等机构的研究团队推出了首个专门针对视觉-文本压缩范式的基准测试——VTCBench。


论文链接:https://arxiv.org/abs/2512.15649

VTCBench链接: https://github.com/Moenupa/VTCBench

VLMEvalKit链接:https://github.com/bjzhb666/VLMEvalKit

Huggingface链接: https://huggingface.co/datasets/MLLM-CL/VTCBench


图 1:视觉-文本压缩 (VTC) 流程演示及VTCBench

与传统大模型直接读取成千上万的纯文本Token不同,VTC范式(如DeepSeek-OCR)先将长文档渲染 (Rendering)为高密度的2D图像,再由视觉编码器转化为少量的视觉Token

该技术可实现2倍至10倍的Token压缩率,显著降低了长文本处理时的计算与显存开销。

VTCBench现已在GitHub和Huggingface全面开源,其衍生版本VTCBench-Wild是一个统一的、全方位评估模型在复杂现实场景下视觉文本压缩的鲁棒性,现已集成到VLMevalkit。

核心使命

衡量「看得见」之后的「看得懂」

目前的VLM也许能出色地完成OCR识别,但在处理 VTC 压缩后的高密度信息时,其长文本理解能力仍存疑。

VTCBench通过三大任务,系统性地评估模型在视觉空间中的认知极限:

1.VTC-Retrieval (信息检索)在视觉「大海」中寻找特定事实的「针」(Needle-in-a-Haystack),测试模型对空间分布信息的捕捉能力。

2.VTC-Reasoning (关联推理)挑战模型在几乎没有文本重叠的情况下,通过关联推理寻找事实,超越单纯的词汇检索。

3.VTC-Memory (长期记忆)模拟超长对话,评估模型在视觉压缩框架下,抵御时间与结构性信息衰减的能力。

此外,团队同步推出了VTCBench-Wild,引入 99 种不同的渲染配置(涵盖多种字体、字号、行高及背景),全方位检测模型在复杂现实场景下的鲁棒性。

揭秘视觉压缩背后的认知瓶颈


图 2:VTCBench针对模型在长图像中检索信息的热力图。横轴代表上下文长度,纵轴代表关键事实(Needle)在文档中的深度。展现了模型表现的「迷失」与突破。

测试结果呈现出显著的「U 型曲线」:与文本模型类似,视觉语言模型(VLM)能够精准捕捉开头和结尾的信息,但对于中间部分的事实,理解能力会随着文档变长而剧烈衰退。这证明了即使在视觉空间,模型依然存在严重的「空间注意力偏见」,是未来 VTC 架构优化的关键方向。

行业洞察

视觉压缩是长文本的终局吗?


通过对GPT、Gemini、Claude、QwenVL、InternVL、Gemma、KimiVL、Seed1.5等10余种尖端模型的深度评测,可以发现:

虽然VTC极大提升了效率,但现有VLM在复杂推理和记忆任务上的表现仍普遍弱于纯文本LLM;

消融实验证明,信息密度是决定模型性能的关键因素,直接影响视觉编码器的识别精度;

Gemini-3-Pro在VTCBench-Wild上表现惊艳,其视觉理解能力已几乎追平其纯文本基准,证明了VTC是实现大规模长文本处理的极其可行的路径!

总结


如果说传统的长文本处理是「逐字阅读」,那么DeepSeek-OCR所引领的VTC范式就是「过目成诵」的摄影式记忆。VTCBench的出现,正是为了确保模型在拥有这种「超能力」的同时,依然能够读懂字里行间的微言大义。

参考资料:

https://arxiv.org/abs/2512.15649

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
加时被逆转!申京:一切发生太快!杜兰特:在胡打,我该果断出手

加时被逆转!申京:一切发生太快!杜兰特:在胡打,我该果断出手

篮球资讯达人
2026-03-26 15:28:40
日本不再欢迎中国人?3月起日本签证“一刀切”,华人进退两难!

日本不再欢迎中国人?3月起日本签证“一刀切”,华人进退两难!

有范又有料
2026-03-25 14:08:39
一年流出视频294部的小宝到底探过多少朵花?

一年流出视频294部的小宝到底探过多少朵花?

挪威森林
2026-01-25 17:18:42
面对伊朗同归于尽打法,美军亮出王炸底牌:如果战败,就爆核武器

面对伊朗同归于尽打法,美军亮出王炸底牌:如果战败,就爆核武器

半壁胭脂色
2026-03-24 16:09:17
张雪峰去世媒体人发文:我问过了,他还在,网友:最后一课很沉重

张雪峰去世媒体人发文:我问过了,他还在,网友:最后一课很沉重

蜜桔娱乐
2026-03-25 10:20:48
越扒越深!原来张雪峰去世早有预兆,2个不良嗜好成最大催命符?

越扒越深!原来张雪峰去世早有预兆,2个不良嗜好成最大催命符?

阿纂看事
2026-03-26 16:41:16
政坛滔天巨祸,文坛一炮而红

政坛滔天巨祸,文坛一炮而红

我是历史其实挺有趣
2026-03-18 19:49:36
面相这东西真藏不住,停播一个半月的李亚鹏,

面相这东西真藏不住,停播一个半月的李亚鹏,

小光侃娱乐
2026-03-26 16:05:08
老板娘的丝袜都破了,我要不要告诉她买一双?

老板娘的丝袜都破了,我要不要告诉她买一双?

太急张三疯
2026-03-26 12:50:15
3月27日起,方浜中路(松雪街/狮子街—河南南路)实施全封闭施工

3月27日起,方浜中路(松雪街/狮子街—河南南路)实施全封闭施工

上海交警
2026-03-26 14:10:35
1胜180负!杜兰特绝望了!NBA历史最大逆转

1胜180负!杜兰特绝望了!NBA历史最大逆转

篮球教学论坛
2026-03-26 14:51:44
库里可以接着休息了!东部只剩理论!

库里可以接着休息了!东部只剩理论!

篮球大图
2026-03-26 11:25:14
一审判决出炉!柯文哲涉京华城贪渎案重判17年、褫夺公权6年

一审判决出炉!柯文哲涉京华城贪渎案重判17年、褫夺公权6年

海峡导报社
2026-03-26 15:01:04
当孩子问,“同学爸爸说考第一名就给他买ipad,我考第一名,你也给我买吗?”这样回答很关键…

当孩子问,“同学爸爸说考第一名就给他买ipad,我考第一名,你也给我买吗?”这样回答很关键…

二胎妈妈圈
2026-02-08 21:50:30
“史诗狂怒”行动印证美军A-10攻击机无可替代的近距空中支援作用

“史诗狂怒”行动印证美军A-10攻击机无可替代的近距空中支援作用

假如明天来临
2026-03-23 12:10:03
特朗普据悉将请扎克伯格、 埃里森和黄仁勋加入 科技委员会

特朗普据悉将请扎克伯格、 埃里森和黄仁勋加入 科技委员会

每日经济新闻
2026-03-25 23:07:37
潘汉年被认定有三条罪名,陈云作证说:这三条罪名都不成立

潘汉年被认定有三条罪名,陈云作证说:这三条罪名都不成立

浩渺青史
2026-03-25 12:52:37
美军称林肯号航母继续对伊朗作战

美军称林肯号航母继续对伊朗作战

界面新闻
2026-03-26 10:03:25
女孩当小姐,一晚要提供4到5次上门服务,被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,被亲人点到不赴约

情感艺术家
2026-02-26 10:48:00
张雪峰去世后,死对头杜子建爆料节目互怼真相,哭着说彼此是知己

张雪峰去世后,死对头杜子建爆料节目互怼真相,哭着说彼此是知己

育学笔谈
2026-03-26 08:53:29
2026-03-26 17:23:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14819文章数 66720关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
本地
房产
时尚
公开课

艺术要闻

哪一座桥不是风景?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

皮衣+裙,高级到炸

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版