网易首页 > 网易号 > 正文 申请入驻

DeepSeek-OCR是「长文本理解」未来方向吗?中科院新基准给出答案

0
分享至

来源:市场资讯

(来源:新智元)


新智元报道

编辑:LRST

【新智元导读】DeepSeek-OCR的视觉文本压缩(VTC)技术通过将文本编码为视觉Token,实现高达10倍的压缩率,大幅降低大模型处理长文本的成本。但是,视觉语言模型能否理解压缩后的高密度信息?中科院自动化所等推出VTCBench基准测试,评估模型在视觉空间中的认知极限,包括信息检索、关联推理和长期记忆三大任务。

近期,DeepSeek-OCR凭借其创新的「视觉文本压缩」(Vision-Text Compression, VTC)范式引发了技术圈的高度关注,以极少的视觉Token实现高效的文本信息编码,为长文本处理开辟了新路径。

这一突破性进展让大模型处理超长文档的成本大幅降低,但也抛出了一个核心问题:当长文本被高度压缩为2D图像后,视觉语言模型(VLM)真的能理解其中的内容吗?

为了解答这一疑问,来自中科院自动化所、中国科学院香港创新研究院等机构的研究团队推出了首个专门针对视觉-文本压缩范式的基准测试——VTCBench。


论文链接:https://arxiv.org/abs/2512.15649

VTCBench链接: https://github.com/Moenupa/VTCBench

VLMEvalKit链接:https://github.com/bjzhb666/VLMEvalKit

Huggingface链接: https://huggingface.co/datasets/MLLM-CL/VTCBench


图 1:视觉-文本压缩 (VTC) 流程演示及VTCBench

与传统大模型直接读取成千上万的纯文本Token不同,VTC范式(如DeepSeek-OCR)先将长文档渲染 (Rendering)为高密度的2D图像,再由视觉编码器转化为少量的视觉Token。

该技术可实现2倍至10倍的Token压缩率,显著降低了长文本处理时的计算与显存开销。

VTCBench现已在GitHub和Huggingface全面开源,其衍生版本VTCBench-Wild是一个统一的、全方位评估模型在复杂现实场景下视觉文本压缩的鲁棒性,现已集成到VLMevalkit。

核心使命

衡量「看得见」之后的「看得懂」

目前的VLM也许能出色地完成OCR识别,但在处理 VTC 压缩后的高密度信息时,其长文本理解能力仍存疑。

VTCBench通过三大任务,系统性地评估模型在视觉空间中的认知极限:

1.VTC-Retrieval (信息检索):在视觉「大海」中寻找特定事实的「针」(Needle-in-a-Haystack),测试模型对空间分布信息的捕捉能力。

2.VTC-Reasoning (关联推理):挑战模型在几乎没有文本重叠的情况下,通过关联推理寻找事实,超越单纯的词汇检索。

3.VTC-Memory (长期记忆):模拟超长对话,评估模型在视觉压缩框架下,抵御时间与结构性信息衰减的能力。

此外,团队同步推出了VTCBench-Wild,引入 99 种不同的渲染配置(涵盖多种字体、字号、行高及背景),全方位检测模型在复杂现实场景下的鲁棒性。

揭秘视觉压缩背后的认知瓶颈


图 2:VTCBench针对模型在长图像中检索信息的热力图。横轴代表上下文长度,纵轴代表关键事实(Needle)在文档中的深度。展现了模型表现的「迷失」与突破。

测试结果呈现出显著的「U 型曲线」:与文本模型类似,视觉语言模型(VLM)能够精准捕捉开头和结尾的信息,但对于中间部分的事实,理解能力会随着文档变长而剧烈衰退。这证明了即使在视觉空间,模型依然存在严重的「空间注意力偏见」,是未来 VTC 架构优化的关键方向。

行业洞察

视觉压缩是长文本的终局吗?


通过对GPT、Gemini、Claude、QwenVL、InternVL、Gemma、KimiVL、Seed1.5等10余种尖端模型的深度评测,可以发现:

虽然VTC极大提升了效率,但现有VLM在复杂推理和记忆任务上的表现仍普遍弱于纯文本LLM;

消融实验证明,信息密度是决定模型性能的关键因素,直接影响视觉编码器的识别精度;

Gemini-3-Pro在VTCBench-Wild上表现惊艳,其视觉理解能力已几乎追平其纯文本基准,证明了VTC是实现大规模长文本处理的极其可行的路径!

总结

如果说传统的长文本处理是「逐字阅读」,那么DeepSeek-OCR所引领的VTC范式就是「过目成诵」的摄影式记忆。VTCBench的出现,正是为了确保模型在拥有这种「超能力」的同时,依然能够读懂字里行间的微言大义。

参考资料:

https://arxiv.org/abs/2512.15649

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
A股:从今天起,历史或将惊人相似!4100点大级别主升浪要来了吗?

A股:从今天起,历史或将惊人相似!4100点大级别主升浪要来了吗?

股市皆大事
2026-01-09 11:51:15
雷军再回应"1300公里只充一次电" 水军想给我贴"虚假营销"的标签

雷军再回应"1300公里只充一次电" 水军想给我贴"虚假营销"的标签

每日经济新闻
2026-01-09 10:29:49
特朗普:必须“拥有”整个格陵兰

特朗普:必须“拥有”整个格陵兰

环球网资讯
2026-01-09 06:30:52
孙怡驾驶价值400万的法拉利跑车违规,火速在微博认错,称“做了不良示范”

孙怡驾驶价值400万的法拉利跑车违规,火速在微博认错,称“做了不良示范”

今古深日报
2026-01-09 10:34:41
洗澡可能影响寿命!医生再次提醒:51岁以后,牢记洗澡“4不要”

洗澡可能影响寿命!医生再次提醒:51岁以后,牢记洗澡“4不要”

39健康网
2026-01-08 20:18:51
外交部回应美领导人涉台言论

外交部回应美领导人涉台言论

界面新闻
2026-01-09 15:21:32
向杀父嫌犯,索赔1000万

向杀父嫌犯,索赔1000万

中国新闻周刊
2026-01-09 12:17:57
看到委内瑞拉的情况,李显龙在怕什么?

看到委内瑞拉的情况,李显龙在怕什么?

新民周刊
2026-01-09 09:09:48
韩国总统李在明即将访问日本,中方表态

韩国总统李在明即将访问日本,中方表态

环球网资讯
2026-01-09 15:22:14
中国2号公告已出,高市开始冒汗,日方密集表态,一大佬喊话高市

中国2号公告已出,高市开始冒汗,日方密集表态,一大佬喊话高市

策略述
2026-01-09 12:59:35
网友爆料河北天然气补贴延长三年,不少人称已经到账

网友爆料河北天然气补贴延长三年,不少人称已经到账

映射生活的身影
2026-01-08 18:54:58
特朗普的支持者称,若巴伦迎娶丹麦公主,格陵兰可作为嫁妆赠美国

特朗普的支持者称,若巴伦迎娶丹麦公主,格陵兰可作为嫁妆赠美国

遍体鳞伤为我证明
2026-01-09 08:18:58
中国猛捶日本,第一波反制刚到,第二波进入倒计时:191国靠边站

中国猛捶日本,第一波反制刚到,第二波进入倒计时:191国靠边站

近史博览
2026-01-09 14:53:29
突发!Manus交易大概率要黄了!

突发!Manus交易大概率要黄了!

达文西看世界
2026-01-09 12:55:01
突发:伊朗大范围断网

突发:伊朗大范围断网

中国能源网
2026-01-09 11:08:20
黄金时代落幕,一代鞋王为何集体“失足”?

黄金时代落幕,一代鞋王为何集体“失足”?

蓝鲸新闻
2026-01-08 11:33:15
震惊!网传柬埔寨木牌街头,一三轮车拉着的铁笼,半蹲着几名男子

震惊!网传柬埔寨木牌街头,一三轮车拉着的铁笼,半蹲着几名男子

火山詩话
2026-01-08 13:16:47
天安门原升旗手张自轩结婚,岳父豪送奥迪A6,新娘身份不一般

天安门原升旗手张自轩结婚,岳父豪送奥迪A6,新娘身份不一般

八斗小先生
2026-01-08 18:19:01
上海一厅局级干部突然辞职,刚40岁出头!离开体制后,他比以前更忙了,全职创业究竟值吗?

上海一厅局级干部突然辞职,刚40岁出头!离开体制后,他比以前更忙了,全职创业究竟值吗?

上海黄浦
2026-01-09 09:57:39
敏感时刻,加拿大总理访华有何不同寻常?| 京酿馆

敏感时刻,加拿大总理访华有何不同寻常?| 京酿馆

新京报评论
2026-01-09 14:30:40
2026-01-09 16:00:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1972577文章数 5198关注度
往期回顾 全部

科技要闻

市场偏爱MiniMax:开盘涨42%,市值超700亿

头条要闻

"老板"拉群开口就要150万 女财务付100万后感觉天塌了

头条要闻

"老板"拉群开口就要150万 女财务付100万后感觉天塌了

体育要闻

金元时代最后的外援,来中国8年了

娱乐要闻

檀健次恋爱风波越演越烈 上学经历被扒

财经要闻

郁亮的万科35年:从"宝万之争"到"活下去"

汽车要闻

英伟达的野心:做一套自动驾驶的“安卓系统”

态度原创

健康
艺术
教育
公开课
军事航空

这些新疗法,让化疗不再那么痛苦

艺术要闻

Sean Yoro:街头艺术界的“冲浪高手”

教育要闻

一年级培优题,填数字,很多家长都算错了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:已开始从委石油资源中赚钱

无障碍浏览 进入关怀版