网易首页 > 网易号 > 正文 申请入驻

DeepSeek-OCR是「长文本理解」未来方向吗?中科院新基准给出答案

0
分享至


新智元报道

编辑:LRST

【新智元导读】DeepSeek-OCR的视觉文本压缩(VTC)技术通过将文本编码为视觉Token,实现高达10倍的压缩率,大幅降低大模型处理长文本的成本。但是,视觉语言模型能否理解压缩后的高密度信息?中科院自动化所等推出VTCBench基准测试,评估模型在视觉空间中的认知极限,包括信息检索、关联推理和长期记忆三大任务。

近期,DeepSeek-OCR凭借其创新的「视觉文本压缩」(Vision-Text Compression, VTC)范式引发了技术圈的高度关注,以极少的视觉Token实现高效的文本信息编码,为长文本处理开辟了新路径。

这一突破性进展让大模型处理超长文档的成本大幅降低,但也抛出了一个核心问题:当长文本被高度压缩为2D图像后,视觉语言模型(VLM)真的能理解其中的内容吗?

为了解答这一疑问,来自中科院自动化所、中国科学院香港创新研究院等机构的研究团队推出了首个专门针对视觉-文本压缩范式的基准测试——VTCBench。


论文链接:https://arxiv.org/abs/2512.15649

VTCBench链接: https://github.com/Moenupa/VTCBench

VLMEvalKit链接:https://github.com/bjzhb666/VLMEvalKit

Huggingface链接: https://huggingface.co/datasets/MLLM-CL/VTCBench


图 1:视觉-文本压缩 (VTC) 流程演示及VTCBench

与传统大模型直接读取成千上万的纯文本Token不同,VTC范式(如DeepSeek-OCR)先将长文档渲染 (Rendering)为高密度的2D图像,再由视觉编码器转化为少量的视觉Token

该技术可实现2倍至10倍的Token压缩率,显著降低了长文本处理时的计算与显存开销。

VTCBench现已在GitHub和Huggingface全面开源,其衍生版本VTCBench-Wild是一个统一的、全方位评估模型在复杂现实场景下视觉文本压缩的鲁棒性,现已集成到VLMevalkit。

核心使命

衡量「看得见」之后的「看得懂」

目前的VLM也许能出色地完成OCR识别,但在处理 VTC 压缩后的高密度信息时,其长文本理解能力仍存疑。

VTCBench通过三大任务,系统性地评估模型在视觉空间中的认知极限:

1.VTC-Retrieval (信息检索)在视觉「大海」中寻找特定事实的「针」(Needle-in-a-Haystack),测试模型对空间分布信息的捕捉能力。

2.VTC-Reasoning (关联推理)挑战模型在几乎没有文本重叠的情况下,通过关联推理寻找事实,超越单纯的词汇检索。

3.VTC-Memory (长期记忆)模拟超长对话,评估模型在视觉压缩框架下,抵御时间与结构性信息衰减的能力。

此外,团队同步推出了VTCBench-Wild,引入 99 种不同的渲染配置(涵盖多种字体、字号、行高及背景),全方位检测模型在复杂现实场景下的鲁棒性。

揭秘视觉压缩背后的认知瓶颈


图 2:VTCBench针对模型在长图像中检索信息的热力图。横轴代表上下文长度,纵轴代表关键事实(Needle)在文档中的深度。展现了模型表现的「迷失」与突破。

测试结果呈现出显著的「U 型曲线」:与文本模型类似,视觉语言模型(VLM)能够精准捕捉开头和结尾的信息,但对于中间部分的事实,理解能力会随着文档变长而剧烈衰退。这证明了即使在视觉空间,模型依然存在严重的「空间注意力偏见」,是未来 VTC 架构优化的关键方向。

行业洞察

视觉压缩是长文本的终局吗?


通过对GPT、Gemini、Claude、QwenVL、InternVL、Gemma、KimiVL、Seed1.5等10余种尖端模型的深度评测,可以发现:

虽然VTC极大提升了效率,但现有VLM在复杂推理和记忆任务上的表现仍普遍弱于纯文本LLM;

消融实验证明,信息密度是决定模型性能的关键因素,直接影响视觉编码器的识别精度;

Gemini-3-Pro在VTCBench-Wild上表现惊艳,其视觉理解能力已几乎追平其纯文本基准,证明了VTC是实现大规模长文本处理的极其可行的路径!

总结


如果说传统的长文本处理是「逐字阅读」,那么DeepSeek-OCR所引领的VTC范式就是「过目成诵」的摄影式记忆。VTCBench的出现,正是为了确保模型在拥有这种「超能力」的同时,依然能够读懂字里行间的微言大义。

参考资料:

https://arxiv.org/abs/2512.15649

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
香港知名女歌手自爆追求者众多,择偶靠感觉:暂未遇到合适对象

香港知名女歌手自爆追求者众多,择偶靠感觉:暂未遇到合适对象

TVB剧评社
2026-01-18 17:09:53
气疯了!乌兹别克媒体:我们会输给中国男足?这是一场噩梦!

气疯了!乌兹别克媒体:我们会输给中国男足?这是一场噩梦!

国足风云
2026-01-18 08:44:41
在性生活前,怎么判断对象有无性病?2个常见方法,了解保护自己

在性生活前,怎么判断对象有无性病?2个常见方法,了解保护自己

蜉蝣说
2026-01-18 19:32:57
股民站稳扶好!不出意外的话,1月19日,明天周一将迎核弹级别行情?

股民站稳扶好!不出意外的话,1月19日,明天周一将迎核弹级别行情?

股市皆大事
2026-01-18 10:32:55
长春达到-29.5℃,吉林省公布各地最低温最新数据

长春达到-29.5℃,吉林省公布各地最低温最新数据

鲁中晨报
2026-01-18 14:31:31
日本人气球星高桥蓝因与女优河北彩伽爆绯闻,远走波超卢布林

日本人气球星高桥蓝因与女优河北彩伽爆绯闻,远走波超卢布林

排球大视界
2026-01-17 20:22:57
李亚鹏总算听劝了!纸巾牛奶玉米全上架,网友买疯了

李亚鹏总算听劝了!纸巾牛奶玉米全上架,网友买疯了

钱小刀娱乐
2026-01-17 21:59:50
特朗普令美军大炼稀土,发现一个要命真相:中国同时垄断两样东西

特朗普令美军大炼稀土,发现一个要命真相:中国同时垄断两样东西

阿柒的讯
2026-01-18 18:35:34
原来王菲没撒谎!公开求助、哽咽落泪的李亚鹏,证实了她当年评价

原来王菲没撒谎!公开求助、哽咽落泪的李亚鹏,证实了她当年评价

冷紫葉
2026-01-15 19:08:26
男书记出轨女同事5年后续来了!爷奶已删除孩子联系方式

男书记出轨女同事5年后续来了!爷奶已删除孩子联系方式

李健政观察
2026-01-17 09:39:03
访华一结束,芯片立刻涨价70%还断供,中国何时能追上韩国水平?

访华一结束,芯片立刻涨价70%还断供,中国何时能追上韩国水平?

百科密码
2026-01-17 14:48:29
何超盈带7岁女儿出席TVB慈善夜,坐第一排捐了百万,与汪明荃同框

何超盈带7岁女儿出席TVB慈善夜,坐第一排捐了百万,与汪明荃同框

阿废冷眼观察所
2026-01-18 12:35:23
剧组夜拍雨戏,婴儿长时间淋雨哭得撕心裂肺,片酬仅800元,部分家长因经济压力接受此类拍摄

剧组夜拍雨戏,婴儿长时间淋雨哭得撕心裂肺,片酬仅800元,部分家长因经济压力接受此类拍摄

观威海
2026-01-18 16:34:07
中国稀土太子爷的奢靡生活:90万一顿饭,父子俩挥霍上百亿资产

中国稀土太子爷的奢靡生活:90万一顿饭,父子俩挥霍上百亿资产

博览历史
2025-08-18 21:25:03
昔日的客机巨头:洛克希德的悲情落幕

昔日的客机巨头:洛克希德的悲情落幕

航空笔记
2025-11-25 19:54:07
利欧股份(002131)复牌即一字跌停:三大硬逻辑锁定下跌宿命

利欧股份(002131)复牌即一字跌停:三大硬逻辑锁定下跌宿命

风风顺
2026-01-18 08:46:58
明天起大喜临门!这3大生肖处处遇贵人,努力有回报财运火爆

明天起大喜临门!这3大生肖处处遇贵人,努力有回报财运火爆

人閒情事
2026-01-18 13:03:06
三婚取小37岁徒弟,81岁生女84岁生儿,如今住美国豪宅好不惬意

三婚取小37岁徒弟,81岁生女84岁生儿,如今住美国豪宅好不惬意

火之文
2026-01-18 17:30:08
广西已有多人违规!官方紧急声明

广西已有多人违规!官方紧急声明

南国今报
2026-01-18 16:41:07
原来她早已离世!自己订墓园和寿衣,3200万遗产全给姐姐

原来她早已离世!自己订墓园和寿衣,3200万遗产全给姐姐

丹妮观
2026-01-18 12:39:12
2026-01-18 20:11:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14359文章数 66512关注度
往期回顾 全部

科技要闻

AI大事!马斯克:索赔9300亿元

头条要闻

梁小龙去世 其个人社交媒体10小时前发文"此事古难全"

头条要闻

梁小龙去世 其个人社交媒体10小时前发文"此事古难全"

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

香港武打演员梁小龙去世:享年77

财经要闻

BBA,势败如山倒

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

健康
家居
房产
数码
军事航空

血常规3项异常,是身体警报!

家居要闻

岁月柔情 现代品质轻奢

房产要闻

真四代来了!这次,海口楼市将彻底颠覆!

数码要闻

249元起的工业级风扇,有多强?

军事要闻

伊拉克国防部:已全面接管阿萨德空军基地

无障碍浏览 进入关怀版