网易首页 > 网易号 > 正文 申请入驻

内存直降50%,token需求少56%!用视觉方式处理长文本

0
分享至


新智元报道

编辑:LRST

【新智元导读】在NeurIPS 2025论文中,来自「南京理工大学、中南大学、南京林业大学」的研究团队提出了一个极具突破性的框架——VIST(Vision-centric Token Compression in LLM),为大语言模型的长文本高效推理提供了全新的「视觉解决方案」。值得注意的是,这一思路与近期引起广泛关注的DeepSeek-OCR的核心理念不谋而合。

在处理短文本时,大语言模型(LLM)已经表现出惊人的理解和生成能力。但现实世界中的许多任务——如长文档理解、复杂问答、检索增强生成(RAG)等——都需要模型处理成千上万甚至几十万长度的上下文。

与此同时,模型参数规模也从数十亿一路飙升至万亿级别。

在「上下文长度激增」与「模型参数量膨胀」的双重挑战下,Token压缩不再是优化项,而是必需品。

若不能有效缩减输入规模,即便最强大的大语言模型,也难以高效处理我们需要它分析的海量信息。

南京理工大学、中南大学、南京林业大学的研究人员提出VIST(Vision-centric Token Compression in LLM)框架,正是为了解决这一痛点。


论文链接:https://arxiv.org/abs/2502.00791

研究团队早在一年多以前NeurIPS 2024就开始探索——如何让模型像人类一样,以视觉的方式更高效地理解长文本。


论文链接:https://arxiv.org/pdf/2406.02547

人类阅读文章时,不会逐字读完每一个词。

「的」「了」「和」这些功能性高频词,几乎是被大脑自动略过的。真正让我们停下来的,是那些承载意义的低频词——名词、动词、数字等。

VIST 的核心思想,就是让大模型也具备这种「选择性阅读」能力。

它设计了一种模仿人类「快–慢阅读通路(Slow–Fast Reading Circuit)」的视觉化压缩机制,让大模型在理解长文本时,既能快速扫读,又能深入思考:

快路径(Fast Path)将远处、相对次要的上下文渲染为图像,由一个冻结的轻量级视觉编码器快速提取显著性语义;

慢路径(Slow Path)将关键的近处文本直接输入 LLM,用于深层推理与语言生成。

这种「视觉+语言」的双通道协作,就像人类的眼睛与大脑——一边扫视全局,一边聚焦要点,深度思考。

VIST让模型真正具备了「像人一样速读」的能力。


凭借这一设计,在处理相同文本内容时,VIST所需的视觉Token数量仅为传统文本分词所需Token数量的56%,内存减少了50%。

用「视觉压缩」解锁长文本理解

早期的LLM主要通过tokenizer把文本拆分的离散token输入给LLM去处理,这种范式带来了很多好处如高度语义化。

但是已有研究发现,经过大规模图文配对数据预训练,CLIP等视觉编码器能够自发掌握 OCR 能力,这使它们可以直接理解文本图像内容,为长文本的视觉化处理提供了强大工具。

VIST则借鉴了人类高效阅读的技巧,提出了一种全新的快–慢视觉压缩框架,用视觉方式处理长文本,让模型既能快速扫读,又能深度理解。

快路径(Fast Path)

将次要的长距离上下文渲染成图像,由轻量级视觉编码器处理;

通过 Resampler 将视觉特征进一步压缩为4倍

压缩后的视觉特征再通过cross-attention与LLM的主输入整合。

慢路径(Slow Path)

对近处或核心文本直接交给LLM处理,进行深度推理和语言生成

这种「扫视远处,专注近处」的方式,模拟了人类阅读的自然策略,让模型在长文本场景下既高效又精准。


概率感知视觉增强

教模型学会略读

虽然视觉编码器(如 CLIP)非常强大,但它们主要在自然图像上训练,对于渲染文本的理解能力有限。而且,长文本中往往充斥大量冗余信息,如果不加选择地处理,浪费算力,还会被干扰得抓不住重点。

为此,VIST引入了一个巧妙的机制——概率感知视觉增强(PVE, Probability-informed Visual Enhancement),教模型「略读」,抓住关键信息,忽略冗余词


在训练中,PVE采用基于频率的屏蔽策略(Frequency-based Masking Strategy)把高频但信息量低的词(如英文中的 「the」、「with」)掩码而重点保留低频、高信息量词如名词、动词、数字等核心内容。

这些经过语义优化的文本嵌入(embeddings)有效指导Resampler从文本图像中提取最重要的语义信息,让视觉压缩模块更高效、更精准。

视觉压缩的极大潜力

开放域问答(Open-domainQA任务以及11 个 In-Context Learning(ICL)基准任务上,VIST 显著优于基于文本编码器的压缩方法 CEPE。

即便在极端条件下——所有篇章仅通过视觉编码器处理——VIST仍能在开放域问答任务中达到与TinyLlama相当的性能,充分显示了视觉压缩在长文本处理中的可靠性。

此外,VIST在处理相同文本内容时,所需视觉 Token 数量比传统文本 Token 少56%(压缩比约为2.3,从 1024 个文本Token压缩到448个视觉 Token),同时显存使用减少50%,极大提高了计算效率。




让大模型「用眼睛读文字」

VIST利用轻量级视觉编码器,将冗长的上下文信息压缩处理,为大语言模型提供了一条高效、低成本的新路径。

更妙的是,视觉编码器还能充当视觉文本分词器(Visual Text Tokenization),带来四大优势:

1. 简化分词流程传统文本分词器依赖复杂规则和固定词表,通常涉及近十步人工预处理(如小写化、标点符号处理、停用词过滤等)。

视觉编码器直接将渲染后的文本视作图像输入,无需繁琐预处理,处理流程更直接高效。

2. 突破词表瓶颈传统分词器在多语言环境下容易受词表限制影响性能,而视觉编码器无需词表,统一处理多种语言文本,大幅降低嵌入矩阵和输出层的计算与显存开销。

3. 对字符级噪声更鲁棒视觉编码器关注整体视觉模式,而非单个 Token 匹配,因此对拼写错误或低级文本攻击具备天然抵抗力。

4. 多语言高效性尽管本文主要针对英文,视觉文本分词器在其他语言中同样高效:与传统文本分词相比,可减少62%的日文Token、78%的韩文Token、27%的中文Token,在处理长文本时优势尤为显著。

结语与未来展望

VIST 展示了「视觉 + 语言」协作在大模型长文本理解中的巨大潜力:

  • 它让大模型能够「像人一样读」,快速扫视冗余信息,同时专注于关键内容;

  • 它为多语言、长文本、甚至多模态场景提供了高效处理方案。

未来,视觉驱动的 Token 压缩可能会成为长上下文 LLM 的标准组件。 随着模型规模不断增长,这种「先看再读」的策略,将帮助大模型在保证理解能力的同时,大幅降低计算成本,为多模态智能理解铺平道路。

参考资料:

https://arxiv.org/abs/2502.00791

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
苏超落幕,唯一女帅黑到底,泰州“连滚带爬”拿冠军,南通意难平

苏超落幕,唯一女帅黑到底,泰州“连滚带爬”拿冠军,南通意难平

小彭美识
2025-11-02 12:00:10
中美关系为何变得这么差?你看当年布热津斯基说了些啥,太现实了

中美关系为何变得这么差?你看当年布热津斯基说了些啥,太现实了

介知
2025-10-15 16:23:53
拉塞尔31分带不动状元,康宁汉姆疯狂喂饼21+18,活塞挑落独行侠

拉塞尔31分带不动状元,康宁汉姆疯狂喂饼21+18,活塞挑落独行侠

钉钉陌上花开
2025-11-02 12:57:22
层次越低的中年男人,爱炫耀这2样东西,很油腻

层次越低的中年男人,爱炫耀这2样东西,很油腻

有故事的人
2025-11-01 06:31:09
吃里扒外!定居美国13年,回国捞金惨遭“驱逐”,52岁活成了笑话

吃里扒外!定居美国13年,回国捞金惨遭“驱逐”,52岁活成了笑话

失宠的小野猪
2025-10-21 20:00:12
王自如的样子,戳中了多少中年男人的难:发福脱发事业滑坡,我们都在硬扛

王自如的样子,戳中了多少中年男人的难:发福脱发事业滑坡,我们都在硬扛

可乐谈情感
2025-10-28 01:04:05
蒋万安手腕够绝:上午与郑丽文握手发通稿,下午便端坐其对面

蒋万安手腕够绝:上午与郑丽文握手发通稿,下午便端坐其对面

蛙斯基娱乐中
2025-10-27 00:27:29
金靖、刘胜瑛《男人装》,有没有喜欢这一款的!

金靖、刘胜瑛《男人装》,有没有喜欢这一款的!

陈意小可爱
2025-11-01 13:52:45
去横店探班后,我们发现绿幕正在被一块LED屏淘汰。

去横店探班后,我们发现绿幕正在被一块LED屏淘汰。

差评XPIN
2025-11-01 00:06:44
屁股大的女生怎么穿?蓝色短款上衣搭灰色瑜伽裤,这背影太撩人了

屁股大的女生怎么穿?蓝色短款上衣搭灰色瑜伽裤,这背影太撩人了

小乔古装汉服
2025-11-01 19:31:49
女人味十足蝙蝠衫穿搭分享

女人味十足蝙蝠衫穿搭分享

美女穿搭分享
2025-11-01 13:20:03
震惊:美机密档案泄露,彭加木已逃离地球,竟是8000年前外星使者

震惊:美机密档案泄露,彭加木已逃离地球,竟是8000年前外星使者

大耳朵老师
2024-10-31 09:56:10
曾国藩弄死何桂清:一场教科书级别的权力斗争

曾国藩弄死何桂清:一场教科书级别的权力斗争

掠影后有感
2025-10-30 08:26:48
6万球迷见证!苏超联赛冠军诞生:泰州点球4-3击败南通,一黑到底

6万球迷见证!苏超联赛冠军诞生:泰州点球4-3击败南通,一黑到底

侃球熊弟
2025-11-01 20:26:47
知名女星官宣结婚已怀孕

知名女星官宣结婚已怀孕

鲁中晨报
2025-11-01 10:35:36
广东一水库边疑现大量“放生猫”,有猫落水,多方回应

广东一水库边疑现大量“放生猫”,有猫落水,多方回应

新京报
2025-11-02 14:07:57
不是病死的,而是治死的?这5病不去医院活得更久?医生说出答案

不是病死的,而是治死的?这5病不去医院活得更久?医生说出答案

周哥一影视
2025-11-01 12:01:41
广东省委书记黄坤明点燃火炬,交给薛其坤,颜宁、刘虹等担任火炬手

广东省委书记黄坤明点燃火炬,交给薛其坤,颜宁、刘虹等担任火炬手

政知新媒体
2025-11-02 10:27:33
扣你哪里最敏感?

扣你哪里最敏感?

果粉之家
2025-10-19 12:31:17
镇得住场子的苏超唯一女主帅!泰州女主帅踢过世界杯

镇得住场子的苏超唯一女主帅!泰州女主帅踢过世界杯

林子说事
2025-11-02 08:36:54
2025-11-02 16:03:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13767文章数 66236关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

"最快女护士"张水华获得"复出"后首个全马冠军

头条要闻

"最快女护士"张水华获得"复出"后首个全马冠军

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

离世的他曾是刘德华张学友御用班底

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

本地
手机
家居
艺术
公开课

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

手机要闻

W43周单品销量Top30出炉,苹果霸占前三

家居要闻

吸睛艺术 富有传奇色彩

艺术要闻

被溥仪卖给日本的王羲之真迹,内藏20幅罕见手稿,揭露草书最深层奥秘!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版