网易首页 > 网易号 > 正文 申请入驻

AI读论文新神器:多栏密集文字、中英图文混排文档都能读|旷视

0
分享至

Fox团队 投稿
量子位 | 公众号 QbitAI

虽然多模态大模型都能挑西瓜了,但理解复杂文档方面还是差点意思。

面对文字密集、多栏混排等文档时往往力不从心,区域级别的细粒度理解,就更是无从谈起了。

最近,旷视团队打造了一支多模态大模型的“点读笔”——Fox,轻松实现对8页文档(中英混合,单栏多栏格式混合的极端场景)的交互式感知理解。

对于信息密集的PDF文档,Fox支持高可控性的细粒度理解,比如在用户感兴趣区域内进行文字识别、段落翻译以及页面内部的图片内容描述等。

论文中,团队进一步突破了对于文档的视觉感知理解的上限,高密度的信息被真正压缩,LVLM真正地“看”懂图,才能真正做好、做出能用的文档多模大模型。

正所谓“一图胜千言”—— one image token >> one text token

接下来,看看Fox在实战中表现如何?

中英混排,单栏多栏组合都不怕

对于中英混合、单栏多栏混合的8页PDF文档,可实现任意区域的OCR:

下图左侧展示了8页文档内跨页的VQA,右侧展示了双栏中文页面的前景OCR。

双栏密集英文页面的前景OCR:

在页面内图片描述方面,Fox能给出文档内内容关联的回答(young Dual Language Learners)。

当然Fox还支持line-level OCR,以及对RoI区域的翻译、总结等。

Fox可以结合页面内文字,认识到这是一张关于global seismic hazards的图。此外,Fox还支持RoI内的latex格式转换,例如下面的table转latex。Fox还支持更加灵活的颜色引导的RoI区域OCR。

对于卡通绘本,也可以哪里不会点哪里:

电影海报和自然场景的对话问答,Fox给出了非常有趣的答案(根据电影海报下面的文字给出了角色来源):

那么Fox是如何做到这些的呢?

多词表协同,多页面文档统一打包

在细粒度文档理解上,Fox有着三大创新:

  • 精准定位

Fox引入了一系列基于位置的文本提示,如点击位置、拖动框、涂色框等。这使得模型可以直接定位到感兴趣的任意区域,而不受文档格式的限制。同时,Fox还把全页OCR重新定义为”前景聚焦”任务,进一步增强了对密集文字的感知。

  • 多视觉词表协同

为了更好地理解图文混排页面,Fox采用了两个不同特长的视觉词表——CLIP主攻自然图像,Vary专攻人工文档。但单纯叠加两种数据,往往会造成视觉偏置。为此,Fox合成了大量含混合视觉元素的数据,迫使两个视觉分支充分协作。

  • 页面打包

得益于高压缩率(每页1024×1024图像对应256个图像token),Fox将多页面文档统一打包输入。这不仅让跨页面的上下文理解成为可能,也大幅降低了计算开销。值得一提的是,这种打包微调模式并不需要重新训练视觉词汇。

在这些创新基础上,Fox模型结构如图所示。

Fox支持单页/多页文档图像输入,所有图像的image token被统一到一个sequence中进行多页文档理解。团队设计了基于point、color、box的prompt,来实现在文档页面上聚焦任意位置。团队合成了图文交织的文档数据,来充分催化两个视觉词表,以更好地适用于实际文档应用场景。

此外,为了促进对文档细粒度理解的研究,作者还打造了一个中英双语的benchmark,已经开源了数据和评测代码,共包含以下9种任务:

  • Page-level OCR
  • Region-level OCR
  • Line-level OCR
  • Color-guided OCR
  • Region-level translation
  • Region-level summary
  • In-document figure caption
  • Multi-page multi-region OCR
  • Cross-page VQA

最后,团队呼吁更多的研究人员能关注到细粒度的单页/多页文档理解,单页的稀疏的问答任务远远不够。

真正做好多模态大模型,视觉编码器的信息压缩率(token转化率)是非常重要的,Fox仅探究了文档这一类应用方向,希望对大家的研究有所帮助。

想了解更多细节,请查看原论文。

论文地址:https://arxiv.org/abs/2405.14295
代码地址:https://github.com/ucaslcl/Fox
项目主页:https://ucaslcl.github.io/foxhome/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《四渡》影评:本意是好的,但是被没文化拖了后腿!

《四渡》影评:本意是好的,但是被没文化拖了后腿!

北山浮生
2026-07-03 08:04:55
日本早稻田大学女生赴印度住院1个月,把油灌进眼睛和肠道,只为体验排毒!日网友:不脏吗?

日本早稻田大学女生赴印度住院1个月,把油灌进眼睛和肠道,只为体验排毒!日网友:不脏吗?

东京新青年
2026-07-05 18:09:48
就在今天,中国女排迎战泰国,有望3-0轻松拿下,续写四连胜神话

就在今天,中国女排迎战泰国,有望3-0轻松拿下,续写四连胜神话

体坛侃排球
2026-07-05 00:00:09
166票赞成0票反对!韩投票结果出来了,李在明下令,向菲律宾派兵

166票赞成0票反对!韩投票结果出来了,李在明下令,向菲律宾派兵

墨子翟的日记y
2026-07-02 14:48:42
后来才明白,电动车充满电后不拔,不是充电,是在给电池“加班”

后来才明白,电动车充满电后不拔,不是充电,是在给电池“加班”

沙雕小琳琳
2026-07-02 19:46:52
没有证据?那就发明证据!从中国第一“女福尔摩斯”到冤案制造者

没有证据?那就发明证据!从中国第一“女福尔摩斯”到冤案制造者

许三岁
2026-06-24 11:06:59
潜伏在我国高层的4大间谍,被安插在军政两界,导致我国损失惨重

潜伏在我国高层的4大间谍,被安插在军政两界,导致我国损失惨重

夜里看海
2026-07-04 05:15:32
全新Model YL官宣登场,特斯拉国内新车定价33.9万

全新Model YL官宣登场,特斯拉国内新车定价33.9万

生活魔术专家
2026-07-04 19:55:58
太离谱,郭士强最新发言引众怒,比乔尔杰维奇还过分,真该下课了

太离谱,郭士强最新发言引众怒,比乔尔杰维奇还过分,真该下课了

宗介说体育
2026-07-05 09:46:10
梅德韦杰夫葬礼上支“高招 ”,如果伊朗真听了,后果恐怕不堪设想

梅德韦杰夫葬礼上支“高招 ”,如果伊朗真听了,后果恐怕不堪设想

爱意随风起呀
2026-07-05 16:23:18
网传烟草行业进入艰难时刻,难道他们也要裁员,评论区炸锅…

网传烟草行业进入艰难时刻,难道他们也要裁员,评论区炸锅…

慧翔百科
2026-07-02 17:43:15
马宁的含金量还在上升!巴拉圭对阵法国主裁判罚尺度惹争议,曾主哨国足世预赛获低分

马宁的含金量还在上升!巴拉圭对阵法国主裁判罚尺度惹争议,曾主哨国足世预赛获低分

上游新闻
2026-07-05 11:59:39
因受俄罗斯威胁,德国防长获得桥梁、铁路及隧道话语权

因受俄罗斯威胁,德国防长获得桥梁、铁路及隧道话语权

新时代精神
2026-07-05 13:04:47
世界杯第19球!姆巴佩点球破门,淘汰赛第11球,连刷12大纪录

世界杯第19球!姆巴佩点球破门,淘汰赛第11球,连刷12大纪录

奥拜尔
2026-07-05 06:35:14
毕业就有“铁饭碗”的3所大学,最低400分就能上!

毕业就有“铁饭碗”的3所大学,最低400分就能上!

户外阿毽
2026-07-05 15:51:32
零跑"神车"官宣:12.98万,新车上市

零跑"神车"官宣:12.98万,新车上市

科技堡垒
2026-07-05 11:25:03
风水轮流转!中国网友集体反对欧洲吹空调,奥巴马回旋镖砸中西方

风水轮流转!中国网友集体反对欧洲吹空调,奥巴马回旋镖砸中西方

影孖看世界
2026-07-05 16:37:55
桃子再次成为关注对象!多名院士发现:常吃桃子的人,有7个变化

桃子再次成为关注对象!多名院士发现:常吃桃子的人,有7个变化

叙说医疗健康
2026-07-03 06:00:09
大量缅甸美女涌入云南,表面上是来打工的,其实另有目的?

大量缅甸美女涌入云南,表面上是来打工的,其实另有目的?

王姐懒人家常菜
2026-07-05 10:36:28
成本骤降90%!以色列“铁束”激光武器即将飞上F-15,无人机克星升空倒计时

成本骤降90%!以色列“铁束”激光武器即将飞上F-15,无人机克星升空倒计时

算力游侠
2026-07-05 01:29:28
2026-07-05 19:47:00
量子位 incentive-icons
量子位
追踪人工智能动态
12895文章数 176510关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

俄乌战场近期突然激烈 专家:战场逻辑和重点发生改变

头条要闻

俄乌战场近期突然激烈 专家:战场逻辑和重点发生改变

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

数码
手机
旅游
亲子
家居

数码要闻

三星SSD 990规格曝光:连续读取速度最高为7250MB/s

手机要闻

全网吵翻!到底是谁带头取消了有线耳机?网友:错怪苹果了

旅游要闻

200万人次见证!上海乐高乐园点亮金山快乐经济

亲子要闻

三岁被喂到70斤,有些家长为了搞流量,真敢把亲生骨肉当猪养

家居要闻

传奇筑 日常诗

无障碍浏览 进入关怀版