网易首页 > 网易号 > 正文 申请入驻

AI读论文新神器:多栏密集文字、中英图文混排文档都能读|旷视

0
分享至

Fox团队 投稿
量子位 | 公众号 QbitAI

虽然多模态大模型都能挑西瓜了,但理解复杂文档方面还是差点意思。

面对文字密集、多栏混排等文档时往往力不从心,区域级别的细粒度理解,就更是无从谈起了。

最近,旷视团队打造了一支多模态大模型的“点读笔”——Fox,轻松实现对8页文档(中英混合,单栏多栏格式混合的极端场景)的交互式感知理解。

对于信息密集的PDF文档,Fox支持高可控性的细粒度理解,比如在用户感兴趣区域内进行文字识别、段落翻译以及页面内部的图片内容描述等。

论文中,团队进一步突破了对于文档的视觉感知理解的上限,高密度的信息被真正压缩,LVLM真正地“看”懂图,才能真正做好、做出能用的文档多模大模型。

正所谓“一图胜千言”—— one image token >> one text token

接下来,看看Fox在实战中表现如何?

中英混排,单栏多栏组合都不怕

对于中英混合、单栏多栏混合的8页PDF文档,可实现任意区域的OCR:

下图左侧展示了8页文档内跨页的VQA,右侧展示了双栏中文页面的前景OCR。

双栏密集英文页面的前景OCR:

在页面内图片描述方面,Fox能给出文档内内容关联的回答(young Dual Language Learners)。

当然Fox还支持line-level OCR,以及对RoI区域的翻译、总结等。

Fox可以结合页面内文字,认识到这是一张关于global seismic hazards的图。此外,Fox还支持RoI内的latex格式转换,例如下面的table转latex。Fox还支持更加灵活的颜色引导的RoI区域OCR。

对于卡通绘本,也可以哪里不会点哪里:

电影海报和自然场景的对话问答,Fox给出了非常有趣的答案(根据电影海报下面的文字给出了角色来源):

那么Fox是如何做到这些的呢?

多词表协同,多页面文档统一打包

在细粒度文档理解上,Fox有着三大创新:

  • 精准定位

Fox引入了一系列基于位置的文本提示,如点击位置、拖动框、涂色框等。这使得模型可以直接定位到感兴趣的任意区域,而不受文档格式的限制。同时,Fox还把全页OCR重新定义为”前景聚焦”任务,进一步增强了对密集文字的感知。

  • 多视觉词表协同

为了更好地理解图文混排页面,Fox采用了两个不同特长的视觉词表——CLIP主攻自然图像,Vary专攻人工文档。但单纯叠加两种数据,往往会造成视觉偏置。为此,Fox合成了大量含混合视觉元素的数据,迫使两个视觉分支充分协作。

  • 页面打包

得益于高压缩率(每页1024×1024图像对应256个图像token),Fox将多页面文档统一打包输入。这不仅让跨页面的上下文理解成为可能,也大幅降低了计算开销。值得一提的是,这种打包微调模式并不需要重新训练视觉词汇。

在这些创新基础上,Fox模型结构如图所示。

Fox支持单页/多页文档图像输入,所有图像的image token被统一到一个sequence中进行多页文档理解。团队设计了基于point、color、box的prompt,来实现在文档页面上聚焦任意位置。团队合成了图文交织的文档数据,来充分催化两个视觉词表,以更好地适用于实际文档应用场景。

此外,为了促进对文档细粒度理解的研究,作者还打造了一个中英双语的benchmark,已经开源了数据和评测代码,共包含以下9种任务:

  • Page-level OCR
  • Region-level OCR
  • Line-level OCR
  • Color-guided OCR
  • Region-level translation
  • Region-level summary
  • In-document figure caption
  • Multi-page multi-region OCR
  • Cross-page VQA

最后,团队呼吁更多的研究人员能关注到细粒度的单页/多页文档理解,单页的稀疏的问答任务远远不够。

真正做好多模态大模型,视觉编码器的信息压缩率(token转化率)是非常重要的,Fox仅探究了文档这一类应用方向,希望对大家的研究有所帮助。

想了解更多细节,请查看原论文。

论文地址:https://arxiv.org/abs/2405.14295
代码地址:https://github.com/ucaslcl/Fox
项目主页:https://ucaslcl.github.io/foxhome/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
温铁军:中国被美国扒掉了两层皮,竟还有人妄想让中国做美的助手

温铁军:中国被美国扒掉了两层皮,竟还有人妄想让中国做美的助手

长星寄明月
2026-01-01 06:06:56
广东一收费站突然火了!网友:希望多推广......

广东一收费站突然火了!网友:希望多推广......

小小包工头阿汾
2026-01-02 13:13:13
闫学晶的儿媳妇太卑微,不仅要穿婆婆的旧衣服,还要吃婆婆的剩饭

闫学晶的儿媳妇太卑微,不仅要穿婆婆的旧衣服,还要吃婆婆的剩饭

鋭娱之乐
2026-01-01 13:48:53
2026国补大调整!这些旧家电身价暴涨,别再当废品卖了

2026国补大调整!这些旧家电身价暴涨,别再当废品卖了

老特有话说
2025-12-31 23:25:58
我宣布!我再也不去看张杰的演唱会了!

我宣布!我再也不去看张杰的演唱会了!

小光侃娱乐
2026-01-03 09:55:03
连续6场被DNP!科尔:对阵雷霆多人缺阵 库明加将获出场机会

连续6场被DNP!科尔:对阵雷霆多人缺阵 库明加将获出场机会

北青网-北京青年报
2026-01-03 09:14:02
刘卫东被查前,干了两件最不要脸的事。

刘卫东被查前,干了两件最不要脸的事。

南权先生
2025-12-18 16:50:39
7票通过,美利坚合众国将被毁?特朗普发文怒吼,表决结果已确定

7票通过,美利坚合众国将被毁?特朗普发文怒吼,表决结果已确定

花花娱界
2026-01-02 14:22:16
HDD,为何再成焦点

HDD,为何再成焦点

半导体产业纵横
2026-01-03 11:22:45
南博的风刮到国博!山东大叔捐万历鎏金佛像,20年寻踪竟查无此物

南博的风刮到国博!山东大叔捐万历鎏金佛像,20年寻踪竟查无此物

奇思妙想草叶君
2026-01-02 10:54:18
汪小菲元旦发四视频,玥儿姐弟露正脸酷似大S含泪看烟花

汪小菲元旦发四视频,玥儿姐弟露正脸酷似大S含泪看烟花

挂肚逍遥心
2026-01-02 22:44:49
方媛元旦晒3宝小女儿!和郭富城陪女儿迎新年,穿白色套裙显气质

方媛元旦晒3宝小女儿!和郭富城陪女儿迎新年,穿白色套裙显气质

鋭娱之乐
2026-01-02 22:00:12
“妈妈,那姐姐穿得真少”,公交上本科妈妈的回答,堪称教学典范

“妈妈,那姐姐穿得真少”,公交上本科妈妈的回答,堪称教学典范

大果小果妈妈
2025-12-26 13:26:04
饭后吃药,等于白吃?医生多次提醒:一天中这些时间吃药才最好

饭后吃药,等于白吃?医生多次提醒:一天中这些时间吃药才最好

路医生健康科普
2025-12-16 12:45:03
江姐的独子定居美国,被追问为何不回国时,他是如何回答的?

江姐的独子定居美国,被追问为何不回国时,他是如何回答的?

百年历史老号
2024-01-04 20:38:34
特朗普还没登机,美方喜气洋洋通告全球,中国已买了800万吨大豆

特朗普还没登机,美方喜气洋洋通告全球,中国已买了800万吨大豆

影孖看世界
2026-01-02 22:24:28
107%降到24%!美国突然宣布:大幅下调意大利面关税!发生了什么?

107%降到24%!美国突然宣布:大幅下调意大利面关税!发生了什么?

王爷说图表
2026-01-02 20:51:34
12月14日·上海早新闻

12月14日·上海早新闻

新民晚报
2025-12-14 06:30:03
记住!老人离世第一步不是销户,先办这5件事,权益不流失少跑腿

记住!老人离世第一步不是销户,先办这5件事,权益不流失少跑腿

阿芒娱乐说
2025-12-31 13:46:18
朱元璋逃难到寡妇家,临走前寡妇害怕怀孕,朱元璋的做法令人敬佩

朱元璋逃难到寡妇家,临走前寡妇害怕怀孕,朱元璋的做法令人敬佩

铭记历史呀
2025-12-29 02:30:03
2026-01-03 12:52:49
量子位 incentive-icons
量子位
追踪人工智能动态
11960文章数 176355关注度
往期回顾 全部

科技要闻

比亚迪销冠!特斯拉2025年交付量跌逾8%

头条要闻

孩子后脑勺摔出一个大口子 夫妻看监控"眼泪就下来了"

头条要闻

孩子后脑勺摔出一个大口子 夫妻看监控"眼泪就下来了"

体育要闻

快船似乎又行了

娱乐要闻

“国服嫂子”司晓迪,曝与多位男星私照

财经要闻

人工智能四问:投资泡沫出现了吗?

汽车要闻

奕派科技全年销量275,752辆 同比增长28.3

态度原创

艺术
时尚
手机
数码
本地

艺术要闻

砸30亿!桂林山水间的“史诗级烂尾酒店”,如今1亿没人要?

上年纪的女人别乱买衣服!有这3件单品就够了,温暖体面一冬

手机要闻

苹果赢麻了,前十占五,国产小米、vivo各占二

数码要闻

华硕ROG、XREAL暗示联名智能眼镜:无显示器实现大屏游戏体验

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

无障碍浏览 进入关怀版