网易首页 > 网易号 > 正文 申请入驻

7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力

0
分享至

新智元报道

编辑:LRS 好困

【新智元导读】研究人员证实了Visual Graph在图推理中的作用,以及其可以和文本模态相互增强。

图神经网络(GNNs)擅长利用图的结构信息进行推理,但它们通常需要特定的领域的调优才能达到峰值性能,这阻碍了它们在不同任务之间的泛化性。

相比之下,基于大型语言模型(LLM)的图推理具有更强的跨任务和泛化能力,但它们在特定任务上的性能往往逊色于专用的图神经网络模型。

无论是以图神经网络为代表的传统图推理还是新兴的基于大型语言模型的图推理,目前图推理相关工作都忽视了视觉模态的图信息。

然而,人类会通过视觉特征高效和准确地完成图任务,例如判断图中是否存在环。

因此,探究视觉形态的图信息在图推理中的作用具有重要意义。

更具体地,将图(Graph)绘制为图片(Image),是否能赋予模型特殊的推理能力呢?这些图片(称为视觉图 Visual Graph)是否能增强现有的基于其他模态的图推理模型呢?

为了回答这些问题,来自香港科技大学和南方科技大学的研究团队构建了首个包含视觉图的推理问答数据集GITQA,并在GPT-4 turbo,GPT-4V等开源模型和Vicuna,LLaVA等闭源模型上进行了广泛的实验,证实了Visual Graph在图推理中的作用,以及其可以和文本模态相互增强。

项目主页:https://v-graph.github.io/

在GITQA测试基准中,以LLaVA-7B/13B为基础微调出的多模态模型GITA-7B/13B,展示出了超越GPT-4V的图推理性能。

GITQA 多模态图推理问答数据集

研究团队通过将图结构绘制为不同风格的视觉图像,建立了GITQA数据集及其相应的测试基准,GITQA数据集包含超过423K个问答实例,每个实例包含相互对应的图结构-文本-视觉信息及其相应的问答对。

GITQA数据集包含两个版本:GITQA-Base和GITQA-Aug,其中GITQA-Base只包含单一风格的视觉图。

GITQA-Aug则更加丰富,它对视觉图进行了多种数据增强处理,包括改变布局、点的形状、边的宽度和点的风格等,从而提供了更多样化的视觉图表现。

如图1,GITQA测试基准包含8个具有代表性的图推理任务:Connectivity(判断图中两点是否联通)、Cycle(判断图中是否有环)、TS(寻找图的拓扑序)、 SP(寻找图中两点间的最短路径)、 MaxFlow(计算图中两点间的最大流)、 BGM(计算二分图的最大匹配)、 HP(寻找图中的哈密顿路径)和GNN(模拟GNN的消息传递)。

每个任务所对应的数据集都被按照图结构的复杂程度被划分为不同难度等级的子集(相关统计如表1)。

实验及结果

实验一: 基于不同模态图信息的模型的图推理能力对比

研究团队在GITQA-Base数据集上,根据不同的模态图输入类型(包括仅文本(T-Only)、仅视觉(V-Only)、以及文本加视觉(V+T)),评估了流行的闭源和开源大型语言模型(如GPT-4 turbo和Vicuna-7B/13B)以及大型多模态语言模型(如GPT-4V和LLaVA-7B/13B)的表现。如图2所示。

具体来说,闭源模型GPT-4和GPT-4V执行零样本推理,而对于开源模型Vicuna和LLaVA,则通过保持主干模型参数不变,仅训练Projector和LoRA部分进行了微调(特别地,视觉+文本双模态微调后的LLaVA模型被研究者命名为GITA)。

表2总结了所有八项图推理任务的测试结果。

视觉模态 V.S. 文本模态

从表2中可以看到,在Cycle和BGM任务上,视觉模态的表现优于文本模态,而在其他五个任务上则不如文本模态。这揭示了视觉和文本在处理特定类型的图推理任务上各具优势。

视觉和文本模态的相互增强

对于闭源模型,GPT-4V(V+T)在八个任务的平均准确率上远高于GPT-4 Turbo(T-only)和GPT-4V(V-only)。

对于开源模型(7B,13B),同样地,使用双模态数据训练出的GITA模型平均表现最佳。这些观察结果验证了同时使用视觉和文本信息能够增强模型的图推理能力,相比单模态模型可以实现更好的性能。

更具体地说,GITA-7B(V+T)在几乎所有任务中表现优于LLaVA-7B(V-only)和Vicuna-7B(T-only)。而对于闭源模型,使用双模态在八个任务中的五个上达到了最高准确率。

微调后的LLaVA模型可超越GPT-4V

如表2和图3所示,GITA-7B和GITA-13B模型,即经过双模态微调的LLaVA-7B/13B模型,显示出相较于GPT-4V超过13%的显著性能提升。这一巨大的进步幅度表明,微调后的GITA模型能够有效地从GITQA数据集中学习到出色的图推理能力。

实验二:难度等级对图任务的影响

表3进一步给出了模型在不同难度级别上的测试精度,GNN任务由于对所有模型都太具挑战被省略)。

在所有难度级别的Cycle和BGM任务中,单独使用视觉模态的表现优于文本模态,并且与使用两种模态的表现相当。

然而,对于其他任务,当难度从简单增加到中等或困难时,只使用视觉模态的模型的性能显著下降。

同样,当难度增加时,只使用文本模态和使用视觉+文本模态的模型在这些任务上也会出现大幅度的性能下降。

对于Connectivity任务,GITA-7B(视觉+文本)和GITA-13B(视觉+文本)在所有三个挑战级别上都表现出相当的性能。

然而,这种一致的模式在GPT-4V(视觉+文本)中并未观察到,因为其性能随着难度级别的增加而下降。

实验三: 视觉图的增强策略和风格偏好

研究团队还探究了特别的数据增强策略在微调模型时的效果。

基于不同的增强策略,研究者将GITQA-Aug数据集划分为四个增强子集: 布局增强数据集,节点形状增强数据集,边的宽度增强数据集,节点风格增强数据集。

研究者在仅使用视觉图信息的LLaVA-7B模型上对全部四个增强子集进行了单独的微调,其推理性能与数据增强前的比较如表4所示。

可以明显看出,模型在布局增强数据集上对于挑战性任务的推理能力急剧提升(SP 上升64.8%,HP上升69.63%)。

而其他三种数据增强策略反而导致性能下降。

具体来说,模型在布局增强集上取得了优异的结果,比GITQA-Base集高出11%以上。相比之下,其他增广集中八个任务的平均结果比基本集低约5%

这些发现表明基于布局的数据增强为图推理提供了更有效的视觉视角。进一步,研究者还测试了各个增强策略下,在同组内基于每种风格的Visual Graph推理的性能,如表5所示,展示出模型没有明显的风格偏好。

参考资料:

https://arxiv.org/abs/2402.02130

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李斌:新能源汽车行业从品牌混沌期进入澄清期,单点竞争已难取胜

李斌:新能源汽车行业从品牌混沌期进入澄清期,单点竞争已难取胜

澎湃新闻
2026-05-24 07:30:26
突发!苏州443个小区房价暴涨!

突发!苏州443个小区房价暴涨!

阿离家居
2026-05-24 05:44:08
耻辱!皇马水货惨遭除名!穆里尼奥 2500 万砸世界级王牌取代他!

耻辱!皇马水货惨遭除名!穆里尼奥 2500 万砸世界级王牌取代他!

澜归序
2026-05-24 03:49:00
“农村父母就是这样被骗的”,中职女孩穿廉价警服,毕业就傻眼了

“农村父母就是这样被骗的”,中职女孩穿廉价警服,毕业就傻眼了

妍妍教育日记
2026-05-11 18:59:23
A股:信号很强烈,不出意外,明天周一,很可能将迎来更大转变

A股:信号很强烈,不出意外,明天周一,很可能将迎来更大转变

云鹏叙事
2026-05-24 09:14:06
日本限制级《湖畔》:以尺度揭露现实的深度之作

日本限制级《湖畔》:以尺度揭露现实的深度之作

语妍视频剪辑
2026-05-13 11:53:37
日本非法捕鲸,遭硬刚暴击,击沉10艘非法捕鲸船

日本非法捕鲸,遭硬刚暴击,击沉10艘非法捕鲸船

华山穹剑
2026-05-23 18:57:45
双方都想续约!里夫斯表态愿意留守湖人:希望再与詹姆斯并肩作战

双方都想续约!里夫斯表态愿意留守湖人:希望再与詹姆斯并肩作战

罗说NBA
2026-05-24 05:58:09
特朗普的伊朗战争,或最终成为笑话!!!

特朗普的伊朗战争,或最终成为笑话!!!

山河路口
2026-05-24 13:15:50
刘震云:如果你一听到伴侣说话就烦躁,有股无名火,真正的原因不是你讨厌他,也不是你脾气不好,而是条件反射

刘震云:如果你一听到伴侣说话就烦躁,有股无名火,真正的原因不是你讨厌他,也不是你脾气不好,而是条件反射

脆皮先生
2026-05-13 19:42:42
美国急眼了:中国为什么遮住神舟20的舷窗?有什么不想让人看到?

美国急眼了:中国为什么遮住神舟20的舷窗?有什么不想让人看到?

胖哥不胡说
2026-01-21 20:08:07
藏得很深的“亲美疏中”的郑丽文,佩服国台办迟迟未发出的邀请函

藏得很深的“亲美疏中”的郑丽文,佩服国台办迟迟未发出的邀请函

近史谈
2026-01-23 20:51:15
特朗普向莫迪发出邀请

特朗普向莫迪发出邀请

上观新闻
2026-05-24 14:04:20
阿森纳捧杯时刻或成告别战,7名枪手可能迎来谢幕

阿森纳捧杯时刻或成告别战,7名枪手可能迎来谢幕

乐道足球C
2026-05-23 15:48:52
A股:都站稳扶好吧,明天周一,5月25日,很可能上演牛低头调整行情?

A股:都站稳扶好吧,明天周一,5月25日,很可能上演牛低头调整行情?

趋势清风侠
2026-05-24 10:49:10
马皇后看人极准,她临终前说:谁都能继承大统,唯独这一个人不可

马皇后看人极准,她临终前说:谁都能继承大统,唯独这一个人不可

掠影后有感
2026-05-23 09:47:20
新疆24岁产妇成功分娩五胞胎,出生仅870克的老五已长到5斤,夫妻俩定制烤全羊感谢,接生医生满眼欢喜:希望5岁、10岁都能看到他们的照片

新疆24岁产妇成功分娩五胞胎,出生仅870克的老五已长到5斤,夫妻俩定制烤全羊感谢,接生医生满眼欢喜:希望5岁、10岁都能看到他们的照片

台州交通广播
2026-05-23 22:21:32
知情人透露庾澄庆淘汰原因,被换6首歌后仓促改编,原来被做局了

知情人透露庾澄庆淘汰原因,被换6首歌后仓促改编,原来被做局了

老吴教育课堂
2026-05-24 08:35:50
假如许世友的两套作战方案得到采纳,估计越南历史会被重写

假如许世友的两套作战方案得到采纳,估计越南历史会被重写

勇哥读史
2026-05-11 14:54:10
上海程序员遭裁员,摆摊售卖十元盒饭,温暖一众工地匠人

上海程序员遭裁员,摆摊售卖十元盒饭,温暖一众工地匠人

鲸探所长
2026-05-23 22:04:09
2026-05-24 14:52:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15292文章数 66880关注度
往期回顾 全部

科技要闻

我戴着摄像头上班,正在帮AI抢走我饭碗

头条要闻

男子不慎踩中蛇窝一小时后陷入休克:左脚被咬10多口

头条要闻

男子不慎踩中蛇窝一小时后陷入休克:左脚被咬10多口

体育要闻

唐斯发牌,大头逆袭:骑士跌向残忍夏季

娱乐要闻

李晨郑恺冲上热搜!跑男停宣引热议

财经要闻

爆炸致82人遇难 留神峪煤业存违法行为

汽车要闻

2027款星途瑶光上市 把"全球车"标准卷进13万级市场

态度原创

亲子
本地
健康
数码
军事航空

亲子要闻

孩子近视涨得快?2026年热门离焦镜品牌讲解

本地新闻

用云锦的方式,打开江苏南京

外泌体 ≠ 生长因子!它们之间究竟有何区别?

数码要闻

OPPO Reno 16官宣AI键,一键闪记有多强?

军事要闻

深夜美伊谈判传来大消息 特朗普最新表态

无障碍浏览 进入关怀版