网易首页 > 网易号 > 正文 申请入驻

GPT-4搞不定的图推理,港科大7B模型搞定|KDD2024

0
分享至

香港科技大学 陈诺 投稿
量子位 | 公众号 QbitAI

大模型执行图推理任务,我们是希望大模型仅仅给出结果,还是在给出准确答案的同时,输出详细的推理过程?

先来看GPT-4的表现:

给出了一个非常简短且错误的答案(判断该图中没有环),这可能是由于模型在处理长输入时的局限性,或者是对图的复杂结构理解错误所致。这显示了大型模型在适应图论问题时面临的挑战。

相比之下,港科大团队开发的GraphWiz不仅给出了正确的答案,还提供了一条清晰且详细的推理路径。

GraphWiz 的设计目的是提升目前开源的大型模型在解决各种图推理任务时的能力:

通过对大型模型进行针对性的微调,处理不同复杂度的图推理任务,并同时输出明确而连贯的推理路径。

对于人类来说,要在这样规模的图中检测环是极具挑战性的。通常,人类需要借助外部工具或花费大量时间来完成这一任务,因为仅仅依靠脑力计算是不切实际的。

这突显了GraphWiz在空间推理和记忆保持方面的能力。它表明,该模型已经有效地吸收了图论的基本原理,并能够自主地在大规模且复杂的图结构中进行导航和推理。GraphWiz在处理复杂图问题方面的能力,证明了其在实际应用中的巨大潜力。

总的来说,本篇文章的主要贡献如下:

  • 创建了GraphInstruct,一个大规模的数据集,用于训练语言模型处理图任务,并提供清晰推理路径,提高可解释性。
  • 推出了GraphWiz,一个开源的大型语言模型,擅长通过明确推理解决各种图问题,性能优于GPT-4。
  • 研究了训练数据量和DPO框架下采样策略等对模型性能的影响,并探索了GraphWiz跨任务迁移的能力,为后续模型优化和性能提升提供指导。

图推理任务介绍

在本研究中,团队精心挑选了九种不同计算复杂度层次的图问题,涵盖了研究的广度和深度,包括:

  • 四个线性复杂度任务:连通性和环检测、二分图检验、拓扑排序
  • 三个多项式复杂度任务:最短路径、最大三角形和、最大流;
  • 以及两个NP完全任务:哈密尔顿路径和子图匹配。

通过选择这九个图问题,团队的工作从简单到复杂、可解到难解的问题上进行了全面的图论探索。这种多样化的选择不仅有助于团队理论上理解图算法,而且还能解决广泛的实际应用问题。

GraphInstruct数据集构建

GraphInstruct的构建包括以下几个关键步骤:

图问题生成。为了打造一个多样而具挑战性的图问题库以供模型训练与测试之用,团队通过编程辅助的方法,为每一种预设的任务生成随机图问题。团队为每一个任务设计了独特的模板,以捕捉图的特有属性,例如图是有向还是无向,边是否有权重等。随机图的生成团队采用了Erdős-Rényi(ER)模型。

显式推理路径生成。GraphInstruct为每一个图问题对都配备了一条显式推理路径。考虑到手动标注这些图任务的推理路径既复杂又耗时,团队选择利用GPT-4来生成初步的推理路径。

数据增强与拒绝采样。由于观察到GPT-4在许多图任务上的表现欠佳,比如在初始数据集中的最大流任务上自由不足100个样本是正确的,团队采用了拒绝采样策略来增广数据集,以包含更多样的推理路径。

挑选多样化的推理路径。这个步骤需要在准确度和多样性之间找到平衡。为此,团队采用了一系列精细化策略,这些策略分为基于字符串和基于语义的方法,用以筛选出不同的生成推理路径。

GraphWiz训练

基于GraphInstruct,团队训练了GraphWiz,旨在优化当前大模型解决图问题并给出显式推理路径的能力。GraphWiz的训练方法是一个创新的两阶段过程:

混合任务指令调优(Mixed-Task Instruction Tuning):在第一阶段,团队专注于提升模型解释和解决各种图问题的能力。通过这种方法,GraphWiz学习处理包括理解问题、识别图的属性、应用图算法等在内的多个子任务。

直接偏好优化对齐(Direct Preference Optimization Alignment ):第二阶段,团队通过训练模型区分更有效与不太有效的问题解决路径来进一步锐化模型的推理能力。DPO对齐使模型能够识别和生成更理想的推理路径,从而提高解决问题的效率和准确性。

GraphWiz性能评测

团队对GraphWiz进行评估,旨在回答以下关键问题:

  • Q1: GraphWiz在不同复杂度的图问题上的表现如何,特别是与目前最强大的闭源模型GPT-4相比如何?
  • Q2: 训练数据量的变化对GraphWiz的性能有什么影响?
  • Q3: GraphWiz 对不同图问题的迁移能力如何?
  • Q4: 图中节点数量的变化会如何影响GraphWiz的性能?此外,它能有效处理的最复杂的图是多大的?
  • Q5: 超参数ß如何影响模型性能?

从上表中可以看出,团队的模型在各种开源模型上展示出了卓越的结果,显著超过了GPT-4的性能。这一点在从简单到困难类别的各种任务中都保持一致。DPO进一步提高了模型平均性能。然而,DPO可能对特定任务有不利影响。这表明,虽然DPO通常有助于改善模型推理,但可能需要进一步调整,以避免对某些问题类型产生负面影响。

根据上表,团队观察到随着训练语料库的增加,两个模型都有效果的提升,比如GraphWiz (Mistral-7B)的平均准确率从1:1比率的46.56%上升到1:5比率的53.75%。这表明更多的多样化推理路径通常有利于模型解决图推理问题的整体性能。

团队可以注意到在某些任务上,如三角形和汉密尔顿路径问题,准确性并没有显著提高,甚至随着数据量的增加而略有下降。例如,GraphWiz (Mistral-7B) 在三角和问题上在1:1比率下的准确性为47.00%,然后在1:5比率下降至38.75%。这可能表明了过拟合现象,即模型开始记住训练数据中的模式,这些模式并不适用于未见过的数据。

总之,虽然增加数据量和推理路径的多样性通常可以导致更好的模型性能,但在某些复杂任务中存在潜在的过拟合迹象,这强调了需要仔细设计模型训练,并对不同的图问题任务进行验证,以确保广泛的泛化能力。

为了探索GraphWiz在不同图任务中的迁移能力,团队建立了一个额外的模型变体:GraphWiz-High。这个模型仅在两个高复杂度(NP-完全)图任务上进行训练:汉密尔顿路径和子图匹配。为了研究其迁移能力,团队进行了两个比较实验:

高复杂度任务比较。团队首先将GraphWiz-High与常规的GraphWiz在高复杂度任务上进行比较。上图(a)表明GraphWiz的表现更好,验证了混合任务训练的有效性。这个结果也表明模型能够将从其他任务学到的知识转移到特定的高复杂度任务上。

零样本迁移能力。团队进一步测试GraphWiz-High在从未训练过的低和中复杂度任务上的零样本迁移能力。如上图 (b) 所示,GraphWiz-High与Mistral-Base相比有显著的性能提升。即使与ChatGPT相比,团队的模型也能保持相当的性能。考虑到ChatGPT和GraphWiz-High之间在参数数量上的巨大差异,这表明团队的模型具有值得称赞的跨任务泛化能力,展示了实际应用的重大潜力。

为了解答关于模型性能如何随着不同图大小变化的问题,以及确定模型能够有效解决的最大图大小,团队在上图展示了GraphWiz在表现最佳任务(a)环检测和最差任务(b)最短路径上的性能。

从图中,团队得出以下结论:

GraphWiz和GPT-4在图的大小增加时都表现出性能的下降。然而,团队的模型在大多数时候当图大小上一致时优于GPT-4,这表明了对图结构更强大的理解和处理能力。

团队观察到在最短路径上,随着节点数的增加,性能显著下降。这种下降很可能可以归因于两个主要因素:该任务要求高推理和记忆能力,因为更高时间复杂性,以及强大的计算技巧,这可能对模型的容量构成额外挑战。实际上,团队发现两种模型主要依赖枚举来得出解决方案。因此,随着图大小的增加,所需的枚举推理呈指数级增长,导致当节点数超过60后,准确率显著下降,之后几乎不再有准确性。

这些观察表明,尽管GraphWiz在处理与图相关的任务方面明显优于GPT-4,但存在一个复杂度的阈值——特别是在需要超出简单推理的计算的任务中——即使是最先进的模型的性能也开始显著下降。

最后,团队还探究了参数ß对模型效果的影响。团队观察到,较高的 ß似乎在一定程度上有利于困难任务的性能,但这并非严格的线性关系,并且在不同的模型大小之间也不一致。这表明,仔细调整 ß 对于在不同难度任务之间取得最佳平衡,提高模型的整体准确性是必要的。

更多样例

团队还展示了更多不同任务上GraphWiz的推理样例。

连通性任务:

汉密尔顿路径任务:

最短路径任务:

子图匹配任务:

论文链接:https://arxiv.org/abs/2402.16029
项目主页:https://graph-wiz.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本历史性一幕发生,60年来第二次,高市早苗:不排除辞任首相

日本历史性一幕发生,60年来第二次,高市早苗:不排除辞任首相

近史博览
2026-01-21 11:03:05
落选全明星首发有何反应?詹姆斯:没有,啥感觉也没有

落选全明星首发有何反应?詹姆斯:没有,啥感觉也没有

懂球帝
2026-01-21 14:43:25
恒大集团董事长许家印转移了

恒大集团董事长许家印转移了

地产微资讯
2026-01-21 08:47:31
拆解一汽奥迪千万用户里程碑:什么才是持久的生命力

拆解一汽奥迪千万用户里程碑:什么才是持久的生命力

马拉车市
2026-01-20 13:43:54
韩红去上海买眼镜,被店员2次提醒价格闹笑话,网友:对自己真抠

韩红去上海买眼镜,被店员2次提醒价格闹笑话,网友:对自己真抠

冷紫葉
2026-01-20 00:57:00
越南数万名球迷街头围观“中越之战”,郑州球迷“混入”其中:中国队进球时,周围是寂静的、我内心是沸腾的

越南数万名球迷街头围观“中越之战”,郑州球迷“混入”其中:中国队进球时,周围是寂静的、我内心是沸腾的

极目新闻
2026-01-21 12:05:57
3-0!中国U23踢疯了:一战碾碎越南,4大纪录诞生,决赛死磕日本

3-0!中国U23踢疯了:一战碾碎越南,4大纪录诞生,决赛死磕日本

万花筒体育球球
2026-01-21 01:51:37
急眼了?目睹球队0-3不敌中国U23后,一越南球迷赛后怒砸电视机

急眼了?目睹球队0-3不敌中国U23后,一越南球迷赛后怒砸电视机

懂球帝
2026-01-21 12:46:06
委内瑞拉称已从美国主导的原油销售中入账首笔3亿美元款项

委内瑞拉称已从美国主导的原油销售中入账首笔3亿美元款项

界面新闻
2026-01-21 08:46:40
淮阳人民中学“食堂承包商举报校领导2年拿走300余万现金”?官方通报

淮阳人民中学“食堂承包商举报校领导2年拿走300余万现金”?官方通报

界面新闻
2026-01-21 10:11:25
80年前费孝通的《生育制度》神预言,如今被最新出生人口数据证实

80年前费孝通的《生育制度》神预言,如今被最新出生人口数据证实

齐天候
2026-01-21 15:45:18
人民日报三评西贝关店事件,基本宣告断掉罗永浩今后生路!

人民日报三评西贝关店事件,基本宣告断掉罗永浩今后生路!

玖宇维
2026-01-20 21:52:53
中国农业银行深圳市分行原党委副书记、副行长王国彪被“双开”

中国农业银行深圳市分行原党委副书记、副行长王国彪被“双开”

界面新闻
2026-01-21 15:07:46
公安厅厅长,辞去副省长职务

公安厅厅长,辞去副省长职务

警界君
2026-01-21 12:27:02
越南队范理德道歉

越南队范理德道歉

扬子晚报
2026-01-21 12:39:46
欠债8亿只还1900万!深圳昔日行业巨头陨落!最新破产清算方案公布

欠债8亿只还1900万!深圳昔日行业巨头陨落!最新破产清算方案公布

南方都市报
2026-01-21 14:02:41
决赛未开始!中国队大战日本 传来4个利好 比赛时间+直播平台如下

决赛未开始!中国队大战日本 传来4个利好 比赛时间+直播平台如下

侃球熊弟
2026-01-21 03:57:09
中央委员辞去省人大常委会主任职务,还有三人辞去副省长职务

中央委员辞去省人大常委会主任职务,还有三人辞去副省长职务

上观新闻
2026-01-21 11:54:06
难以置信!一家长称已放弃初二女儿的学习,并退出家长群,引争议

难以置信!一家长称已放弃初二女儿的学习,并退出家长群,引争议

火山诗话
2026-01-21 06:07:03
太惨了!一个机器人机枪手干掉了俄军一个连

太惨了!一个机器人机枪手干掉了俄军一个连

山间听雨
2026-01-18 18:58:17
2026-01-21 16:08:49
量子位 incentive-icons
量子位
追踪人工智能动态
12040文章数 176360关注度
往期回顾 全部

科技要闻

给机器人做仿真训练 这家创企年营收破亿

头条要闻

媒体:特朗普公布多国领导人"求饶"短信 令人瞠目结舌

头条要闻

媒体:特朗普公布多国领导人"求饶"短信 令人瞠目结舌

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

李亚鹏2天获1291万网友力挺

财经要闻

消失的投资金 起底华文映像电影投资骗局

汽车要闻

新一代理想L9电池加码体型加大 重夺高端话语权

态度原创

家居
本地
教育
房产
手机

家居要闻

褪去浮华 触达松弛与欣喜

本地新闻

云游辽宁|漫步千年小城晨昏,“康”复好心情

教育要闻

从送学生进藤校,到自己读哈佛,这个世界需要怎样的我?——对话Special A特优生创始人黄中阳

房产要闻

那个砸下400亿的绿地,又要杀回海南了!

手机要闻

realme 16手机现身Geekbench:天玑6400 + 8GB RAM

无障碍浏览 进入关怀版