网易首页 > 网易号 > 正文 申请入驻

GPT-4搞不定的图推理,港科大7B模型搞定|KDD2024

0
分享至

香港科技大学 陈诺 投稿
量子位 | 公众号 QbitAI

大模型执行图推理任务,我们是希望大模型仅仅给出结果,还是在给出准确答案的同时,输出详细的推理过程?

先来看GPT-4的表现:

给出了一个非常简短且错误的答案(判断该图中没有环),这可能是由于模型在处理长输入时的局限性,或者是对图的复杂结构理解错误所致。这显示了大型模型在适应图论问题时面临的挑战。

相比之下,港科大团队开发的GraphWiz不仅给出了正确的答案,还提供了一条清晰且详细的推理路径。

GraphWiz 的设计目的是提升目前开源的大型模型在解决各种图推理任务时的能力:

通过对大型模型进行针对性的微调,处理不同复杂度的图推理任务,并同时输出明确而连贯的推理路径。

对于人类来说,要在这样规模的图中检测环是极具挑战性的。通常,人类需要借助外部工具或花费大量时间来完成这一任务,因为仅仅依靠脑力计算是不切实际的。

这突显了GraphWiz在空间推理和记忆保持方面的能力。它表明,该模型已经有效地吸收了图论的基本原理,并能够自主地在大规模且复杂的图结构中进行导航和推理。GraphWiz在处理复杂图问题方面的能力,证明了其在实际应用中的巨大潜力。

总的来说,本篇文章的主要贡献如下:

  • 创建了GraphInstruct,一个大规模的数据集,用于训练语言模型处理图任务,并提供清晰推理路径,提高可解释性。
  • 推出了GraphWiz,一个开源的大型语言模型,擅长通过明确推理解决各种图问题,性能优于GPT-4。
  • 研究了训练数据量和DPO框架下采样策略等对模型性能的影响,并探索了GraphWiz跨任务迁移的能力,为后续模型优化和性能提升提供指导。

图推理任务介绍

在本研究中,团队精心挑选了九种不同计算复杂度层次的图问题,涵盖了研究的广度和深度,包括:

  • 四个线性复杂度任务:连通性和环检测、二分图检验、拓扑排序
  • 三个多项式复杂度任务:最短路径、最大三角形和、最大流;
  • 以及两个NP完全任务:哈密尔顿路径和子图匹配。

通过选择这九个图问题,团队的工作从简单到复杂、可解到难解的问题上进行了全面的图论探索。这种多样化的选择不仅有助于团队理论上理解图算法,而且还能解决广泛的实际应用问题。

GraphInstruct数据集构建

GraphInstruct的构建包括以下几个关键步骤:

图问题生成。为了打造一个多样而具挑战性的图问题库以供模型训练与测试之用,团队通过编程辅助的方法,为每一种预设的任务生成随机图问题。团队为每一个任务设计了独特的模板,以捕捉图的特有属性,例如图是有向还是无向,边是否有权重等。随机图的生成团队采用了Erdős-Rényi(ER)模型。

显式推理路径生成。GraphInstruct为每一个图问题对都配备了一条显式推理路径。考虑到手动标注这些图任务的推理路径既复杂又耗时,团队选择利用GPT-4来生成初步的推理路径。

数据增强与拒绝采样。由于观察到GPT-4在许多图任务上的表现欠佳,比如在初始数据集中的最大流任务上自由不足100个样本是正确的,团队采用了拒绝采样策略来增广数据集,以包含更多样的推理路径。

挑选多样化的推理路径。这个步骤需要在准确度和多样性之间找到平衡。为此,团队采用了一系列精细化策略,这些策略分为基于字符串和基于语义的方法,用以筛选出不同的生成推理路径。

GraphWiz训练

基于GraphInstruct,团队训练了GraphWiz,旨在优化当前大模型解决图问题并给出显式推理路径的能力。GraphWiz的训练方法是一个创新的两阶段过程:

混合任务指令调优(Mixed-Task Instruction Tuning):在第一阶段,团队专注于提升模型解释和解决各种图问题的能力。通过这种方法,GraphWiz学习处理包括理解问题、识别图的属性、应用图算法等在内的多个子任务。

直接偏好优化对齐(Direct Preference Optimization Alignment ):第二阶段,团队通过训练模型区分更有效与不太有效的问题解决路径来进一步锐化模型的推理能力。DPO对齐使模型能够识别和生成更理想的推理路径,从而提高解决问题的效率和准确性。

GraphWiz性能评测

团队对GraphWiz进行评估,旨在回答以下关键问题:

  • Q1: GraphWiz在不同复杂度的图问题上的表现如何,特别是与目前最强大的闭源模型GPT-4相比如何?
  • Q2: 训练数据量的变化对GraphWiz的性能有什么影响?
  • Q3: GraphWiz 对不同图问题的迁移能力如何?
  • Q4: 图中节点数量的变化会如何影响GraphWiz的性能?此外,它能有效处理的最复杂的图是多大的?
  • Q5: 超参数ß如何影响模型性能?

从上表中可以看出,团队的模型在各种开源模型上展示出了卓越的结果,显著超过了GPT-4的性能。这一点在从简单到困难类别的各种任务中都保持一致。DPO进一步提高了模型平均性能。然而,DPO可能对特定任务有不利影响。这表明,虽然DPO通常有助于改善模型推理,但可能需要进一步调整,以避免对某些问题类型产生负面影响。

根据上表,团队观察到随着训练语料库的增加,两个模型都有效果的提升,比如GraphWiz (Mistral-7B)的平均准确率从1:1比率的46.56%上升到1:5比率的53.75%。这表明更多的多样化推理路径通常有利于模型解决图推理问题的整体性能。

团队可以注意到在某些任务上,如三角形和汉密尔顿路径问题,准确性并没有显著提高,甚至随着数据量的增加而略有下降。例如,GraphWiz (Mistral-7B) 在三角和问题上在1:1比率下的准确性为47.00%,然后在1:5比率下降至38.75%。这可能表明了过拟合现象,即模型开始记住训练数据中的模式,这些模式并不适用于未见过的数据。

总之,虽然增加数据量和推理路径的多样性通常可以导致更好的模型性能,但在某些复杂任务中存在潜在的过拟合迹象,这强调了需要仔细设计模型训练,并对不同的图问题任务进行验证,以确保广泛的泛化能力。

为了探索GraphWiz在不同图任务中的迁移能力,团队建立了一个额外的模型变体:GraphWiz-High。这个模型仅在两个高复杂度(NP-完全)图任务上进行训练:汉密尔顿路径和子图匹配。为了研究其迁移能力,团队进行了两个比较实验:

高复杂度任务比较。团队首先将GraphWiz-High与常规的GraphWiz在高复杂度任务上进行比较。上图(a)表明GraphWiz的表现更好,验证了混合任务训练的有效性。这个结果也表明模型能够将从其他任务学到的知识转移到特定的高复杂度任务上。

零样本迁移能力。团队进一步测试GraphWiz-High在从未训练过的低和中复杂度任务上的零样本迁移能力。如上图 (b) 所示,GraphWiz-High与Mistral-Base相比有显著的性能提升。即使与ChatGPT相比,团队的模型也能保持相当的性能。考虑到ChatGPT和GraphWiz-High之间在参数数量上的巨大差异,这表明团队的模型具有值得称赞的跨任务泛化能力,展示了实际应用的重大潜力。

为了解答关于模型性能如何随着不同图大小变化的问题,以及确定模型能够有效解决的最大图大小,团队在上图展示了GraphWiz在表现最佳任务(a)环检测和最差任务(b)最短路径上的性能。

从图中,团队得出以下结论:

GraphWiz和GPT-4在图的大小增加时都表现出性能的下降。然而,团队的模型在大多数时候当图大小上一致时优于GPT-4,这表明了对图结构更强大的理解和处理能力。

团队观察到在最短路径上,随着节点数的增加,性能显著下降。这种下降很可能可以归因于两个主要因素:该任务要求高推理和记忆能力,因为更高时间复杂性,以及强大的计算技巧,这可能对模型的容量构成额外挑战。实际上,团队发现两种模型主要依赖枚举来得出解决方案。因此,随着图大小的增加,所需的枚举推理呈指数级增长,导致当节点数超过60后,准确率显著下降,之后几乎不再有准确性。

这些观察表明,尽管GraphWiz在处理与图相关的任务方面明显优于GPT-4,但存在一个复杂度的阈值——特别是在需要超出简单推理的计算的任务中——即使是最先进的模型的性能也开始显著下降。

最后,团队还探究了参数ß对模型效果的影响。团队观察到,较高的 ß似乎在一定程度上有利于困难任务的性能,但这并非严格的线性关系,并且在不同的模型大小之间也不一致。这表明,仔细调整 ß 对于在不同难度任务之间取得最佳平衡,提高模型的整体准确性是必要的。

更多样例

团队还展示了更多不同任务上GraphWiz的推理样例。

连通性任务:

汉密尔顿路径任务:

最短路径任务:

子图匹配任务:

论文链接:https://arxiv.org/abs/2402.16029
项目主页:https://graph-wiz.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
泰国国王哇集拉隆功将对中国进行国事访问

泰国国王哇集拉隆功将对中国进行国事访问

上观新闻
2025-11-06 15:29:39
销量第一被“绝杀”!终于疲态显现,比亚迪快装不下去了?

销量第一被“绝杀”!终于疲态显现,比亚迪快装不下去了?

小李车评李建红
2025-11-04 07:41:58
大快人心,缅北白家判了,那些为四大家族站台的曾志伟们没事了

大快人心,缅北白家判了,那些为四大家族站台的曾志伟们没事了

电影票房预告片
2025-11-05 22:46:05
中方下了“最后通牒”,认定荷兰100%担责,再不悔改一切后果自负

中方下了“最后通牒”,认定荷兰100%担责,再不悔改一切后果自负

阿柒的讯
2025-11-06 14:30:28
不到24小时,人民日报四次点名全红婵,陈若琳的话终于有人信了

不到24小时,人民日报四次点名全红婵,陈若琳的话终于有人信了

枫尘余往逝
2025-11-05 21:01:12
离谱!东南亚电诈园区办公室里,竟然出现了中文横幅……

离谱!东南亚电诈园区办公室里,竟然出现了中文横幅……

麦杰逊
2025-11-05 12:52:35
不请洋帅 足协为何请经验不足的邵佳一做国足主帅 主要有3点原因

不请洋帅 足协为何请经验不足的邵佳一做国足主帅 主要有3点原因

零度眼看球
2025-11-06 06:40:10
演员祝新运:凭借潘冬子火遍全国,却娶了离异还大3岁的妻子

演员祝新运:凭借潘冬子火遍全国,却娶了离异还大3岁的妻子

揽星河的笔记
2025-11-05 13:55:47
《新闻女王2》的播出告诉观众:错误的营销方式,真的很毁剧!

《新闻女王2》的播出告诉观众:错误的营销方式,真的很毁剧!

海绵宝宝的心事
2025-11-06 12:15:59
小米员工晒地库被群嘲!3款同色YU7一字排开,网友:别尬演了

小米员工晒地库被群嘲!3款同色YU7一字排开,网友:别尬演了

公子麦少
2025-11-05 15:37:08
杜兰特连续低迷火箭仍赢球!记者:幸好他失常次数少

杜兰特连续低迷火箭仍赢球!记者:幸好他失常次数少

运动全视界
2025-11-06 15:30:22
村里建广场我赞助40万,却发现没我名字我淡定离开,三天后村长懵了

村里建广场我赞助40万,却发现没我名字我淡定离开,三天后村长懵了

眼泪博物
2025-08-22 18:21:23
刘强东问蔡磊钱够吗?蔡哽咽:儿子才1岁!随后刘的决定令蔡泪崩

刘强东问蔡磊钱够吗?蔡哽咽:儿子才1岁!随后刘的决定令蔡泪崩

瑶卿文史
2025-10-29 22:56:09
蒋介石死后,无子女的宋美龄,靠啥在美国过了28年奢华生活?

蒋介石死后,无子女的宋美龄,靠啥在美国过了28年奢华生活?

牛马搞笑
2025-11-01 09:52:48
米切尔46+8赛季新高骑士力克76人 马克西27+7+9探花14中3

米切尔46+8赛季新高骑士力克76人 马克西27+7+9探花14中3

醉卧浮生
2025-11-06 10:36:33
欧冠狂欢夜:曼城4-1多特 切尔西2-2+巴萨3-3 穆里尼奥开局4连败

欧冠狂欢夜:曼城4-1多特 切尔西2-2+巴萨3-3 穆里尼奥开局4连败

侃球熊弟
2025-11-06 05:06:12
被剪刀差剪掉的一生:1.8亿农村老人为何只能靠百元养老金度日?

被剪刀差剪掉的一生:1.8亿农村老人为何只能靠百元养老金度日?

霹雳炮
2025-11-02 20:52:08
神二十飞船疑遭撞击,没预警系统?3名航天员、4鼠乘组延期返回

神二十飞船疑遭撞击,没预警系统?3名航天员、4鼠乘组延期返回

普陀动物世界
2025-11-06 00:12:28
湖人险胜!东契奇35+9+13,赛后谁留意老詹?走入场内和队友庆祝

湖人险胜!东契奇35+9+13,赛后谁留意老詹?走入场内和队友庆祝

担酒
2025-11-06 14:14:13
被谢贤养了12年,用青春换来2000万的Coco,已经走上了另一条道路

被谢贤养了12年,用青春换来2000万的Coco,已经走上了另一条道路

徐徐道史
2025-11-04 18:34:05
2025-11-06 16:08:49
量子位 incentive-icons
量子位
追踪人工智能动态
11634文章数 176326关注度
往期回顾 全部

科技要闻

苹果“认输”!曝每年10亿美元租用谷歌AI

头条要闻

男子打车将手机遗忘车内 司机将手机"丢"到300公里外

头条要闻

男子打车将手机遗忘车内 司机将手机"丢"到300公里外

体育要闻

送走两位全明星,公牛成了东部第一

娱乐要闻

白百何好友揭露争奖细节

财经要闻

南银法巴加速发展背后:资金饥渴症待解

汽车要闻

是我眼花了么?怎么大猩猩都来参加新车发布了?

态度原创

艺术
健康
数码
教育
时尚

艺术要闻

“塑料凳”大厦?西安新地标213米造型引热议!

超声探头会加重受伤情况吗?

数码要闻

无散热也能满血!长江存储致态小翼e7 1TB SSD评测:原厂品质保障下的性价比王者

教育要闻

江苏科技大学就业好不好?就业服务贯穿全周期,太实了!

中国色特别策划 | 故宫技艺与古意新生

无障碍浏览 进入关怀版