网易首页 > 网易号 > 正文 申请入驻

GPT-4搞不定的图推理,港科大7B模型搞定|KDD2024

0
分享至

香港科技大学 陈诺 投稿
量子位 | 公众号 QbitAI

大模型执行图推理任务,我们是希望大模型仅仅给出结果,还是在给出准确答案的同时,输出详细的推理过程?

先来看GPT-4的表现:

给出了一个非常简短且错误的答案(判断该图中没有环),这可能是由于模型在处理长输入时的局限性,或者是对图的复杂结构理解错误所致。这显示了大型模型在适应图论问题时面临的挑战。

相比之下,港科大团队开发的GraphWiz不仅给出了正确的答案,还提供了一条清晰且详细的推理路径。

GraphWiz 的设计目的是提升目前开源的大型模型在解决各种图推理任务时的能力:

通过对大型模型进行针对性的微调,处理不同复杂度的图推理任务,并同时输出明确而连贯的推理路径。

对于人类来说,要在这样规模的图中检测环是极具挑战性的。通常,人类需要借助外部工具或花费大量时间来完成这一任务,因为仅仅依靠脑力计算是不切实际的。

这突显了GraphWiz在空间推理和记忆保持方面的能力。它表明,该模型已经有效地吸收了图论的基本原理,并能够自主地在大规模且复杂的图结构中进行导航和推理。GraphWiz在处理复杂图问题方面的能力,证明了其在实际应用中的巨大潜力。

总的来说,本篇文章的主要贡献如下:

  • 创建了GraphInstruct,一个大规模的数据集,用于训练语言模型处理图任务,并提供清晰推理路径,提高可解释性。
  • 推出了GraphWiz,一个开源的大型语言模型,擅长通过明确推理解决各种图问题,性能优于GPT-4。
  • 研究了训练数据量和DPO框架下采样策略等对模型性能的影响,并探索了GraphWiz跨任务迁移的能力,为后续模型优化和性能提升提供指导。

图推理任务介绍

在本研究中,团队精心挑选了九种不同计算复杂度层次的图问题,涵盖了研究的广度和深度,包括:

  • 四个线性复杂度任务:连通性和环检测、二分图检验、拓扑排序
  • 三个多项式复杂度任务:最短路径、最大三角形和、最大流;
  • 以及两个NP完全任务:哈密尔顿路径和子图匹配。

通过选择这九个图问题,团队的工作从简单到复杂、可解到难解的问题上进行了全面的图论探索。这种多样化的选择不仅有助于团队理论上理解图算法,而且还能解决广泛的实际应用问题。

GraphInstruct数据集构建

GraphInstruct的构建包括以下几个关键步骤:

图问题生成。为了打造一个多样而具挑战性的图问题库以供模型训练与测试之用,团队通过编程辅助的方法,为每一种预设的任务生成随机图问题。团队为每一个任务设计了独特的模板,以捕捉图的特有属性,例如图是有向还是无向,边是否有权重等。随机图的生成团队采用了Erdős-Rényi(ER)模型。

显式推理路径生成。GraphInstruct为每一个图问题对都配备了一条显式推理路径。考虑到手动标注这些图任务的推理路径既复杂又耗时,团队选择利用GPT-4来生成初步的推理路径。

数据增强与拒绝采样。由于观察到GPT-4在许多图任务上的表现欠佳,比如在初始数据集中的最大流任务上自由不足100个样本是正确的,团队采用了拒绝采样策略来增广数据集,以包含更多样的推理路径。

挑选多样化的推理路径。这个步骤需要在准确度和多样性之间找到平衡。为此,团队采用了一系列精细化策略,这些策略分为基于字符串和基于语义的方法,用以筛选出不同的生成推理路径。

GraphWiz训练

基于GraphInstruct,团队训练了GraphWiz,旨在优化当前大模型解决图问题并给出显式推理路径的能力。GraphWiz的训练方法是一个创新的两阶段过程:

混合任务指令调优(Mixed-Task Instruction Tuning):在第一阶段,团队专注于提升模型解释和解决各种图问题的能力。通过这种方法,GraphWiz学习处理包括理解问题、识别图的属性、应用图算法等在内的多个子任务。

直接偏好优化对齐(Direct Preference Optimization Alignment ):第二阶段,团队通过训练模型区分更有效与不太有效的问题解决路径来进一步锐化模型的推理能力。DPO对齐使模型能够识别和生成更理想的推理路径,从而提高解决问题的效率和准确性。

GraphWiz性能评测

团队对GraphWiz进行评估,旨在回答以下关键问题:

  • Q1: GraphWiz在不同复杂度的图问题上的表现如何,特别是与目前最强大的闭源模型GPT-4相比如何?
  • Q2: 训练数据量的变化对GraphWiz的性能有什么影响?
  • Q3: GraphWiz 对不同图问题的迁移能力如何?
  • Q4: 图中节点数量的变化会如何影响GraphWiz的性能?此外,它能有效处理的最复杂的图是多大的?
  • Q5: 超参数ß如何影响模型性能?

从上表中可以看出,团队的模型在各种开源模型上展示出了卓越的结果,显著超过了GPT-4的性能。这一点在从简单到困难类别的各种任务中都保持一致。DPO进一步提高了模型平均性能。然而,DPO可能对特定任务有不利影响。这表明,虽然DPO通常有助于改善模型推理,但可能需要进一步调整,以避免对某些问题类型产生负面影响。

根据上表,团队观察到随着训练语料库的增加,两个模型都有效果的提升,比如GraphWiz (Mistral-7B)的平均准确率从1:1比率的46.56%上升到1:5比率的53.75%。这表明更多的多样化推理路径通常有利于模型解决图推理问题的整体性能。

团队可以注意到在某些任务上,如三角形和汉密尔顿路径问题,准确性并没有显著提高,甚至随着数据量的增加而略有下降。例如,GraphWiz (Mistral-7B) 在三角和问题上在1:1比率下的准确性为47.00%,然后在1:5比率下降至38.75%。这可能表明了过拟合现象,即模型开始记住训练数据中的模式,这些模式并不适用于未见过的数据。

总之,虽然增加数据量和推理路径的多样性通常可以导致更好的模型性能,但在某些复杂任务中存在潜在的过拟合迹象,这强调了需要仔细设计模型训练,并对不同的图问题任务进行验证,以确保广泛的泛化能力。

为了探索GraphWiz在不同图任务中的迁移能力,团队建立了一个额外的模型变体:GraphWiz-High。这个模型仅在两个高复杂度(NP-完全)图任务上进行训练:汉密尔顿路径和子图匹配。为了研究其迁移能力,团队进行了两个比较实验:

高复杂度任务比较。团队首先将GraphWiz-High与常规的GraphWiz在高复杂度任务上进行比较。上图(a)表明GraphWiz的表现更好,验证了混合任务训练的有效性。这个结果也表明模型能够将从其他任务学到的知识转移到特定的高复杂度任务上。

零样本迁移能力。团队进一步测试GraphWiz-High在从未训练过的低和中复杂度任务上的零样本迁移能力。如上图 (b) 所示,GraphWiz-High与Mistral-Base相比有显著的性能提升。即使与ChatGPT相比,团队的模型也能保持相当的性能。考虑到ChatGPT和GraphWiz-High之间在参数数量上的巨大差异,这表明团队的模型具有值得称赞的跨任务泛化能力,展示了实际应用的重大潜力。

为了解答关于模型性能如何随着不同图大小变化的问题,以及确定模型能够有效解决的最大图大小,团队在上图展示了GraphWiz在表现最佳任务(a)环检测和最差任务(b)最短路径上的性能。

从图中,团队得出以下结论:

GraphWiz和GPT-4在图的大小增加时都表现出性能的下降。然而,团队的模型在大多数时候当图大小上一致时优于GPT-4,这表明了对图结构更强大的理解和处理能力。

团队观察到在最短路径上,随着节点数的增加,性能显著下降。这种下降很可能可以归因于两个主要因素:该任务要求高推理和记忆能力,因为更高时间复杂性,以及强大的计算技巧,这可能对模型的容量构成额外挑战。实际上,团队发现两种模型主要依赖枚举来得出解决方案。因此,随着图大小的增加,所需的枚举推理呈指数级增长,导致当节点数超过60后,准确率显著下降,之后几乎不再有准确性。

这些观察表明,尽管GraphWiz在处理与图相关的任务方面明显优于GPT-4,但存在一个复杂度的阈值——特别是在需要超出简单推理的计算的任务中——即使是最先进的模型的性能也开始显著下降。

最后,团队还探究了参数ß对模型效果的影响。团队观察到,较高的 ß似乎在一定程度上有利于困难任务的性能,但这并非严格的线性关系,并且在不同的模型大小之间也不一致。这表明,仔细调整 ß 对于在不同难度任务之间取得最佳平衡,提高模型的整体准确性是必要的。

更多样例

团队还展示了更多不同任务上GraphWiz的推理样例。

连通性任务:

汉密尔顿路径任务:

最短路径任务:

子图匹配任务:

论文链接:https://arxiv.org/abs/2402.16029
项目主页:https://graph-wiz.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
男子多次在广州地铁演讲“打拼感受”引争议:本人已致歉

男子多次在广州地铁演讲“打拼感受”引争议:本人已致歉

澎湃新闻
2026-01-20 17:05:03
“儿子都腺样体了,还吃烤肠呢?”一份糊弄早餐暴露家长的低认知

“儿子都腺样体了,还吃烤肠呢?”一份糊弄早餐暴露家长的低认知

妍妍教育日记
2025-12-26 17:18:26
贝克汉姆儿媳晒娘家5.3亿庄园,70岁超模母亲也很美,碾压了婆家

贝克汉姆儿媳晒娘家5.3亿庄园,70岁超模母亲也很美,碾压了婆家

笑傲春秋
2026-01-20 13:52:11
北京公安交管部门:警力最大化投向路面 疏堵保畅

北京公安交管部门:警力最大化投向路面 疏堵保畅

人民资讯
2026-01-20 11:24:14
军舰开到家门口,炮口快怼脸上,第一反应竟是:有多少钱赔人家!

军舰开到家门口,炮口快怼脸上,第一反应竟是:有多少钱赔人家!

百态人间
2025-12-17 16:30:23
全面下降!楼市重磅数据公布

全面下降!楼市重磅数据公布

大川东山再起
2026-01-20 17:15:38
多家上市公司宣布:去年业绩大爆发!

多家上市公司宣布:去年业绩大爆发!

证券时报e公司
2026-01-20 22:10:09
乙肝24周“治愈”?GSK乙肝新药III期研究成功,2.5亿人迎曙光!

乙肝24周“治愈”?GSK乙肝新药III期研究成功,2.5亿人迎曙光!

思思夜话
2026-01-20 11:45:05
伊朗前王储巴列维宣布将返回伊朗领导革命

伊朗前王储巴列维宣布将返回伊朗领导革命

一种观点
2026-01-19 19:36:11
输给上海19分!揪出3大“废柴”,坑惨了北京队

输给上海19分!揪出3大“废柴”,坑惨了北京队

体育哲人
2026-01-20 22:50:56
赢球就是硬道理!强调态度+执行力,安东尼奥把中国足球带回正轨

赢球就是硬道理!强调态度+执行力,安东尼奥把中国足球带回正轨

中国足球的那些事儿
2026-01-17 23:56:49
电网设备+核聚变:双概念龙头十强,谁值得长期关注?

电网设备+核聚变:双概念龙头十强,谁值得长期关注?

王二哥老搞笑
2026-01-20 13:59:14
北京下了死命令,2027年底前,所有中小学必须告别“校外配餐”

北京下了死命令,2027年底前,所有中小学必须告别“校外配餐”

云舟史策
2026-01-19 21:22:51
韩红去上海买眼镜,被店员2次提醒价格闹笑话,网友:对自己真抠

韩红去上海买眼镜,被店员2次提醒价格闹笑话,网友:对自己真抠

冷紫葉
2026-01-20 00:57:00
上海前首富周正毅现状曝光!戴200万名表打耳钉,雪茄从不离手

上海前首富周正毅现状曝光!戴200万名表打耳钉,雪茄从不离手

小徐讲八卦
2026-01-12 14:35:55
1700家社区食堂关门了:不是老人不吃饭,是饭没送到嘴边

1700家社区食堂关门了:不是老人不吃饭,是饭没送到嘴边

阿伧说事
2025-08-01 07:23:30
谈崩了!特朗普开价7000亿美元,喊话北约:给我拿下格陵兰岛

谈崩了!特朗普开价7000亿美元,喊话北约:给我拿下格陵兰岛

议纪史
2026-01-19 18:05:03
连续发射失败后第3天,中国航天猛然发力,3大捷报传来

连续发射失败后第3天,中国航天猛然发力,3大捷报传来

天天热点见闻
2026-01-20 05:30:21
偌大的海南岛面积足有3.4万平方公里,为啥却少有大型港口呢?

偌大的海南岛面积足有3.4万平方公里,为啥却少有大型港口呢?

向航说
2025-12-12 00:40:02
澳洲一家人日本旅游破防:到处被嫌弃,只有7-11收留我们!

澳洲一家人日本旅游破防:到处被嫌弃,只有7-11收留我们!

新欧洲
2026-01-18 20:59:29
2026-01-21 01:31:00
量子位 incentive-icons
量子位
追踪人工智能动态
12038文章数 176360关注度
往期回顾 全部

科技要闻

收藏|这可能是CES2026最清醒一份复盘

头条要闻

14999元华为智能门锁上市即倒挂 二级市场折让3千多元

头条要闻

14999元华为智能门锁上市即倒挂 二级市场折让3千多元

体育要闻

勇士遭暴击!巴特勒重伤赛季报销

娱乐要闻

网红版闫学晶!600万粉博主阿爆翻车

财经要闻

李迅雷:2026买房不如租房

汽车要闻

奇瑞张贵兵:墨甲不做秀技术的企业 只做痛点终结者

态度原创

房产
教育
亲子
公开课
军事航空

房产要闻

中旅・三亚蓝湾发布会揭秘自贸港好房子高阶形态

教育要闻

高考地理中的生态退化

亲子要闻

这是真的先天法医圣体阿!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

德军13人前脚刚走 荷兰2名军人也撤离格陵兰岛

无障碍浏览 进入关怀版