始智AI wisemodel.cn开源社区
始智AI wisemodel.cn社区将打造成huggingface之外最活跃的中立开放的AI开源社区。欢迎《》以及《》
图神经网络(GNN)已成为处理和学习图数据的强大工具,在社交网络分析、推荐系统、智慧城市和生物信息等多个领域带来了革命性的进展。但是许多图神经网络方法在处理稀疏和有噪声的数据时鲁棒性和泛化性能不佳。
通过应对实际中极具挑战的零样本学习情境,来提升图模型的泛化性能,香港大学数据智能实验室黄超老师团队推出了图大模型——GraphGPT,在众多下游数据集和任务上都展现出了较强的泛化性能力。GraphGPT已经发布在始智AI wisemodel.cn开源社区平台。
https://wisemodel.cn/models/Jiabin/GraphGPT(模型地址)
01
研究背景
大语言模型与图学习结合面临的三大挑战:
一是如何有效地将图的结构信息与语言空间进行对齐,使得模型能够同时理解图的结构和语义信息;
二是如何设计适当的指令使得大模型理解图数据中的结构信息;
三是如何赋予大语言模型图学习下游任务的逐步推理能力,从而逐步推断出更复杂的关系和属性。GraphGPT 框架能够有效地应对这些问题,能够保持和利用图的结构性信息,从而准确地识别文章的种类。
02
研究概述
GraphGPT旨在通过精心构建的图指令微调方法将大型语言模型与图结构相结合,解决纯文本提示下进行图结构建模的挑战。
GraphGPT 采用了文本与图结构的对齐方法,通过结合文本信息的对比学习,在图编码器中实现了文本语义的有效对齐。
然后采用双阶段的图指令微调方法:
第一阶段,利用无标签的图结构数据,引导大型语言模型获取与图数据相关的结构性知识。
第二阶段,使用特定任务的图数据指令对模型进行微调,增强大模型在各种图学习中的推理能力。
采用“思维链”方法,将闭源的大型语言模型(如 ChatGPT)整合到 GraphGPT 中,提升了模型的逐步推理能力。
通过这些创新方法,GraphGPT 极大地改善了纯文本提示下进行图结构建模的能力,并在图学习任务中取得了显著的表现。
03
研究方法
3.1 用“文本-图”对齐编码结构信息
在 GraphGPT 中,图结构编码器的选择是非常灵活的,可以利用各种基础 GNN 架构从多种图预训练范式中获得,该研究探索了与大型语言模型良好协作的图结构编码方式,确定以对比的方式将文本信息融入图结构的编码过程中。GraphGPT模型框架直接将带有预训练参数的图编码器集成进来,无缝地整合图编码器的功能。
3.2 两阶段图指令微调
完成以下两个训练阶段,GraphGPT将获得理解给定图结构并在提供的图上执行各种下游任务的能力。
首先采用自监督的指令微调策略,构建结构感知的图匹配任务,指导语言模型利用自然语言标签来识别图中的各个节点。图匹配任务的指令包括三个部分:i)图信息,ii)人类问题,和iii)GraphGPT 的回应。
在图匹配任务的上下文中,指令包括指示符token和一个被打乱的节点文本信息列表。在微调训练过程中,采用轻量级对齐投影策略,固定大语言模型和图编码器的参数,仅专注于优化投影器的参数。
在第二阶段,通过使用任务特定的图指令对大语言模型进行微调,引导模型生成更适合当前图学习任务的响应,进一步提高模型在处理各种图学习任务时的适应性和性能。
这个指令提示语言模型基于图结构数据和伴随的文本信息来预测中心节点的类别。这个阶段的微调使用第一阶段训练得到的结构感知投影器的参数作为初始状态,保持大语言模型和图编码器的参数不变,仅专注于优化前一阶段的投影器的参数,确保大语言模型进一步与下游任务对齐,增强其理解和解释图结构的能力。
3.3 思维链蒸馏
最后GraphGPT采用融合思维链方法来增强文本生成的连续性和准确性,使其能够按照逻辑顺序进行思考,从而更好地理解和推断给定的图数据。
从一个封闭的、大规模的语言模型(例如 GPT-3.5,参数超过 2000 亿)中提取思维链的推理技巧,使 GraphGPT 能够生成高品质的答案,同时增强其逐步推理的能力,而不增加额外的参数。
为了进一步优化性能,生成的思维链指令数据与之前为任务特定指令微调阶段制定的指令结合起来,进行图指令的微调。
04
实验分析
GraphGPT 在有监督和零样本环境中均稳定地胜过了众多先进的基线模型,特别是在零样本图学习中实现了显著的 2-10 倍的准确性增长。
通过实验表明,第一阶段指令微调中的自监督图匹配任务,对于提升 GraphGPT 的零样本迁移能力起到了核心作用。如果缺少这一阶段,模型仅在第二阶段进行特定任务的指令微调,那么模型更容易在某一特定数据集上产生过拟合。采用思维链蒸馏对于更为复杂的图学习任务具有显著的助益。
通过思维链蒸馏,借助闭源模型(GPT-3.5)的强大推断力,GraphGPT能够整合这些知识和推理技巧,并在复杂的图任务上大幅提升性能。
在本研究保证指令条目数量相同的前提下,混合了多种类型的指令数据,包括标准指令(“-std”)、思维链指令(“-cot”)、标准指令(50%)与思维链指令(50%)的组合(“-mix”),以及链路预测指令(“Link”)。
恰当的数据混合策略能显著提升 GraphGPT 在多种场景下的表现。引入链路预测指令后,模型在节点分类上的表现得到了显著提升,而在加入节点分类后,链路预测的效果也超越了其他模型。在融合了不同任务的指令后,模型展示了其在处理各种图学习任务并将知识迁移到其他未曾接触过的数据集的能力。
指令微调方法的两阶段策略中大语言模型和图编码器的参数都被冻结,只有“图-文”对齐投影器进行了微调。在配备 4 块 40G Nvidia A100 显卡的环境中,分别比较了冻结与微调大语言模型参数(分别标记为 “-freeze” 和 “-tune”)时的训练时长、微调参数数量以及 GPU 使用情况(每块 GPU 的 MiB)。
与 baichuan-7B、vicuna-7B-v1.1 和 vicuna-7B-v1.5 对比,评估了 GraphGPT 在推理速度和精确度上的表现。实验在单块 40G Nvidia A100 上进行,记录了在 Arxiv 和 Cora 思维链指令数据集上的推理时长(每次响应所需的秒数),GraphGPT 通过简化的推理步骤达到了精确的预测,从而提高了推理的效益。
对于一个包含 103 个节点的子图, GraphGPT 只需向 LLM 输入 750 个 token,而基于文本的策略则需要 4649 个 token。这种显著的 token 减少意味着在训练和推理时资源需求大大降低。
06
结论
GraphGPT,采用了双阶段的图指令微调方法,将图相关的结构性知识融入到大语言模型中。通过一个简单而有效的“图-文”对齐投影器,该模型得以理解并解读图的结构性信息。在多种环境下的综合评估显示,该模型在有监督和零样本的图学习场景中均表现出色。更进一步,该模型展示了出色的泛化性,使其能够应对多个下游数据集和任务,而不受到灾难性遗忘的影响。
论文链接:
https://arxiv.org/abs/2310.13023
代码链接:
https://github.com/HKUDS/GraphGPT
模型链接:
https://wisemodel.cn/models/Jiabin/GraphGPT
编辑:安冉,成蕴年
审核:赵雅鑫,成蕴年
----- END -----
欢迎加盟
始智AI wisemodel社区自2023年9月上线以来,取得了积极的进展,初步形成一定的影响力,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员(根据个人意向可备注“求职”或“创业”)
wisemodel相关
系统升级
系列模型:
欢迎投稿
欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。
持续关注和支持
开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护。期待更多开发者将开源成果发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,可以申请加入wisemodel社群,持续关注社区动态。
关于始智AI wisemodel.cn开源社区
始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将努力打造成“HuggingFace”之外最活跃的社区,汇聚主要AI开源模型和数据集等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.