网易首页 > 网易号 > 正文 申请入驻

“学习图技术,治好了我的精神内耗”

0
分享至

摘要:随着《回村三天,二舅治好了我的精神内耗》这一视频的播出,“二舅”的故事火了,“精神内耗”这个词也引起了很多人的讨论。那么对于技术人来说,精神内耗又该如何治愈呢?近来,国外开发者Daniel Szemerey与Mark Aron Szulyovszky就因为烦恼如何将GPT-3等语言模型进一步扩展到更大的文本语料库中而感到心累焦虑,但最终他们找到了突破口:学习图神经网络。

原文链接:https://www.appliedexploration.com/p/graph-neural-networks-future-of-ai?s=w

声明:本文为 CSDN 翻译,未经授权,禁止转载。

作者 | Daniel Szemerey 与 Mark Aron Szulyovszky

译者 | 郑丽媛

出品 | CSDN(ID:CSDNnews)

最近,网上正在热议大型语言模型(Large Language Models,即LLM),许多研究人员都在研究如何将GPT-3等语言模型进一步扩展到更大的文本语料库上。

难道说文本,这种一维的单词序列建立的模型,是现实世界一切复杂事物的最佳表示?难道我们就没有更好的方法了吗?例如将相关概念与单词联系起来,然后将有意义的额外信息编码到这些关系中,不是更好吗?没错,我指的就是图神经网络(Graph Neural Network,即GNN)!


图神经网络的优势

在本文中,我将介绍图作为数据结构的优势,以及在图上运行机器学习算法的好处,最后我还将介绍一种将人类专家知识注入机器学习系统的方法。更具体地说,本文的主要内容包含以下几点:

  • 强大的数据表示:图是通用的、紧凑的、可解释的,而且还具有排列不变性。

  • 图机器学习能够同时学习局部特征和全局特征,并将人类知识注入机器学习系统。但是,这种方法也有一定的缺点。

图是数据的通用表示

将这个世界的万物进行分类是人类的基本认知能力,因此通过图表示这个世界既简单又通用:图由分类(即节点)组成,又通过关系(边)相互连接。

下面,我们来几个数字数据的例子,并演示如何用图对这些数据建模。

说到底,文本序列不过是一个按顺序连接的同质图。

图:文本可以看作是规则的字母序列或单词序列。

而图像则是一种高度结构化的规则图,其中的每个像素仅连接到了相邻的像素。

图:图像可以看作是高度规则的图,其中的每个节点都连接到相邻的节点。

例如游戏《超级马里奥》,其中包含各种图表示:

  • 由源代码编译而成的底层抽象语法树(Abstract Syntax Tree,即AST);

  • 源自AST的数据流图;

  • 从强化学习的角度来看,我们可以将游戏《超级马里奥》视为马尔可夫决策过程(Markov Decision Process,MDP),图中的每个节点代表游戏的一个独特状态,并通过导致该状态的动作相互连接。

图:游戏可以建模为马尔可夫决策过程(马尔可夫链),每个状态都是唯一的,可以通过动作转换到其他状态。

图紧凑且可解释

图非常紧凑,由于节点可以相互连接,因此它们的内容不需要重复,而且仅作为关系(边)引用。

图的另一个重要特性是可解释性。因为节点只能是离散的实体(具有明确的边界),所以它们是一种本地化的表示,也就是说如果需要编辑某个节点,那么只需要在一个地方进行。与之相对的是分布式表示,比如词嵌入,在这种表示中信息分散在许多不同的轴/维度中,人类将很难解释其含义,或对其进行编辑。

图具有排列不变性

想象一下,使用以表格或文本格式存储的高度连接的数据结构,首先从起始节点开始列举出所有的连接,然后再列举出相邻节点的连接,以此类推……然后,当需要重新执行此操作时,你选择了一个不同的起始节点,那么最终获得的数据可能与之前的大不相同!

图可以通过多种不同的方式显示或存储。例如,下面这些图是完全相同的。

图:图的节点可以随意打乱,但它们编码的信息不会改变,也就是说它们具有排列不变性。

但是,最终你需要一个“排列不变”的表示,它能涵盖所有不同的数据描述方式,而这正是图表示的优势。有一些方法可以避免“图扁平化”,比如使用关系数据库、图数据库或专门的文件格式。

你可能会认为,某些类型的数据在没有图的情况下建模效果特别差,比如分子。但是,目前最流行的表示分子的方法是“简化分子线性输入规范”(Simplified molecular input line entry specification,简称SMILES),这种方法可以将图展平成一维序列,从而获得一个置换等变的序列(同一个分子有许多潜在的表示)。这通常是通过生命科学机器学习库中的特殊技巧来实现的,我们还有很长的路要走!


图神经网络可以同时学习局部特征和全局特征

图不仅是通用的数据表示,而且还可以表示信息量非常密集的数据。举个例子,假设你有如下交易列表:

图:示例表格数据,其中包含用户和货物的属性

如果将这些交易输入到表格形式的深度学习架构中,它会把每个用户(Color、Item等特征)嵌入到一个高维向量空间,而且相似的用户(比如Color特征相似等)彼此相邻。图神经网络的处理方式也大抵相同,但它会采用不同的方式创建节点的嵌入:图神经网络会聚合相邻节点及其关系所持有的信息和模式。

如果使用表格形式的机器学习,你可以将每个用户的位置存储在嵌入字典的高维空间中。但使用图神经网络,你只需存储层(的权重),在将(子)图输入到神经网络时,这些层会提取节点嵌入。因此,我们可以获得一个更加动态的系统,而且可以随着新数据的流入而更新。

图:图中每个节点的嵌入都是由与该节点距离为n(n-hop)的节点聚合而成的。该图显示的是n-hop=2的中间节点的聚合

虽然这些差别看起来很细微,但当你想添加一个新用户,并为其创建嵌入时,这种差别就非常重要了。图神经网络可以快速为新的用户创建向量表示,因为它仅需访问与新用户的距离为3-4的节点。而使用表格形式的深度学习,你就需要将新用户的id添加到嵌入字典中,然后需要遍历整个数据集,才能准确地将新用户放到靠近其他类似用户的位置上。

最后,最常用的图神经网络可以学习局部模式(即相邻节点的信息),类似于卷积神经网络架构对图像的处理,因此这类图神经网络又被称为“卷积图神经网络”。就目前的发展来看,图神经网络不是该领域唯一的机器学习模型,但它们是唯一可有效部署的模型。

然而,图神经网络不必仅依赖于局部表示和模式匹配。还有一些方法可以将多个抽象级别集成到同一个图中。从某个节点的角度来看,如果需要用到图的全局属性,那么只需要加一个元节点,将其连接到每种类型的节点即可。


图可以将人类的知识注入数据

想象一下,你知道某个特征(比如“冬季”是一个“季节”)在你的数据集中非常重要。如果有一个图,则只需创建一个新节点“冬季”,就可以将所有在冬季购买过任何产品的客户连接起来。

图:我们可以利用图,将看似距离很远的数据(节点)连接起来,从而注入人类专家的知识。

如此一来,节点“冬季”将包含所有在冬季购买过任何产品的用户的大量潜在信息,而且所有这些用户都可以利用这一点。

在部署模型(而不仅仅是做基准评估)时,了解机器学习算法的主要优势很重要。另外,使用非结构化数据(如文本)很难实现上述功能,因为你不了解其中的因果关系。


总结

如上所述,图可以更丰富、更灵活地表示我们的世界,而且图机器学习,尤其是图卷积网络,可以让人类专家和机器学习系统进行交互。

但请记住,图神经网络并不完美,它也有一定的缺点。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
白冰创下史上最短解封,解封后只发了一条视频,马上又被封杀

白冰创下史上最短解封,解封后只发了一条视频,马上又被封杀

新游戏大妹子
2026-05-16 13:01:52
黄仁勋算不算中国人?血统追根溯源一目了然,下一代截然不同

黄仁勋算不算中国人?血统追根溯源一目了然,下一代截然不同

奇思妙想生活家
2026-05-14 00:17:49
陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

杰丝聊古今
2026-05-03 13:35:27
“暴富梦”碎?深圳这个区已有7个旧改“宣告失效”!

“暴富梦”碎?深圳这个区已有7个旧改“宣告失效”!

新浪财经
2026-05-16 00:01:48
都是14亿人口,印度每1000人仅34人有车,中国1000人中有多少呢

都是14亿人口,印度每1000人仅34人有车,中国1000人中有多少呢

寻墨阁
2026-05-05 01:39:42
泰山vs铜梁龙:四外援PK三外援,依木兰首发,谢文能出战

泰山vs铜梁龙:四外援PK三外援,依木兰首发,谢文能出战

懂球帝
2026-05-16 18:50:23
马斯克带儿子亮相人民大会堂,抢镜的虎头包,疑似马斯克妈妈挑选

马斯克带儿子亮相人民大会堂,抢镜的虎头包,疑似马斯克妈妈挑选

落雪听梅a
2026-05-15 20:45:55
生完3胎刚复出就成笑柄,自毁体面的方媛 证实熊黛林对郭富城的话

生完3胎刚复出就成笑柄,自毁体面的方媛 证实熊黛林对郭富城的话

老鹈爱说事
2026-05-16 13:01:36
泪目!38岁男子坦然面对死亡,还写下遗言,他是一个快递员,3孩

泪目!38岁男子坦然面对死亡,还写下遗言,他是一个快递员,3孩

火山詩话
2026-05-16 10:14:19
特朗普国宴吃北京烤鸭,照顾口味搭配牛排冰淇淋,爬天坛气喘吁吁

特朗普国宴吃北京烤鸭,照顾口味搭配牛排冰淇淋,爬天坛气喘吁吁

译言
2026-05-15 06:09:29
2比4出局!合同到期!39岁即将退役

2比4出局!合同到期!39岁即将退役

篮球教学论坛
2026-05-16 17:41:03
普京支持率跌破战争时期最低后,俄开始上门统计普京支持率

普京支持率跌破战争时期最低后,俄开始上门统计普京支持率

桂系007
2026-05-15 23:42:40
6岁男童,保住了命,但人却傻了。疏忽无知的母亲,所有人要吸取的教训!

6岁男童,保住了命,但人却傻了。疏忽无知的母亲,所有人要吸取的教训!

听李医生说
2026-05-16 09:06:12
重磅宣布!你好,崔永熙!中国男篮等了整整2年

重磅宣布!你好,崔永熙!中国男篮等了整整2年

篮球实战宝典
2026-05-15 19:22:06
她靠OnlyFans养孩子:这5部剧里的女人,都在绝境里找活路

她靠OnlyFans养孩子:这5部剧里的女人,都在绝境里找活路

心事寄山海
2026-05-15 02:02:56
西决晋级概率仅32%,5点证马刺遭低估!文班领衔3大新星成杀手锏

西决晋级概率仅32%,5点证马刺遭低估!文班领衔3大新星成杀手锏

锅子篮球
2026-05-16 16:24:58
事出反常!名记暗示刘国梁被约束,奥运会后出国三次却只限开会?

事出反常!名记暗示刘国梁被约束,奥运会后出国三次却只限开会?

阿库财经
2026-05-15 16:47:47
卢秀燕急了,郑丽文未赴美,2028选举已彻底失败

卢秀燕急了,郑丽文未赴美,2028选举已彻底失败

遍体鳞伤为我证明
2026-05-15 20:39:55
多项研究显示:性生活频率过低,男女容易早衰且患癌风险增高!

多项研究显示:性生活频率过低,男女容易早衰且患癌风险增高!

灯锦年
2026-05-05 21:55:51
福建舰推进实战训练,英媒泼冷水,中国会造不会用,英国航母第一

福建舰推进实战训练,英媒泼冷水,中国会造不会用,英国航母第一

爱吃醋的猫咪
2026-05-16 19:02:27
2026-05-16 19:44:49
CSDN incentive-icons
CSDN
成就一亿技术人
26548文章数 242289关注度
往期回顾 全部

科技要闻

涨的是车价,要的是老命

头条要闻

7人蒙面当街抢走幼童主谋竟是孩子生父 母亲奔波寻子

头条要闻

7人蒙面当街抢走幼童主谋竟是孩子生父 母亲奔波寻子

体育要闻

马刺2号,少年老成,这集看过?

娱乐要闻

谢霆锋北京街头骑行被偶遇,侧颜帅炸

财经要闻

造词狂魔贾跃亭

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

本地
健康
亲子
房产
教育

本地新闻

用苏绣的方式,打开江西婺源

专家揭秘干细胞回输的安全风险

亲子要闻

一个姐姐半个妈,姐姐贴心守护弟弟,懂事得让人心疼

房产要闻

老黄埔热销之下,珠江春,为何去化仅3成?

教育要闻

一图讲透提前批!

无障碍浏览 进入关怀版