首页网络设计正文

图神经网络基础与前沿pdf（图神经网络前景）

网络设计 2年前(02-09) 324

本篇文章给大家谈谈图神经网络基础与前沿pdf，以及图神经网络前景对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。本文目录一览： 1、图神经网络是怎么炼成的：GNN基本原理简介

本篇文章给大家谈谈图神经网络基础与前沿pdf，以及图神经网络前景对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。

本文目录一览：

1、图神经网络是怎么炼成的：GNN基本原理简介
2、GCN图卷积网络入门详解
3、求《神经网络与深度学习讲义》全文免费下载百度网盘资源,谢谢~

图神经网络是怎么炼成的：GNN基本原理简介

此文算是对Google Research这篇 A Gentle Introduction to Graph Neural Networks 神作的阅读笔记.

十多年来，研究人员开发了一种称之为图神经网络（Graph Neural Networks，GNNs）的技术，旨在将如今在深度学习的诸多任务中摧枯拉朽的神经网络，应用到图结构之上，从而让神经网络捕捉到更错综复杂的交叉特征，以期待在一些任务上取得更佳的效果。鉴于操作图数据结构的复杂性，尽管已经发展了十几年，它在实际应用中却刚刚起步，即时是google也才开始研究将其被应用到药品研发、物理模拟、***新闻检测、交通预测和推荐系统等领域。

尽管GNN是一个新兴的研究领域，但图结构的数据其实在我们身边无处不在。那么什么是图呢？

这个理科生应该都清楚，图有点(Vertex)和边(Edge)两部分组成，一个图就代表了各个实体节点（node）之间的关系（edge）：

每个节点或者边都可以包含它的一些属性信息，比如如果一个节点表示一个人，那么就可以包含这个人的姓名、性别、身高、体重之类的..我们研究需要的信息。

而这些信息，都可以用通用的向量的形式存入其中：

还有别忘了一点，边是可以有方向的，按此我们还能分为有向图或是无向图。边的方向代表了信息的传递方向，例如a是b的微信好友，那b也是a的微信好友，好友关系自然是没方向的，而比如a是b的爹，那显然b就不是a的爹，此时叫爹的关系就是有有方向的。

图结构的构建是非常灵活的，可以根据个人的设计构建出各种不一样的图。而作为开发者显然要结合实际解决的问题来构建合适的图。

正如前面所提到的，图无处不在。你可能已经熟悉例如知识图谱、社交网络之类的图数据。当时显然，图是一种极其强大的通用数据表示，传统神经网络中用到的欧式空间的数据，同样可以用图来表示，例如可以将图像和文本建模为图结构数据。

比如，我们可以将一张图片的每个像素作为图的节点，再将相邻的像素用边连接起来，就构造了一个该图像的图。

如上图展示了一个5*5的图片的邻接矩阵表示和图表示。

我们将每个单词作为节点，并将每个节点连接到下一个节点，就得到了一个文本的图：

当然，在实践中我们并不会这样来编码文本和图像，因为所有的图和文本都是非常规则的结构，表示成图就多此一举了。

我们再来看一些例子，这些数据的结构更加复杂，除了图之外很难用其他方式来表达。

分子是构成物质的基石，我们可以用节点来表示它的原子和电子，用边来表示共价键，这样便将一个分子表示成了一个图：

不同的图可以表示出不同的分子结构：

都说社会是一个大熔炉，身处其中的人和事物之间会发生极其复杂的关系。这种关系的表示用普通的表格数据是很难表示的，而图却能很好的展现。

下图是将莎士比亚歌剧《奥赛罗》中的任务关系表示成图：

怎么样，如果没看过歌剧能推测出那些是主角吗？

下面是将一个空手道竞标赛的对战关系构建为图：

类似的可以表示为图的数据还有很多很多，比如论文的引用之类统统都可以表示为图，下面是现实世界中不同规模的数据图表示的统计数据：

可见，各种各样规模的数据都可以轻松的用图来表示。

在上面我们列举了这么多的图，那么我们该对这些图数据执行什么任务呢？

图上的预测任务一般分为三类：

下面我们通过具体的示例来说明GNN怎么来解决上述的三个级别的预测问题。

在图级别的任务中，我们的目标是预测整个图的属性。例如我们通过分子图，来预测该分子的气味或是者它是否是与某些疾病有关的受体。

它的输入是完整的图：

输出是图的分类：

节点级任务一般就是预测每个节点的类型。

一个经典的例子就是Zach的空手道俱乐部。该数据集市一个单一的社交网络图，犹豫政治分歧，讲师Hi先生和管理员John之间不和导致空手道俱乐部分裂，其中的学员一部分效忠于Hi先生，一部分效忠于John。每个节点代表空手道联系着，边代表空手道之外这些成员的互动，预测问题就是判断这些节点是效忠于谁的。

边级任务其实就是预测每个边的属性.

在目标检测的语义分割任务中,我们也许不止要识别每个目标的类型,还需要预测各个目标之间的关系.我们可以将其描述为边级别的分类任务:给定表示图像中的对象的节点，我们希望预测哪些节点共享一条边，或者该边的值是多少。如果我们希望发现实体之间的连接，我们可以考虑图是完全连通的，并根据它们的预测值修剪边来得到一个稀疏图。

用图表示就是这样的过程:

那么我们要如何使用神经网络来处理上述各种类型的任务呢?

首先要考虑的是如何将图结构数据适配到神经网络.

回想一下啊,传统的神经网络输入的往往是矩阵形式的数据,那么要如何把图作为输入呢?

图表示有四种类型的信息:节点(nodes),边(edges),全局上下文(global-context),联通性(connectivity).对于前三种信息,有一个非常简单的方案,比如将节点排序,然后每个节点表示为一个向量,所有节点就得到了一个节点的矩阵,同理,边和上下文也可以这么搞.

但是要标识连通性就没有这么简单了,也许你会想到用临街矩阵来表示,但是这样表示会有明显的缺陷,因为节点数的规模往往是巨大的,对于一个数百万节点的图,那将耗费大量的空间,而且得到的矩阵往往也十分的稀疏,可以说空间利用率会很低.

当然,你也许会想,可以用稀疏矩阵来存储,这样就只需要存储连通的情况,空间利用率将大大提升,但是我们还要考虑到一点,就是稀疏矩阵的高性能计算一直是个艰难的,尤其是在用到GPU的情况.

并且,使用邻接矩阵还有一个问题就是各种不同的邻接矩阵可以标识相同的连通性,而这些矩阵并不能保证在神经网络中取的相同的效果.比如,同样的连通性,通过调换列的顺序,就能得到不同的邻接矩阵:

现在，我们成功的将图结构成功表示成了置换不变的矩阵格式，终于可以使用图形神经网络（GNN）来做图形预测任务了。

GNN是对保持图对称性(置换不变性)的图的所有属性(节点、边、全局上下文)的可优化变换。

我们将使用Gilmer等人提出的“消息传递神经网络”框架构建GNN,并使用Battaglia等人介绍的图网络网络架构示意图。GNNS***用“图输入，图输出”架构，这意味着这些模型类型接受图作为输入，其中包含节点，边和全局上下文的信息，并逐步地转换这些图嵌入，而不会更改输入的连接图结构。

我们使用最开始提到的那个图来构建一个最简单的GNN,输入的图是相应节点,边,全局信息的向量,我们针对每个向量使用一个MLP层来作变换,于是得到一个新的图.

针对上述构建的最简单的GNN，我们如何在上面描述的任何任务中进行预测呢?这里我们仅仅考虑二进制分类的情况，但这个框架可以很容易地扩展到多类或回归的情况。

如果是对节点分类,我们只要在最后一层接一个线性类器就可以了:

但是上面的预测过程有点过于简单了,完全没有用到图的结构信息,我们在此基础上增加一个pooling操作,以增加它的边缘信息:

具体操作是把待预测节点的邻居节点以及全局的信息进行聚合再做预测,即将这些embedding向量加到一起得到一个新的向量,再输入到最后的线性分类器.

同理,如果我们只有节点相应边的信息的话,也可以用类似的方式pooling,然后得到节点的向量表示再输入分类器:

反之,如果我们只有节点的信息,那么也可以用边所连接的两个节点来pooling出边的向量,然后将器输入到分类器预测边的类型:

显然,不管是哪种任务,整个GNN的推理过程都是一样的,可以表示为这样一个端到端的过程:

不过,显而易见的,这个简单的GNN在分类前只是对每个向量进行了一个变换,而没有用到图结构的任何信息,虽然在最后做预测的时候做了一些pooling的聚合,但也始终没有用到adjacency的信息,因此这个GNN的作用相当有限,但是它为我们提供了一个图结构层变换和堆叠的基本思路.

针对上面最简单GNN的不足,我们可以在其中根据连通性增加更加复杂的变换从而引入整个图结构的信息,我们将这个过程称之为信息传递.

信息传递包含三个步骤:

这个过程有点类似于卷积操作,每个节点汇聚了其邻居的节点,经过多个层的变换,它将涵盖全图的信息.

于是我们可以将这个节点信息传递应用到上述的图变换过程中:

然后,我们发现它并没用用上边的信息,于是可以把边信息也加上,变成这样:

既然把边的信息加上了,那怎么可以漏掉全局信息呢,于是完整的信息传递就可以表示成这样:

以上,我们梳理了最简单的GNNs是怎么完成的,你应该已经对GNN有了一个基本的了解,就像学会了传统神经网络中最简单的全连接网络类似,关于GNN还有更多不同种类的更复杂的图需要取了解和学习,但你只要掌握了以上的思想,学习起来也是十分容易的.

GCN图卷积网络入门详解

在这篇文章中，我们将仔细研究一个名为GCN的著名图神经网络。首先，我们先直观的了解一下它的工作原理，然后再深入了解它背后的数学原理。

字幕组双语原文：【GCN】图卷积网络(GCN)入门详解

英语原文： Graph Convolutional Networks (GCN)

翻译：听风1996 、大表哥

许多问题的本质上都是图。在我们的世界里，我们看到很多数据都是图，比如分子、社交网络、论文引用网络。

图的例子。(图片来自[1])

在图中，我们有节点特征（代表节点的数据）和图的结构（表示节点如何连接）。

对于节点来说，我们可以很容易地得到每个节点的数据。但是当涉及到图的结构时，要从中提取有用的信息就不是一件容易的事情了。例如，如果2个节点彼此距离很近，我们是否应该将它们与其他对节点区别对待呢？高低度节点又该如何处理呢？其实，对于每一项具体的工作，仅仅是特征工程，即把图结构转换为我们的特征，就会消耗大量的时间和精力。

图上的特征工程。(图片来自[1])

如果能以某种方式同时得到图的节点特征和结构信息作为输入，让机器自己去判断哪些信息是有用的，那就更好了。

这也是为什么我们需要图表示学习的原因。

我们希望图能够自己学习 "特征工程"。(图片来自[1])

论文：基于图神经网络的半监督分类（2017）[3]

GCN是一种卷积神经网络，它可以直接在图上工作，并利用图的结构信息。

它解决的是对图（如引文网络）中的节点（如文档）进行分类的问题，其中仅有一小部分节点有标签（半监督学习）。

在Graphs上进行半监督学习的例子。有些节点没有标签（未知节点）。

就像"卷积"这个名字所指代的那样，这个想法来自于图像，之后引进到图（Graphs）中。然而，当图像有固定的结构时，图（Graphs）就复杂得多。

从图像到图形的卷积思想。 (图片来自[1])

GCN的基本思路：对于每个节点，我们从它的所有邻居节点处获取其特征信息，当然也包括它自身的特征。***设我们使用***erage()函数。我们将对所有的节点进行同样的操作。最后，我们将这些计算得到的平均值输入到神经网络中。

在下图中，我们有一个引文网络的简单实例。其中每个节点代表一篇研究论文，同时边代表的是引文。我们在这里有一个预处理步骤。在这里我们不使用原始论文作为特征，而是将论文转换成向量（通过使用NLP嵌入，例如tf-idf）。NLP嵌入，例如TF-IDF)。

让我们考虑下绿色节点。首先，我们得到它的所有邻居的特征值，包括自身节点，接着取平均值。最后通过神经网络返回一个结果向量并将此作为最终结果。

GCN的主要思想。我们以绿色节点为例。首先，我们取其所有邻居节点的平均值，包括自身节点。然后，将平均值通过神经网络。请注意，在GCN中，我们仅仅使用一个全连接层。在这个例子中，我们得到2维向量作为输出（全连接层的2个节点）。

在实际操作中，我们可以使用比***erage函数更复杂的聚合函数。我们还可以将更多的层叠加在一起，以获得更深的GCN。其中每一层的输出会被视为下一层的输入。

2层GCN的例子：第一层的输出是第二层的输入。同样，注意GCN中的神经网络仅仅是一个全连接层（图片来自[2]）。

让我们认真从数学角度看看它到底是如何起作用的。

首先，我们需要一些注解

我们考虑图G，如下图所示。

从图G中，我们有一个邻接矩阵A和一个度矩阵D。同时我们也有特征矩阵X。

那么我们怎样才能从邻居节点处得到每一个节点的特征值呢？解决方法就在于A和X的相乘。

看看邻接矩阵的第一行，我们看到节点A与节点E之间有连接，得到的矩阵第一行就是与A相连接的E节点的特征向量（如下图）。同理，得到的矩阵的第二行是D和E的特征向量之和，通过这个方法，我们可以得到所有邻居节点的向量之和。

计算 "和向量矩阵 "AX的第一行。

在问题（1）中，我们可以通过在A中增加一个单位矩阵I来解决，得到一个新的邻接矩阵Ã。

取lambda=1（使得节点本身的特征和邻居一样重要），我们就有Ã=A+I，注意，我们可以把lambda当做一个可训练的参数，但现在只要把lambda赋值为1就可以了，即使在论文中，lambda也只是简单的赋值为1。

通过给每个节点增加一个自循环，我们得到新的邻接矩阵

对于问题(2): 对于矩阵缩放，我们通常将矩阵乘以对角线矩阵。在当前的情况下，我们要取聚合特征的平均值，或者从数学角度上说，要根据节点度数对聚合向量矩阵ÃX进行缩放。直觉告诉我们这里用来缩放的对角矩阵是和度矩阵D̃有关的东西（为什么是D̃，而不是D？因为我们考虑的是新邻接矩阵Ã 的度矩阵D̃，而不再是A了）。

现在的问题变成了我们要如何对和向量进行缩放/归一化？换句话说：

我们如何将邻居的信息传递给特定节点？我们从我们的老朋友***erage开始。在这种情况下，D̃的逆矩阵（即，D̃^{-1}）就会用起作用。基本上，D̃的逆矩阵中的每个元素都是对角矩阵D中相应项的倒数。

例如，节点A的度数为2，所以我们将节点A的聚合向量乘以1/2，而节点E的度数为5，我们应该将E的聚合向量乘以1/5，以此类推。

因此，通过D̃取反和X的乘法，我们可以取所有邻居节点的特征向量（包括自身节点）的平均值。

到目前为止一切都很好。但是你可能会问加权平均()怎么样？直觉上，如果我们对高低度的节点区别对待，应该会更好。

但我们只是按行缩放，但忽略了对应的列（虚线框）。

为列增加一个新的缩放器。

新的缩放方法给我们提供了 "加权 "的平均值。我们在这里做的是给低度的节点加更多的权重，以减少高度节点的影响。这个加权平均的想法是，我们***设低度节点会对邻居节点产生更大的影响，而高度节点则会产生较低的影响，因为它们的影响力分散在太多的邻居节点上。

在节点B处聚合邻接节点特征时，我们为节点B本身分配最大的权重（度数为3），为节点E分配最小的权重（度数为5）。

因为我们归一化了两次，所以将"-1 "改为"-1/2"

例如，我们有一个多分类问题，有10个类，F 被设置为10。在第2层有了10个维度的向量后，我们将这些向量通过一个softmax函数进行预测。

Loss函数的计算方法很简单，就是通过对所有有标签的例子的交叉熵误差来计算，其中Y_{l}是有标签的节点的集合。

层数是指节点特征能够传输的最远距离。例如，在1层的GCN中，每个节点只能从其邻居那里获得信息。每个节点收集信息的过程是独立进行的，对所有节点来说都是在同一时间进行的。

当在第一层的基础上再叠加一层时，我们重复收集信息的过程，但这一次，邻居节点已经有了自己的邻居的信息（来自上一步）。这使得层数成为每个节点可以走的最大跳步。所以，这取决于我们认为一个节点应该从网络中获取多远的信息，我们可以为#layers设置一个合适的数字。但同样，在图中，通常我们不希望走得太远。设置为6-7跳，我们就几乎可以得到整个图，但是这就使得聚合的意义不大。

例：收集目标节点 i 的两层信息的过程

在论文中，作者还分别对浅层和深层的GCN进行了一些实验。在下图中，我们可以看到，使用2层或3层的模型可以得到最好的结果。此外，对于深层的GCN（超过7层），反而往往得到不好的性能（虚线蓝色）。一种解决方案是借助隐藏层之间的残余连接（紫色线）。

不同层数#的性能。图片来自论文[3]

论文作者的说明

该框架目前仅限于无向图（加权或不加权）。但是，可以通过将原始有向图表示为一个无向的两端图，并增加代表原始图中边的节点，来处理有向边和边特征。

对于GCN，我们似乎可以同时利用节点特征和图的结构。然而，如果图中的边有不同的类型呢？我们是否应该对每种关系进行不同的处理？在这种情况下如何聚合邻居节点？最近有哪些先进的方法？

在图专题的下一篇文章中，我们将研究一些更复杂的方法。

如何处理边的不同关系（兄弟、朋友、......）？

[1] Excellent slides on Graph Representation Learning by Jure Leskovec (Stanford):

[2] Video Graph Convolutional Networks (GCNs) made simple:

[3] Paper Semi-supervised Classification with Graph Convolutional Networks (2017):

[4] GCN source code: