图(graph)神经网络学习(四)--代码解析(Model_2)
【2】Model_2: 1stChebNet(2017)-github:gcn (https://github.com/tkipf/gcn) (tensorflow)
{Semi-Supervised Classification with Graph Convolutional Networks}基于图卷积网络的半监督分类
文章:https://www.colabug.com/5231014.html
![](https://img.haomeiwen.com/i6102062/78efda02a0bef55f.png)
![](https://img.haomeiwen.com/i6102062/7db3d6cd2b6de4fc.png)
Graph Convolutional Networks
这是一个用tensorflow框架实现的图卷积神经网络,用来完成图中的节点类型分类,即是一个分类模型。
两篇论文:
【1】Semi-Supervised Classification with Graph Convolutional Networks (ICLR 2017)
【2】Graph Convolutional Networks (2016)
从github下载代码,上传到服务器上(尽量保证你的服务能连接外网,因为在调试程序时需要从外网中下载所需的数据,尽量保证你的服务器有GPU,因为有的代码常常会用GPU来加速),解压:unzip gcn-master.zip
![](https://img.haomeiwen.com/i6102062/4fbbfb16e6447563.png)
查看虚拟环境名:conda env list
选择一个虚拟环境激活:source activate your_env_name
查看python版本:python (python3)
![](https://img.haomeiwen.com/i6102062/7f4a010246fffc1c.png)
安装:python setup.py install
![](https://img.haomeiwen.com/i6102062/b57dbf324147e7ad.png)
成功安装
![](https://img.haomeiwen.com/i6102062/4cd1d57ad5329380.png)
查看requirements
·tensorflow(>0.12)
·networkx
![](https://img.haomeiwen.com/i6102062/f7cdec77cf495e3e.png)
运行模型:
cd gcn
python train.py 或者自定数据集运行 python train.py --dataset citeseer
![](https://img.haomeiwen.com/i6102062/7479083da4018a6e.png)
正常运行结果:
![](https://img.haomeiwen.com/i6102062/948e353d143e8188.png)
现在开始在本地pycharm中分析源代码
setup.py可以看到作者Thomas Kipf已经他写的图卷积网络gcn做成了安装包,刚才运行的python setup.py install就是将该gcn模型安装到python的lib目录下。
![](https://img.haomeiwen.com/i6102062/b5e24a5f698e3b6a.png)
运行模型命令: python train.py
以下是train.py代码,我们主要关心模型的输入数据格式。
![](https://img.haomeiwen.com/i6102062/86b989e0c1eb4458.png)
以下截图是train.py的代码,从中可以看出,数据集有三个可选,模型种类有三个可选。
数据集:'cora','citeseer','pubmed'
模型:'gcn','gcn_cheby','dense'
![](https://img.haomeiwen.com/i6102062/6412f0cc12037083.png)
![](https://img.haomeiwen.com/i6102062/c06d7b28b5a4109a.png)
程序中的数据集,有三个整理好的数据集:'cora','citeseer','pubmed'
![](https://img.haomeiwen.com/i6102062/194fcb0b4de07a5f.png)
![](https://img.haomeiwen.com/i6102062/2b8b556022a1720c.png)
![](https://img.haomeiwen.com/i6102062/6c3aa44206374fc7.png)
我们自己的数据集,处理成这个模型可用的格式。
·N*N的邻接矩阵 (N是图节点的个数)
·N*D的特征矩阵 (D是节点特征向量的维度)
·N*E 的分类标签矩阵 (E是类别个数)
![](https://img.haomeiwen.com/i6102062/35141ed4d2763976.png)
详细理解一下数据:
ind.dataset_str.x文件 是train训练集实例的特征向量,按scipy.sparse.csr.csr_matrix稀疏矩阵存储的。
ind.dataset_str.tx文件 是test测试集实例的特征向量,按scipy.sparse.csr.csr_matrix稀疏矩阵存储的。
ind.dataset_str.allx文件 是所有(有标签和无标签)的train训练实例特征向量,按scipy.sparse.csr.csr_matrix稀疏矩阵存储的。 (半监督方法,一些标签数据,一些无标签数据)
ind.dataset_str.y文件 是train训练数据集的one-hot类型的标签向量,按numpy.ndarray形式存储的。
ind.dataset_str.ty文件 是test测试数据集的one-hot类型的标签向量,按numpy.ndarray形式存储的。
ind.dataset_str.ally文件 是所有有标签数据的one-hot类型标签向量,按numpy.ndarray形式存储的。
ind.dataset_str.graph文件 是一个字典{index:[index_of_neighbor_nodes]}
ind.dataset_str.test.index文件 是测试数据集的index
以上数据都用pickle存储。
读取pickle数据显示如下:
![](https://img.haomeiwen.com/i6102062/92c662346f61b929.png)
![](https://img.haomeiwen.com/i6102062/bb959e341e7cfd39.png)
![](https://img.haomeiwen.com/i6102062/f74136b4b17b76fb.png)
![](https://img.haomeiwen.com/i6102062/f5699b9fe697f2b4.png)
![](https://img.haomeiwen.com/i6102062/df8780fe6c9a6d7c.png)
![](https://img.haomeiwen.com/i6102062/8d28209a552f401d.png)
![](https://img.haomeiwen.com/i6102062/4142638c6867fecb.png)
![](https://img.haomeiwen.com/i6102062/107f2f36d9d13f0b.png)
再理解load_data()函数
![](https://img.haomeiwen.com/i6102062/fdcb53032fdd0f41.png)
![](https://img.haomeiwen.com/i6102062/9c5ecf5f5b4c62ea.png)
![](https://img.haomeiwen.com/i6102062/a1d4fca04dc66ad9.png)
GCN的实验效果
![](https://img.haomeiwen.com/i6102062/11c183cb863a219a.png)
这个框架还支持多个图形实例(可能具有不同大小)的批量分类,每个实例具有一个邻接矩阵。 最好连接各个特征矩阵并构建(稀疏)块对角矩阵,其中每个块对应于一个图实例的邻接矩阵。 对于池化(在图形级输出而不是节点级输出的情况下),最好指定一个简单的池化矩阵,该矩阵从各自的图形实例中收集特征,如下所示:
![](https://img.haomeiwen.com/i6102062/0bbfd1a9cb7192c6.png)