图(graph)神经网络学习(四)--代码解析(Model_2)

2019-05-11 本文已影响443人布口袋_天晴了

【2】Model_2: 1stChebNet(2017)-github：gcn (https://github.com/tkipf/gcn) (tensorflow)

{Semi-Supervised Classification with Graph Convolutional Networks}基于图卷积网络的半监督分类

文章：https://www.colabug.com/5231014.html

Graph Convolutional Networks

这是一个用tensorflow框架实现的图卷积神经网络，用来完成图中的节点类型分类，即是一个分类模型。

两篇论文：

【1】Semi-Supervised Classification with Graph Convolutional Networks (ICLR 2017)

【2】Graph Convolutional Networks (2016)

从github下载代码，上传到服务器上(尽量保证你的服务能连接外网，因为在调试程序时需要从外网中下载所需的数据，尽量保证你的服务器有GPU，因为有的代码常常会用GPU来加速)，解压：unzip gcn-master.zip

查看虚拟环境名：conda env list

选择一个虚拟环境激活：source activate your_env_name

查看python版本：python (python3)

安装：python setup.py install

成功安装

查看requirements

·tensorflow(>0.12)

·networkx

运行模型：

cd gcn

python train.py 或者自定数据集运行 python train.py --dataset citeseer

正常运行结果：

现在开始在本地pycharm中分析源代码

setup.py可以看到作者Thomas Kipf已经他写的图卷积网络gcn做成了安装包，刚才运行的python setup.py install就是将该gcn模型安装到python的lib目录下。

运行模型命令: python train.py

以下是train.py代码，我们主要关心模型的输入数据格式。

train.py代码

以下截图是train.py的代码，从中可以看出，数据集有三个可选，模型种类有三个可选。

数据集：'cora','citeseer','pubmed'

模型：'gcn','gcn_cheby','dense'

论文数据集介绍

train.py代码

程序中的数据集，有三个整理好的数据集：'cora','citeseer','pubmed'

utils.py代码

utils.py代码

我们自己的数据集，处理成这个模型可用的格式。

·N*N的邻接矩阵 (N是图节点的个数)

·N*D的特征矩阵 (D是节点特征向量的维度)

·N*E 的分类标签矩阵 (E是类别个数)

详细理解一下数据：

ind.dataset_str.x文件是train训练集实例的特征向量，按scipy.sparse.csr.csr_matrix稀疏矩阵存储的。

ind.dataset_str.tx文件是test测试集实例的特征向量，按scipy.sparse.csr.csr_matrix稀疏矩阵存储的。

ind.dataset_str.allx文件是所有(有标签和无标签)的train训练实例特征向量，按scipy.sparse.csr.csr_matrix稀疏矩阵存储的。 (半监督方法，一些标签数据，一些无标签数据)

ind.dataset_str.y文件是train训练数据集的one-hot类型的标签向量，按numpy.ndarray形式存储的。

ind.dataset_str.ty文件是test测试数据集的one-hot类型的标签向量，按numpy.ndarray形式存储的。

ind.dataset_str.ally文件是所有有标签数据的one-hot类型标签向量，按numpy.ndarray形式存储的。

ind.dataset_str.graph文件是一个字典{index:[index_of_neighbor_nodes]}

ind.dataset_str.test.index文件是测试数据集的index

以上数据都用pickle存储。

读取pickle数据显示如下：

ind.cora.x数据 train训练数据

ind.cora.y数据 train数据集的标签one-hot向量

ind.cora.tx数据 test测试数据

ind.cora.ty数据 test数据集的标签one-hot向量

ind.cora.allx数据所有(有标签和无标签)的train训练集

ind.cora.ally数据所有有标签数据的one-hot类型标签向量

ind.cora.graph数据字典

再理解load_data()函数

load_data()函数图1

load_data()函数图2

oad_data()函数图3

GCN的实验效果

这个框架还支持多个图形实例（可能具有不同大小）的批量分类，每个实例具有一个邻接矩阵。最好连接各个特征矩阵并构建（稀疏）块对角矩阵，其中每个块对应于一个图实例的邻接矩阵。对于池化（在图形级输出而不是节点级输出的情况下），最好指定一个简单的池化矩阵，该矩阵从各自的图形实例中收集特征，如下所示：

上一篇下一篇

猜你喜欢

热点阅读