利用NetworkAnalyst在线工具对GEO数据库中表达基因

2021-03-20 本文已影响0人翾格格

上一个课程，我们对NetworkAnalyst在线工具进行概述，简单回顾一下，我们使用的NetworkAnalyst包括五个功能模块，分别是

1）Gene list input ：含表达值的基因ID列表的差异分析

2) Gene Expression Table ：单个RNA测序或芯片数据表达数据

3) Multiple Gene Expression Tables ：多个RNA测序或芯片数据表达数据meta分析

4) Raw RNA-Seq Data ：将RNAseq fastq文件上传到Galaxy服务器上进行分析

5) Network File：网路文件分析

以“Gene Expression Table”为例，首先我们需要先upload我们需要分析的基因表达数据，接下来我们以GEO数据库数据为例进行分析。“specify organism”中输入物种信息，如人，我们就选择“H. sapiens (human)”。“Data type”选择数据类型，包括“Microarray data”和“Bulk RNA-seq data”。“ID type”选择ID类型，这里简单介绍几种常见的ID类型，Entrez ID，这个相信大家不陌生，这个我们使用NCBI GENE可以检索到，检索结果中 GENE ID就是我们的Entrez ID。RelSeq ID（NCBI reference sequences），格式通常为两个大写字母（NC: DNA\ NM: mRNA\ NP：Protein）_数字，例NC_003071。Ensemble Gene ID，格式为物种前缀(前缀：Ens表示Human，ENSMUS表示Mouse) +序列类型（G表示Gene，T表示Transcripts，P表示Protein）+数字，例ENSG00000175899。后面ID类型就不一一介绍了。

Entrez ID检索：

接下来我们实例部分，以GEO数据库下载芯片信息，利用NetworkAnalyst在线工具进行差异分析。我们以GSE50161为例，在GEO datsets里面进行搜索，检索后我们下载Series Matrix Files，前面介绍过该文件是经过矩阵处理，可以直接用于分析。

下载完成后是个txt文件，我们需要用EXcel去打开该文件。找到!Sample_title和!Sample_geo_accession，选择相应样本信息后重新粘贴到新文件里（.EXL）,另外将探针及表达信息对应粘贴在一起，形成新的分析文件。

将新的文件按照NetworkAnalyst格式，将“!Sample_geo_Accession”修改为“#NAME”，根据sample title信息修改成#CLASS，示例如下。修改完成后另存为“含制表符的文本文档”格式。

然后倒入我们的NetAnalyst在线工具中进行“submit”后进行分析。第一步：upload Data.

第二步：Quality Check，设置过滤和归一化参数，过滤我们选择默认，归一化如果数据已经经过log2处理则选择None。通过BoX plot图形可以判定有没有经过log2处理。

第三步：Proceed后继续进行“Differential Analysis”。设置分组和分组比较信息。点击“submit”。

第四步：点击“Proceed”，在跳出的新界面设置筛选标准。

继续“submit”，我们可以看到存在多少差异基因，并且通过“Download Result”按钮下载我们的检索结果。

利用NetworkAnalyst在线工具对GEO数据库中表达基因

猜你喜欢

热点阅读