利用NetworkAnalyst在线工具对GEO数据库中表达基因
上一个课程,我们对NetworkAnalyst在线工具进行概述,简单回顾一下,我们使用的NetworkAnalyst包括五个功能模块,分别是
1)Gene list input :含表达值的基因ID列表的差异分析
2) Gene Expression Table :单个RNA测序或芯片数据表达数据
3) Multiple Gene Expression Tables :多个RNA测序或芯片数据表达数据meta分析
4) Raw RNA-Seq Data :将RNAseq fastq文件上传到Galaxy服务器上进行分析
5) Network File:网路文件分析
以“Gene Expression Table”为例,首先我们需要先upload我们需要分析的基因表达数据,接下来我们以GEO数据库数据为例进行分析。“specify organism”中输入物种信息,如人,我们就选择“H. sapiens (human)”。“Data type”选择数据类型,包括“Microarray data”和“Bulk RNA-seq data”。“ID type”选择ID类型,这里简单介绍几种常见的ID类型,Entrez ID,这个相信大家不陌生,这个我们使用NCBI GENE可以检索到,检索结果中 GENE ID就是我们的Entrez ID。RelSeq ID(NCBI reference sequences),格式通常为两个大写字母(NC: DNA\ NM: mRNA\ NP:Protein)_数字,例NC_003071。Ensemble Gene ID,格式为物种前缀(前缀:Ens表示Human,ENSMUS表示Mouse) +序列类型(G表示Gene,T表示Transcripts,P表示Protein)+数字,例ENSG00000175899。后面ID类型就不一一介绍了。
Entrez ID检索:
接下来我们实例部分,以GEO数据库下载芯片信息,利用NetworkAnalyst在线工具进行差异分析。我们以GSE50161为例,在GEO datsets里面进行搜索,检索后我们下载Series Matrix Files,前面介绍过该文件是经过矩阵处理,可以直接用于分析。
下载完成后是个txt文件,我们需要用EXcel去打开该文件。找到!Sample_title和!Sample_geo_accession,选择相应样本信息后重新粘贴到新文件里(.EXL),另外将探针及表达信息对应粘贴在一起,形成新的分析文件。
将新的文件按照NetworkAnalyst格式,将“!Sample_geo_Accession”修改为“#NAME”,根据sample title信息修改成#CLASS,示例如下。修改完成后另存为“含制表符的文本文档”格式。
然后倒入我们的NetAnalyst在线工具中进行“submit”后进行分析。第一步:upload Data.
第二步:Quality Check,设置过滤和归一化参数,过滤我们选择默认,归一化如果数据已经经过log2处理则选择None。通过BoX plot图形可以判定有没有经过log2处理。
第三步:Proceed后继续进行“Differential Analysis”。设置分组和分组比较信息。点击“submit”。
第四步:点击“Proceed”,在跳出的新界面设置筛选标准。
继续“submit”,我们可以看到存在多少差异基因,并且通过“Download Result”按钮下载我们的检索结果。