生信文献TCGA GEO生信学习

2020-01-05 Day15-Day20 学习免疫基因预后模

2020-01-18  本文已影响0人  卅衣
image.png
image.png
image.png
image.png

conmean在正常样品中表达均值,treatmean在肿瘤样品中表达均值,logFC>0说明在上调<0下调,fdr为校正后p值,一般删选按照logFC的绝对值>1,fdr<0.05。


image.png
验证模型准确性,大于0.7,说明准确性良好。
image.png
单因素和多因素预后风险都小于0.05,说明可以作为单独的预后因子
image.png

M0表示没有发生远处转移,M1表示发生转移

1 转录组数据下载

搜索tcga gdc,进入后清空cart。选择download data。
进入选择疾病类型,program-TCGA,project-STAD。Files,Data Category-Transcrptome Profling,Data type-gene expression Quantification,Workflow type-HTSeq-FPKM,。add to cart 然后下载。


image.png

都下,1会告诉我们样品的数量。2为数据文件,关键。3,也要下


image.png
image.png
如果cart文件下载不下来,就需要下载工具
image.png

解压后得到下载工具。下载 cmd cd空格+目录 软件名(包括后缀)空格 download空格-m manfast.txt文件名


image.png
复制cart文件和meta文件到3中,cart文件不要解压到当前
image.png
将移动文件的脚步复制到解压的文件夹中,同一目录下。cmd cd空格加路径回车,perl空格加脚步名称回车,将所有文件移动到一个目录下-files。
image.png
将merge脚本和meta文件移动到files目录下,然后将所有文件解压到当前文件夹。
cmd cd空格加路径回车,perl空格加脚本名称空格meta文件名回车
image.png
image.png

2 ID转换

image.png

准备输出文件,复制到4中。
cmd cd空格加路径回车,perl空格加脚本回车


image.png

3 临床数据下载

搜索TCGA GDC。 进入下载页面,清空CART。进入download data,对疾病进行筛,选择癌症类型,Progarm-TCGA,project-STAD。 FILe,Data Category-clincial,Data Format-BCR XML。添加到cart,然后下载。
对临床数据进行整理


image.png

fustat生存状态,0活1死。
将下载的cart文件解压,并将6脚本拷贝到共同目录下。然后运行,cmd cd空格加路径回车,perl空格加脚本回车,最后目录下出现clinical.xls文件。

4 差异分析

image.png

logF>0基因在肿瘤样品中上调,为比值。fdr为校正后p值。一般筛选时按照logFC绝对值大于1,fdr值<0.05.


image.png

热图横坐标样品,纵坐标基因。
复制4中symbol.txt到7中。打开R安装limma包,安装pheatmap包。复制脚本到R中。
得到文件,all.txt,为所以基因的表达差异。diif.xls,为满足条件的表达差异。diffgeneexp.txt,为有表达差异的基因的表达量。得到2个表,3个文件。

5 免疫基因分析

查询免疫基因,知道哪些是免疫基因
搜索www.immport.org,进入Gene lists。下载资料

image.png
拷贝到文件8.
从文件7中复制all.txt和diffGeneExp.txt到文件9中,复制文件8中Geneappend3.XLS到文件9.打开Geneappend3.XLS,选择第一列所有的免疫基因名称,单机第一个和最后一个,按住SHIFT,然后复制到新建gene.txt。
打开脚本,修改数据。然后复制脚本到R中,运行。得到免疫基因的热图和火山图。
image.png
文件10-输出文件,差异免疫基因的表达文件9中immuneGeneExp.txt,6文件中clinic.xls(对其按生存时间排序,删掉未知的。删除生存时间小于90天的。然后拷贝前3列,复制数据到新建time.txt)
cmd cd空格加路径回车
perl空格加脚本全程回车
image.png
打开文件11,输入文件-文件10中expTime.txt文件。然后打开脚本,设置好,复制脚本到R中,运行。得到3个新文件。

5 转录因子分析

打开网站-肿瘤相关的转录因子Cistrome


image.png
image.png

复制所有转录因子名称,点击第一个和最后一个按住SHIT建,新建复制到12中,命名TF.txt。 复制文件7中all.txt和diffGeneExp.txt到文件12中。


image.png
然后打开R,复制改好的脚本,运行,得到两个图和TFdiff.xls和TFgeneEXP.txt。

6 转录因子和免疫基因相关性分析

差异的转录因子和与预后相关的免疫基因的相关性分析


image.png

COR为相关性,大于0为正相关,p越小说明越相关
打开文件13.输入文件-复制12中差异转录因子的表达量TFgenEXP.txt。11中uniCox.txt和uniSignExp.txt。
打开13脚本,定义相关系数过滤标准(0.3-0.8),按照做出的图进行调整。复制到R中,运行,得到nodeTYPE.txt节点属性文件和corResult.txt相关性文件。


image.png
三角形-转录因子,红色圆圈高风险免疫基因,绿色圆圈低风险免疫基因,红色线关系为正调控,绿色线负调控。
打开14文件,软件为cytoscape。Files-import-network from file,打开14中corResult.txt,然后选择TF-为source node。免疫基因选择Target node。关系选择三角形
image.png
image.png

再选择Files-import-table from file,打开14中nodeTYPE.txt。再选择style,选择第三个。


image.png
选择线的属性,选择中间的,调整粗细和颜色,type,离散型
image.png
然后node类型,颜色
image.png
找到与预后相关的免疫基因后,去构建免疫基因的模型,然后可以将其分为高低风险
image.png
(基因不要太多)
打开脚本15,准备输入文件, 11小节中uniSigExp.txt。然后复制脚本到R中运行。得到两个文件。
image.png
对得到的高低风险组进行生产分析
打开16文件,输入文件,15中风险文件-risk.txt。

打开R,复制脚本,运行。得到生存分析的图片。然后查看5年生存率和95%CI在R中。


image.png
然后做ROC曲线验证模型的可靠性
image.png
主要看AUC,大于0.7最好
打开文件夹17,输入文件-文件15中risk.txt,打开脚本安装survialROC包。
打开R运行,得到ROC.pdf。
########风险曲线
image.png
风险值,生存状态图,生存热图。横坐标一样,病人,按风险值排序的。
竖线,将病人分为高风险和低风险组。
风险值图,纵坐标为风险值。
生存状态图,纵坐标为生存时间,红点死,绿点活。
生存热图,纵坐标为基因。
打开文件夹18,输入文件打开文件15中risk.txt。
运行18脚本,得到3个图形。
独立预后分析

得到的模型是否可以独立于其他的临床因素进行分析


image.png

打开19文件夹,输入文件,临床数据文件6中clinical.xls。病人风险值,文件15中risk.txt。
整理数据,打开clinical.xls,按照生存时间进行排序,删除生存时间小于90天的,删除unload和空的。按照生存状态排序,删空。对年龄进行排序,删空。按性别排序,女性数字0,男性数字1.分级排序,G1改为1,G2改为2.分期排序。然后T,M,N分期,改为1,2,3,4.整理好之后,复制到新建clinical.txt中。
然后将clinical.txt与risk.txt进行合并。通过19脚本。
cmd cd空格加路径回车
perl空格加脚本全称回车
得到新文件indepInput.txt。


image.png
在单因素和多因素都有关,说明可以
打开文件夹20,输入文件,19中indepInput.txt。打开R复制,运行,得到单因素预后分析。

多因素预后分析,21文件夹,输入文件,19中indepInput.txt。打开R复制,运行,得到多因素预后分析。

临床相关性分析
image.png

打开22文件夹,输入文件,15文件中risk.txt,文件6中clinical,xls。对临床信息进行整理,二分类变量整理。按照生存时间进行排序,删除生存时间小于90天的,删除unload和空的。然后删除生存时间和生存状态两列。对年龄进行排序,删空,对年龄小于65的,改为<=65,大于65岁的改为>65。按性别排序,删空,其余不变。分级排序,G1和G2放一起改为G1&2,G3不改。分期排序,1和2一组,3和4一组,1&2,3&4。然后T,M,N分期,T1-2,T3-4。N0一组,N1-3一组。
整理好二分类的数据后,保存新建到clinical.txt。


image.png

然后对其clinical.txt和risk.txt进行合并。
cmd cd空格加路径回车
perl空格加脚本全称回车
得到新文件immuneClinical.txt

打开文件23,输入文件22中immuneClinical.txt,打开脚本23,按顺序修改


image.png

定义临床性状个数,即immuneClinical.txt中前多少个为临床性状。

免疫细胞相关性分析
image.png

首先要得到免疫细胞含量。网站


image.png
image.png

下载得到所有的免疫细胞含量的矩阵immuneEstimation.txt
打开24文件夹,输入文件immuneEstimation.txt,15中risk.txt。打开R,复制运行。得到图形。

上一篇 下一篇

猜你喜欢

热点阅读