tcgaTCGA GEO生信学习

2019-12-22 Day10-14-学习 TCGA数据库单基

2020-01-02  本文已影响0人  卅衣

花了5天,把视频看完。顺便整理了一下。
IF4.5分左右
套路:TCGA数据下载,选择想要研究的基因,然后对基因ID进行转换,提取矩阵中基因表达量,然后做差异表达分析-散点图-疾病和正常或肿瘤与癌旁比较,配对的差异分析-肿瘤与癌旁,然后对TCGA临床数据进行下载和整理,生产分析与基因联合,然后临床相关性分析-与性别-分期等是否有关,然后COX分析-模型预测疾病风险-探究单基因是否可以作为预后因子,GSEA富集分析-哪些基因哪些通路调控

1数据下载

TCGA-GDC


image.png

进入download界面下载


image.png
检测CART是否有数据 有的话 清空
image.png

选择癌症类型-TCGA-Type等细分
选择Files-Data Category(转录本)-Data Type(基因表达)-Workflw Type(FPKM)-点击cart进入界面- 下载三个文件download和metadata(名字)

2数据整理

使用脚本对数据进行整理


image.png

解压到目录中(不要当前文件夹)
然后对获得的目录进行合并解压(


image.png
使用perl脚本)下载Perl
image.png

下载下面那个,然后安装
安装验证是否成功-在菜单栏cmd-输入perl -v


image.png
将脚本复制到解压后目录下
image.png
然后cmd-cd空格输入路径-输入perl 脚本名称及后缀
image.png
image.png
完成之后对新文件夹内所有目录解压,将新文件夹移动到外面。然后将meta文件和脚本拷贝到新文件夹
然后cd 空格 目录名-perl 脚本名称 meta名称-运行(时间比较长,等光标到>之后)

3 ID转换

TCGA数据中ID第4个0开头为肿瘤样本
将之前得到到mRNA matrix.txt文件复制到第四个文件中。
human.gtf文件为gene symbol与ID对应文件,看mRNA matrix.txt中ID是否gtf中都有,没有的删除行。然后全放到一个文件下,运行脚本
cmd cd空格+路径 perl空格+脚本


image.png
image.png

4 提取单基因表达数据

对上述得到的数据,进行提取
首先对数据进行整理,如果有重复基因,对其进行取均值。
将上述得到的文件复制到文件5目录下
将脚本打开 复制命令到R中或搜索lima 安装软件


image.png
image.png

然后按要求改内容
改完之后输入R中进行运行。

5 散点差异图绘制

将单基因的数据复制大6脚本目录中
安装install.packages("beeswarm")
复制工作目录,复制单基因的数据的文件名
根据基因表达范围确定纵轴范围
复制脚本到R

6 配对差异分析

然后全放到一个文件下,运行脚本
cmd cd空格+路径Enter perl空格+脚本 Enter-得到两个文件
打开脚本,改工作目录。
复制脚本到R中进行运行。

7 临床相关性分析

临床数据下载
搜索TCGA GDC。清空Cart
点击


image.png

选择肿瘤类型
选择数据类型


image.png
因为是临床信息,所以选择最后一个
数据格式Data Format选择BCR XML
然后加入Cart中下载
image.png

将下载好的文件与10脚本放置于同一目录下
cmd cd空格+路径Enter perl空格+脚本 Enter
得到XLS文件,从中提取数据整理表格

8 生存分析

对得到的临床数据进行整理,按生存时间排序,去除未知数据,复制前三列ID 生存时间 生存状态到新建time.txt中。将单基因表达文件与脚本和新建time.txt放置到同一个目录下。
cmd cd空格+路径Enter perl空格+脚本 Enter
得到生存分析的输入文件,将其和12脚本放置同一目录下,打开R,安装软件


image.png

设置工作目录和基因名称


image.png
image.png
同时改后面year
然后将脚本复制到R中,运行
将这个命令放到最后,然后运行,得到5年生存率。
image.png

9 临床相关性分析

image.png

单基因表达量和临床文件拷贝到13脚本
整理临床数据,如按照分期,则删掉其他的,然后按分期排序,改分期太细的,按四大分然后复制到TXT中。其他临床数据分级等一样


image.png

然后cmd cd空格+路径Enter perl空格+脚本 Enter
得到临床新输入文件。
ks检验,打开14脚本,按要求修改格式
两种之间比较wilcox.test,两种以上krushal.test


image.png
然后复制14脚本到R中运行

10 逻辑回归比较

image.png

复制singleGeneClinical.txt文件到15中,打开脚本15,改相关信息,输入R
分期1为对照 分期2与分期1比 分期X与分期1比 改信息,得到OR和置信区间


image.png
image.png

然后复制到R中,得到单独比的数据


image.png
image.png

11 COX分析

独立性预后


image.png

脚本在16中。拷贝单基因表达文件singleGene,和临床信息文件clinical,以及clinical.xls。对XLS进行排序,删除缺少信息的数据,如果某个性状的unknown太多,则去除这个信息列,不然删太多行后没有样本。
对分期分级等及性别进行数字化,男1,女0。然后将处理好的数据复制到文本中,新建clinical.txt
然后cmd cd空格+路径Enter perl空格+脚本 Enter
得到coxInput.txt,COX分析输入文件

单因素COX
image.png
image.png

将coxInput.txt复制到目录中,复制17脚本到R中运行得到uniCox.xls
当基因的HR值不明显时,可log,如果基因中有0的数值,需要加1


image.png
image.png
多因素COX

单因素是单独一个一个输入,多因素一起
复制coxInput.txt到18。
打开脚本,需要安装survminer包,survival包已经安装好,然后设置,工作目录双斜杠,基因。
复制脚本到R中运行。
基因不显著的时候,可以去log。


image.png

11 GSEA分析

GSEA富集分析,主要分析这个基因通过什么通路或功能来对癌症的发生产生影响
搜索,GSEA ,download,注册下载软件


image.png

下载jre,然后下载界面中下载Java8版本的jre,然后直接安装。cmd java判断是否安装好。
输入文件:5文件中,uniquesymbol。提取基因信息。只需要肿瘤样品,删掉正常,低表达l高表达h


image.png
将文件全部放到目录19,cmd cd空格+路径Enter perl空格+脚本+基因名称Enter
获得Ch和GCT两个文件。
GSEA富集分析

将CLS和GCT和jre软件复制到20目录下
cmd cd空格+路径Enter
java- Xmx2G-jar软件名Enter ,得到界面


image.png
image.png

导入文件Ch和GCT两个文件


image.png
image.png
设施好后运行。
时间很久,结束后找到index文件
image.png
打开index,打开htm,对通路进行筛选
image.png
image.png
多GSEA富集图
image.png

节省了单GSEA的富集,如果有多条通路。21脚本
打开20的HTML的高表达和低表达的excel表,整理,FDR>0.05的可以删掉,如果都>0.05的只能删p值大于0.05.然后将选择的通路的excel表,全部复制到21中。


image.png

在R中安装包ggplot2.然后复制脚本到R中运行。


image.png
上一篇 下一篇

猜你喜欢

热点阅读