TCGA数据分析生度好文

多癌中假基因表达展示了与肿瘤亚型与生物学和临床特性的相关性

2019-02-15  本文已影响5人  PriscillaBai

The Pan-Cancer analysis of pseudogene expression reveals biologically and clinically relevant tumour subtypes

多癌中假基因表达展示了与肿瘤亚型相关的生物学和临床特性

作者从TCGA中采集了2808个病人,7种癌症的假基因表达谱(自己研发的pipeline),通过监督学习证明了假基因区分亚型的能力,并用分子实验验证。在肾癌中,假基因与病人的生存密切相关.

1. 知识积累:

(1)假基因 蛋白质编码基因发生了有害的突变,不能编码蛋白质了,就变成了假基因。

a 假基因具有转录活性,并不是没有用的,可以做转录因子

(2) 匹配得分 (alignability score )???

(3) BAM file BAM文件是SAM文件的二进制版本,用来储存相似序列达到128Mb的文件。

(4)卡方检验 两个变量间有没有关系 如男性和女性在购买线上生鲜食品时有没有区别

(5)multivariate Cox proportional hazards model 多变量cox比例风险模型 评估几个因素对生存的影响,预测变量称为斜变量。

2. 流程:

(1)创建新的假基因筛选流程

(2) 监督学习:假基因亚型间的表达

(3)假基因区分肿瘤亚型的效果评估

为了研究假基因的预后效果,将肾癌的病人分成两个亚型。

a 卡方检验:假基因亚型和TCGA的分子亚型

b 乳腺癌中,效果的评估

(4)肾癌中假基因的预测效果

3. 结果与结论

(1)假基因在各个亚型中的分布情况

a : 总共是所有的假基因,黑色是在不同亚型间差异表达的假基因

b: 选取乳腺癌中ATP8A2P1的表达箱线图

(2)机器学习

SVM效果最好

(3)效果评估

(4)肾癌中的预后效果

上一篇下一篇

猜你喜欢

热点阅读