多癌中假基因表达展示了与肿瘤亚型与生物学和临床特性的相关性

2019-02-15 本文已影响5人 PriscillaBai

The Pan-Cancer analysis of pseudogene expression reveals biologically and clinically relevant tumour subtypes

多癌中假基因表达展示了与肿瘤亚型相关的生物学和临床特性

作者从TCGA中采集了2808个病人，7种癌症的假基因表达谱（自己研发的pipeline），通过监督学习证明了假基因区分亚型的能力，并用分子实验验证。在肾癌中，假基因与病人的生存密切相关.

1. 知识积累：

（1）假基因 蛋白质编码基因发生了有害的突变，不能编码蛋白质了，就变成了假基因。

a 假基因具有转录活性，并不是没有用的，可以做转录因子

(2) 匹配得分 （alignability score ）？？？

(3) BAM file BAM文件是SAM文件的二进制版本，用来储存相似序列达到128Mb的文件。

（4）卡方检验 两个变量间有没有关系如男性和女性在购买线上生鲜食品时有没有区别

（5）multivariate Cox proportional hazards model 多变量cox比例风险模型评估几个因素对生存的影响，预测变量称为斜变量。

2. 流程：

（1）创建新的假基因筛选流程

将耶鲁的假基因数据注释和gencode的假基因注释结合
筛选出与任何已知蛋白质编码基因相交的假基因外显子
查找这些外显子是不是重复的
将外显子的可对齐性得分（alignability score）< 0.95的留下来
筛选出reads数匹配到TCGA基因组数据库BAM文件的假基因

（2）监督学习：假基因亚型间的表达

将数据集分成训练集和验证集
在训练集中运用五折交叉验证，通过三种机器学习方法RF，SVM和LR进行预测
在训练集中画出三种机器学习的AUC曲线
将效果最好的机器学习方法，通过整个训练集对验证集进行重新验证

（3）假基因区分肿瘤亚型的效果评估

为了研究假基因的预后效果，将肾癌的病人分成两个亚型。

a 卡方检验：假基因亚型和TCGA的分子亚型

b 乳腺癌中，效果的评估

（4）肾癌中假基因的预测效果

用NMF无监督学习区分肾癌的亚型
生存分析
multivariate Cox proportional hazards model

3. 结果与结论

（1）假基因在各个亚型中的分布情况

a : 总共是所有的假基因，黑色是在不同亚型间差异表达的假基因

b: 选取乳腺癌中ATP8A2P1的表达箱线图

（2）机器学习

SVM效果最好

多癌中假基因表达展示了与肿瘤亚型与生物学和临床特性的相关性

The Pan-Cancer analysis of pseudogene expression reveals biologically and clinically relevant tumour subtypes

多癌中假基因表达展示了与肿瘤亚型相关的生物学和临床特性

1. 知识积累：

2. 流程：

（1）创建新的假基因筛选流程

（2）监督学习：假基因亚型间的表达

（3）假基因区分肿瘤亚型的效果评估

（4）肾癌中假基因的预测效果

3. 结果与结论

（1）假基因在各个亚型中的分布情况

（2）机器学习

（3）效果评估

（4）肾癌中的预后效果

猜你喜欢

热点阅读

多癌中假基因表达展示了与肿瘤亚型与生物学和临床特性的相关性

The Pan-Cancer analysis of pseudogene expression reveals biologically and clinically relevant tumour subtypes

多癌中假基因表达展示了与肿瘤亚型相关的生物学和临床特性

1. 知识积累：

2. 流程：

（1）创建新的假基因筛选流程

（2） 监督学习：假基因亚型间的表达

（3）假基因区分肿瘤亚型的效果评估

（4）肾癌中假基因的预测效果

3. 结果与结论

（1）假基因在各个亚型中的分布情况

（2）机器学习

（3）效果评估

（4）肾癌中的预后效果

猜你喜欢

热点阅读

（2）监督学习：假基因亚型间的表达