TCGA知识图谱视频学习笔记1
2020-03-14 本文已影响0人
大吉岭猹
1. 生存分析
- 有很多模型
- log-rank
- COX
- LASSO
- 随机森林
- 支持向量机
1.1. COX
- 虽然最后只留下基因表达的风险因子等信息,但生存分析时要把性别、年龄、癌症的 stage 等因素加进去以排除这些因素的影响,这是比 log-rank 优秀之处
1.2. LASSO
- 首先用
glm函数找到最优的 λ 值,cv.glmnet是用交叉验证找到最优方程,同样是为了得到最优 λ 值 - 本质是取基因的过程
2. 风险因子关联图
-
- 3 图联动:风险因子散点图 - 生存时间和状况散点图 - 重要 signature 的表达量热图
- 重难点是 3 张图的样本都要按照风险因子从低到高排序
3. 拆分数据集
- 拆分数据集,用于模型验证
library(caret)
set.seed(12345679)
sam<- createDataPartition(meta$event, p = .5,list = FALSE)
train <- exprSet[,sam]
test <- exprSet[,-sam]
train_meta <- meta[sam,]
test_meta <- meta[-sam,]
友情宣传
- 全国巡讲全球听(买一得五),第二期 ,你的生物信息学入门课
- 生信技能树的2019年终总结 ,你的生物信息学成长宝藏
- 2020学习主旋律,B站74小时免费教学视频为你领路