2019-12-06
R语言学习总结
数据库:TCGA(TCGAbiolinks包),GTEx,CCLE,GEO(GEOquery)
chip-seq:chipseeker
转录组差异分析:DESeq2,edgeR,limma
甲基化差异位点分析:ChAMP,minfi
甲基化差异区域分析:ChAMP,minfi,TCGAbiolinks
画图包:pheatmap,ggplot2,ggpubr,enrichplot,Rideogram,survminer,GOplot,circlize,ggcor
图类型:barplot,dotplot,boxplot,violin,dotplot,云雨图,蜂巢图,折线图,火山图,热图(距离,相关性,表达量),cnetplot(chord图,再变就成了circos图),emapplot(通路关系),goplot(通路关系),pathview,gseaplot2,ridgeplot(gsea结果),km生存曲线图,相关性图(ggscatterhist:散点+拟合线+统计直方图或核密度估计图)
分面的图(~),动态的图(gganimate),极坐标图(南丁格尔玫瑰图,pie图,掰弯的热图等),核型图(再变也就成了circos图),glmnet--plot,cv.glmnet--plot,森林图,nomogram,校正曲线,ROC(timeROC)
数据导入及整理:readr,readxl,tidyr,dplyr
统计包glmnet:岭回归和套索回归(加入惩罚项,寻找关键变量)
导图神器:export(graph2ppt导出至PPT,取消组合,分离的矢量元素)
一些统计的函数:
scale(按列归一化)
dist(计算距离)
glm(逻辑回归分析)
step(逻辑逐步回归模型)
lm(线性回归分析)
stepAIC(MASS包,线性逐步回归模型)
anova(lm的方差分析表)
coefficients,coef(lm的拟合参数,截距项和斜率)
summary(lm的拟合结果)
confint(lm的95%置信区间)
fitted,predict(lm中y的预测值)
residuals(lm中的y的残差)
cor(相关性)
pcor(ggm包,偏相关性)
cor.test(相关性是否具有统计学差异,单个)
corr.test(psych包, 输出相关性矩阵及相关性是否具有统计学差异,多个)
t(转置 )
summary,describe,stat.desc(描述性统计量)
aggregate(分组获取某一个描述性统计量,需自定)
by,summaryby(分组后一次获取多个描述性统计量,需自定)
describeby(分组后一次获取多个描述性统计量,函数预定义)
var.test(方差齐性检验,F检验)
t.test(单样本t检验,配对t检验,独立样本t检验)
pt(自由度为df时t值小于某值的概率,无原始数据的t检验,三种都可做)
aov(z~x*y,方差检验总体是否有显著性差异)
TukeyHSD(输入aov结果,事后检验,成对检验)
未完待续