R语言做生信数据-R语言-图表-决策-Linux-PythonCook R

八行代码搞定内参基因筛选-R版本的NormFinder

2018-12-27  本文已影响56人  ShawnMagic

写在前面

硕士毕业做的大豆内参基因的筛选,当时用了geNorm, NormFinder和BestKeeper三个软件,geNorm 不需要多说,Vandesompele教授的奇作,自2002年发表至今被引用14000多次

geNorm被引用信息
而后商业化被整合到qBase+,需要大概220欧... 当然网上自然有crack的版本,大家各显神通把,BestKeeper则没有什么大变化,还是一个基于excel2003 VBA开发的一个算法,也木有更新,想对于geNorm和NormFinder来说算法简单,只是对Raw Ct value做了pairwise correlation,所以参考的意义其实不大,对于候选内参较少的情况(<10个)可以进行粗筛。NormFinder就显得良心多了,由于NormFinder考虑了inter-和intra-group的因素,所以在样品多分组的qPCR assay中NormFinder的评测结果可能要比其他软件好,在office版本更迭后在2015年推出了基于R的算法,甚至没有打包成package,使用方法也比较简单,下面就介绍一下如何实现两行代码搞定内参筛选。

准备

>setwd("~/software/NormFinder")

说明你的工作目录已经转换到了你刚才新建的NormFinder“文件夹”下,
然后在上面R script输入

source("r.NormOldStab5.txt")

然后点 R script面板上右上角绿色的小箭头,会提示run current line or selection。

纵向的rowname是candidate reference gene, 第一列的colname是样品的名称,最后是分组,比如case 和 control.中间是Raw Ct值,当然也可以根据老版本的说明做2 -delta Ct的归一化处理。当然这里的不同就意味着后面在查看结果时使用的代码也不同。这个数据是我通过excel函数 =RANDBETWEEN(13,30)随机生成的模拟Ct值。将自己的数据整理成这种格式后用excel保存,注意保存的时候将格式改为制表符分隔符的文本文档.txt格式,而不是UTF-16 Unicode的文本文档格式,这里我和manual中一致改成的Datafile.txt。然后同样保存到刚才新建的NormFinder文件夹下。然后输入:

Result=Normfinder("Datafile.txt")
##如果你输入数据格式是未分组的格式输入下面代码,如果不是就不要运行。
Result1=Normfinder('Datafile.txt', Groups = FALSE)

运行完你会在右边environment的Data中发现多了一个Result,而这个result是一个list,这个list下面就保存了所有的结果信息,主要包括了Ordered, UnOrdered, PairOfGenes三个结果,也就是按照stability 排序后,未排序的筛选结果,以及最稳定的内参基因组合的结果。

文件的保存

思路就是将list中的结果分别命名然后再write.csv。 代码如下

Ordered_result = Result$Ordered
UnOrdered_result = Result$UnOrdered
PairOfGenes_result = Result$PairOfGenes
write.csv(Ordered_result,file = "Orderd.csv")
write.csv(UnOrdered_result, file = "UnOrdered.csv")
write.csv(PairOfGenes_result, file = "PairOfGene.csv")

一顿操作过后你会发现在你新建的NormFinder文件夹中出现了如下结果文件:

结果输出
对于结果的解读就不介绍了,文献多如牛毛,自己把握。最后附上R版本NormFinder的manual,基本就是简单翻译了一下,做一个杜师兄当年提倡的脑残版protocol
上一篇下一篇

猜你喜欢

热点阅读