转录组

GFOLD摸索

2020-04-02  本文已影响0人  没有猫但是有猫饼

用到GFOLD是因为我拿到了没有重复的样本,所以试试,第一次做,欢迎大家和我讨论
参考文献是:
GFOLD
大部分安装参考这篇博客
我也用到了CORNAS来分析,详见这篇我的CORNAS摸索

我用到的一些软件↓

Oracle VM VirtualBox虚拟机
XShell
Notepad++

主要遇到的一些问题是一开始对linux操作不熟悉,后面慢慢就好多了

第一步:做出两个输入文件

要注意GFOLD的文件格式↓
1)需要两个输入文件,一个相当于是是control,另一个相当于是case组
文件内容为5列:
1列:GeneSymbol
2列:GeneName,我的数据中这两列是一样的,都是例如"IGF2-AS
"、"TPTEP1"
3列:Read Count基因的Count数 ,我用的就是rawdata里的值
4列:Gene exon length 基因的外显子长度
5列:RPKM 基因的RPKM值
如果我们只是计算差异分析,第4、5列可以自己随便填充数值,但是不可以省略!否则软件会报错!
我的数据大概如下↓

输入文件格式
这样就差不多做好了两个输入文件,我一般会用RStudio再统一一下列名以防万一
#新生成的文件名我一般不改,就是 raw_data_Vec , raw_data_LSH 反正后面还会改掉
file1 = "你的路径/XXX.csv"
raw_data_Vec <- read.csv(file1, stringsAsFactors=FALSE)
file2 = "你的路径/YYY.csv"
raw_data_LSH <- read.csv(file2, stringsAsFactors=FALSE)
#统一列名别出错
colnames(raw_data_Vec) <- c("GeneSymbol", "GeneName", "Read Count", "Gene exon length", "RPKM")
colnames(raw_data_LSH) <- c("GeneSymbol", "GeneName", "Read Count", "Gene exon length", "RPKM")
#导出文件,这个文件名我也不改,不然在 Linux 里改好麻烦
write.table(raw_data_Vec, file="你的路径/Sample1Vec.read_cnt", row.names=F, col.names=F, quote=F, sep="\t")
write.table(raw_data_LSH, file="你的路径/Sample2LSH.read_cnt", row.names=F, col.names=F, quote=F, sep="\t")

结果是↓


生成的两个文件

第二步:需要把这两个文件传到Linux中,这就是Linux基本操作了,不赘述

第三步:需要在Linux里运行GFOLD程序,建议先在RStudio中写好粘贴过去,不然修改不好总是出错

gfold diff -s1 /你的路径/Sample1Vec.read_cnt -s2 /你的路径/Sample2LSH.read_cnt -o /你的路径/Sample1VSSample2.diff

其中:
diff 表示计算差异
-s1 表示输入的第一个样本
-s2 表示输入的第二个样本
这里一定要注意顺序!!
-o 表示后面接输出文件的名字,我一般也不会改
剩下的就交给GFOLD去算吧,然后你会得到↓

Job diff is DONE! (?感觉程序比我都高兴)
这个时候会发现会出现一个结果文件,我一般会把它从服务器上下载下来,之后可能用Excel或是其他的工具筛选一下就好了
计算结束啦!
输出文件为6行,不过如果一开始后两行是自己随便输入的话,那么这个结果里的后两行也没有什么意义
这是输出文件的格式

这样其实就结束了GFOLD,有一些注意事项都会写在结果文件的开头几行,比如
GFOLD = 0不能 视作有差异的基因,所以一开始就把它们筛选掉比较好;
GFOLD > 0表示上调,GFOLD < 0表示下调
我记得在一篇文献中看到过GFOLD绝对值 > 1视为有明显?差异,可能记忆有误,大家可以自己查查😁


我对比了一下GFOLDCORNAS这两种方法的计算结果,总体都差不多,但是有一些GFOLD = 0的基因在CORNAS中是有差异的,如果想要很精确的结果的话,可能可以考虑结合二者的结果进行分析

上一篇 下一篇

猜你喜欢

热点阅读