DNA-seq 基因组学

CLUMPP遗传多样性分析

2021-05-02  本文已影响0人  DumplingLucky

CLUMPP: Bioinformatics 23:1801-1806(2007)
分析案例

1. 下载

https://rosenberglab.stanford.edu/clumppForms/clumppRegistration.html

#安装
gunzip filename.tar.gz; tar xvf filename.tar
./CLUMPP

2. 输入文件

(1)paramfile
参数文件,参数文件参数可被命令行命令参数代替。

DATATYPE(int)要使用的数据文件的类型。0,则可以从anindfile中读取单个Q矩阵,如果DATATYPE = 1,则CLUMPPexpect可以从apopfile中读取总体Q矩阵.
INDFILE(string)the indfile的名称。该文件包含所有运行的单独的Q矩阵,如果DATATYPE = 0,则需要indindfile。
POPFILE(string)popfile的名称。该文件包含所有运行的总体Q矩阵。如果DATATYPE = 1,则popfile是必需的。
OUTFILE(string)outfile的名称。在确定了“最佳”排列之后,该文件包含所有运行的平均Q矩阵。 
MISCFILE(string)miscfile的名称。这个文件包含当前CLUMPP运行的参数设置,即H(orH')的最大值。请注意,对于完全搜索算法,最高H值保证等于SSCR。
K(int)簇数.
C(int)总体数.R(int)要对齐的Q矩阵或运行的数量.
M(int)用于对齐运行的算法。有效选择是1、2或3:1使用完整搜索算法,2使用贪婪算法,3使用大KGreedy算法。
W(布尔值)1通过每个群体中的个体数量加权对齐过程(在最后一列inpopfile中指示),0选择不加权,即给每个群体相同的权重,而与群体中的个体数量无关。仅当DATATYPE = 1并且数据来自总体时,此选项才有意义。如果DATATYPE = 0,则此选项自动设置为0.
S(int)要使用的成对矩阵相似性统计信息。有效选择为1或2:使用statisticG的选择为1;使用statisticG'的选择为2。
#Greedy和LargeKGreedy算法的附加参数
GREEDY OPTION (int):需要M = 2 or M = 3。为1-测试所有可能的order, 为2-测试随机次数的order, 为3-使用自己预设的order。
REPEATS (int) : GREEDY OPTION 为2时, REPEATS为随机次数GREEDY OPTION 为3时,REPEATS为自己预设的order次数。GREEDY OPTION 为1时,REPEATS 无意义
PERMUTATIONFILE (string):4.4 permutationfle 文件,需要 M = 2 or M = 3 together with GREEDY OPTION = 3。
#输出参数
PRINT PERMUTED DATA (int) :0 不打印输入的矩阵,1 打印输入文件的矩阵到一个文件,2 打印输入文件中不同矩阵到不同文件。
PERMUTED DATAFILE (string): 如果PRINTPERMUTEDDATA = 2,将为每个置换的Q矩阵创建一个文件。 这些文件将具有连续编号的扩展名“ permuteddatafileX”,其中X的范围是1到R。如果PRINTPERMUTEDDATA = 1或PRINTPERMUTEDDATA = 2,则需要此文件。
PRINT EVERY PERM (boolean):为1时,打印每次测试的run order。为0时,不打印这些信息
EVERY PERMFILE (string):打印每次测试的run order到某个文件
,需要PRINT EVERY PERM = 1。
PRINT RANDOM INPUTORDER (boolean):为1时,打印所有随机run order。为0时,不打印。 需要 GREEDY ORDER = 2
RANDOM INPUTORDERFILE (string):随机order打印到某个文件,需要GREEDY ORDER = 2 and PRINT RANDOM INPUTORDER = 1。

(2)indfile
CLUMPP的个体和群体输入文件不同,
在 paramfile 表明输入文件 及输入文件类型(Datatype,设置DATATYPE = 0,)具体含义,从注释中可以看明白。每个k的run中的个体顺序应一致。Clumpp indfile与distruct indfile_indivq一样。



(3)popfile
参数文件中需设置DATATYPE=1。文件内容含义,与idstruct中Popfile一致。



(4)permutationfile
不同run的不同排列也会造成结果的差异。使用Greedy or the LargeKGreedy 时,需指定permutation file。

3. 运行

./CLUMPP paramfile
#或者命令行参数运行

4. 结果文件

(1)outfile


(2)miscfile

(3)permuted datafile

(4)every permfile

(5)random input orderfile
参考:
chrome-extension://cdonnmffkdaoajfknoeeecmchibpmkmg/assets/pdf/web/viewer.html?file=https%3A%2F%2Frosenberglab.stanford.edu%2Fsoftware%2FCLUMPP_Manual.pdf
https://www.jianshu.com/p/e596eb52c763
上一篇下一篇

猜你喜欢

热点阅读