WGD全基因组复制
2020-06-01 本文已影响0人
多啦A梦的时光机_648d
一:软件安装
conda create -n wgd python=3.7 blast mcl muscle mafft prank paml fasttree cmake
conda activate wgd
再到 https://github.com/arzwa/wgd下载wgd解压
cd wgd
pip install .
二:程序运行
1.wgd mcl鉴定基因组内的同源基因
wgd dmd genome.maker.cds.fa
输出文件夹里面有两个文件:
*.tsv: BLASTP的outfmt6输出结果
*.tsv.mcl: MCL聚类结果,每一行可以认为是一个基因家族(gene family)
2.使用wgd ksd构建Ks分布
wgd ksd -n 16 wgd_dmd/genome.maker.cds.fa.mcl genome.maker.cds.fa
这一步也是先过滤cds中的无效数据,然后用mafft(默认)/muscle/prank对每个基因家族进行多重序列联配,用codeml计算dN/dS, 用alc/fasttree(默认)/phyml建树.
输出结果在wgd_ksd目录下,也是2个文件
ks.tsv: 每个基因家族中基因对的各项统计,其中包括Ka和Ks
ks.svg: Ks分布,见下图
3.Ks分布的统计建模
wgd kde -b 100 -r 0 3 wgd_ksd/genome.maker.cds.fa.ks.tsv
wgd kde输出kde.svg
在运行这一步的时候有个报错
$wgd kde -b 100 -r 0 3 wgd_ksd/genome.maker.cds.fa.ks.tsv
Qt: XKEYBOARD extension not present on the X server.
这是由于xmanager的设置问题,需要修改以下设置:
打开Xconfig---Default Profile---高级--勾选XKEYBOARD--应用
image.png
4.用wgd mix建立高斯混合模型
wgd mix --method bgmm -b 50 wgd_ksd/genome.maker.cds.fa.ks.tsv > log.mix_bgmm
wdg mix则生成一个 wgd_mix文件夹,里面也是两个文件。