生信已应用

WGD全基因组复制

2020-06-01  本文已影响0人  多啦A梦的时光机_648d

一:软件安装

conda create -n wgd python=3.7 blast mcl muscle mafft prank paml  fasttree cmake
conda activate wgd
再到 https://github.com/arzwa/wgd下载wgd解压
cd wgd
pip install .

二:程序运行

1.wgd mcl鉴定基因组内的同源基因

wgd dmd genome.maker.cds.fa

输出文件夹里面有两个文件:



*.tsv: BLASTP的outfmt6输出结果
*.tsv.mcl: MCL聚类结果,每一行可以认为是一个基因家族(gene family)

2.使用wgd ksd构建Ks分布

wgd ksd -n 16 wgd_dmd/genome.maker.cds.fa.mcl genome.maker.cds.fa

这一步也是先过滤cds中的无效数据,然后用mafft(默认)/muscle/prank对每个基因家族进行多重序列联配,用codeml计算dN/dS, 用alc/fasttree(默认)/phyml建树.
输出结果在wgd_ksd目录下,也是2个文件



ks.tsv: 每个基因家族中基因对的各项统计,其中包括Ka和Ks
ks.svg: Ks分布,见下图


3.Ks分布的统计建模

wgd kde -b 100 -r 0 3 wgd_ksd/genome.maker.cds.fa.ks.tsv

wgd kde输出kde.svg

在运行这一步的时候有个报错

$wgd kde -b 100 -r 0 3 wgd_ksd/genome.maker.cds.fa.ks.tsv
Qt: XKEYBOARD extension not present on the X server.

这是由于xmanager的设置问题,需要修改以下设置:

打开Xconfig---Default Profile---高级--勾选XKEYBOARD--应用
image.png

4.用wgd mix建立高斯混合模型

wgd mix --method bgmm -b 50 wgd_ksd/genome.maker.cds.fa.ks.tsv > log.mix_bgmm

wdg mix则生成一个 wgd_mix文件夹,里面也是两个文件。


三:结果

上一篇下一篇

猜你喜欢

热点阅读