DupGen_finder安装及使用

2023-07-25  本文已影响0人  GenomeStudy

串联复制(Tandem duplication) :串联复制主要发生在染色体重组区域,串联复制形成的基因家族成员通常紧密排列在同一条染色体上,形成一个序列相似、功能相近的基因簇。

1.jpg

片段复制(Segmental duplication):导致复制的基因距离较远,甚至位于不同的染色体。

2.jpg

自交不亲和性(Self-incompatibility),系植物柱头排斥传至其上的同花或同株的花粉粒的现象。植物的自交不亲和性主要分为孢子体自交不亲和性和配子体自交不亲和性两大类。

DupGen_finder这个软件就可以去鉴定这些串联重复和片段重复,但是只针对二倍体!
1.安装

cd ~/biosoft  # or any directory of your choice
git clone https://github.com/qiao-xin/DupGen_finder.git
cd DupGen_finder
make
chmod 775 DupGen_finder.pl
chmod 775 DupGen_finder-unique.pl
chmod 775 set_PATH.sh
source set_PATH.sh

DupGen_finder的使用
1.数据准备

要分类基因复制模式的目标基因组,两个输入文件:*.gff和 *.blast

target_species.gff,目标物种的基因位置文件,采用制表符分隔格式。例如,“Ath.gff”。

target_species.blast ,目标物种的 blastn 输出文件(-outfmt 6)(自我基因组比较)。例如,“Ath.blast”。

#Ath.gff 中的数据如下所示(制表符分隔):
Ath-Chr1    AT1G01010.1 3631    5899
Ath-Chr1    AT1G01020.1 5928    8737
Ath-Chr1    AT1G01030.1 11649   13714
Ath-Chr1    AT1G01040.2 23416   31120
Ath-Chr1    AT1G01050.1 31170   33153

Ath.blast文件格式可以使用

query acc.ver, subject acc.ver, % identity, alignment length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score

进行blast的比对

# Create a reference database
makeblastdb -in Ath.pep -dbtype prot -title Ath -parse_seqids -out Ath
# Align protein query sequences against the reference database
blastp -query query_file -db database -evalue 1e-10 -max_target_seqs 5 -outfmt 6 -out xyz.blast
# For example
blastp -query Ath.pep -db Ath -evalue 1e-10 -max_target_seqs 5 -outfmt 6 -out Ath.blast

2.使用

mkdir 01.date && mkdir 02.preparation

name1=ssp
name2=SSP
## ${name}.blast准备
ref_cds=../01.date/${name1}.cds.fa
makeblastdb -in ${ref_cds} -dbtype nucl
blastn -num_threads 10 -query ${ref_cds} -db ${ref_cds} -evalue 1e-20 -outfmt 6 > ${name1}.blast


## ${name}.gff准备
ref_gff=../01.date/${name1}.gen.gff3
awk '$3 == "gene"' ${ref_gff} | awk 'BEGIN{FS="\t|=|;";OFS="\t"}{print $1,$10,$4,$5}' > ${name1}.gff

cp ${name1}.blast ${name1}_${name2}.blast
cp ${name1}.gff ${name1}_${name2}.gff
DupGen_finder-unique.pl -i ~/Work/structural_analysis/DupGen/1.date/s.of/02.preparation  -t ${name1} -c ${name2} -o results

DupGen_finder.pl -i ~/Work/structural_analysis/DupGen/1.date/s.of/02.preparation -t ${name1} -c ${name2} -o Rsults

Running:

DupGen_finder.pl
DupGen_finder-unique.pl
##ex.
DupGen_finder.pl -i (data_directory)  -t ${name1} -c ${name2} -o results
DupGen_finder-unique.pl -i (data_directory) -t ${name1} -c ${name2} -o results

DupGen_finder-unique.pl -i ~/Work/structural_analysis/DupGen/1.date/s.of/02.preparation  -t ${name1} -c ${name2} -o results

上一篇下一篇

猜你喜欢

热点阅读