GENEWISE 的使用
2020-05-05 本文已影响0人
东风008
今天要用到genewise 软件分析数据,记录一下过程!
1. GeneWise 简介
Genewise主要用于将蛋白质序列和DNA序列进行比对,从而对DNA序列上的编码区进行预测。这是一个非常老的软件,距离他不更新至少有10多年了,但是目前还是有很多公司用他进行基因组注释,包括ENSEMBL的注释流程的几个核心部分用到的也是它。
2. GeneWise 安装
wget http://www.ebi.ac.uk/~birney/wise2/wise2.4.1.tar.gz
tar zxf wise2.4.1.tar.gz -C /opt/biosoft/
cd /opt/biosoft/src
find . -name makefile | xargs sed -i 's/glib-config/pkg-config glib-2.0/' #将src目录下所有makefile中的glib-config替换成glib-2.0
perl -p -i -e 's/getline/getline_ReadSeqVars/g' ./HMMer2/sqio.c #替换genewise使用库中函数名发生改变的部分,例如getline,现在是getline_ReadSeqVar
perl -p -i -e 's/isnumber/isdigit/' models/phasemodel.c
perl -p -i -e's/csh welcome.csh/sh welcome.csh/' makefile #将csh改成sh
sed -i 's/-ldyna_glib/-ldyna_glib `pkg-config --libs glib-2.0`/' models/makefile #解决编译过程中g_hash_table_foreach_remove的bug, 似乎在Linux平台不存在这个问题
make all #最后编译加测试
export WISECONFIGDIR=~/home/yt/biotools/wise2.4.1/wisecfg
make test
echo 'PATH=$PATH:~/home/yt/biotools/wise2.4.1/src/bin/' >> ~/.bashrc #修改环境变量
echo 'export WISECONFIGDIR=~/home/yt/biotools/wise2.4.1/wisecfg/' >> ~/.bashrc
source ~/.bashrc
3. GeneWise的使用
在GeneWise的安装目录下,有一个wise2.tex文件,阐述了详细的genewise的使用方法。其软件最常用的命令是genewise。该命令的常用示例:
genewise protein.fasta dna.fasta -both -gff
#程序输入的蛋白质序列和DNA序列分别是2个fasta文件。这两个fasta文件中仅有第一条序列是有效的,genewise仅对其中的2个第一条序列进行比对。以上示例对dna序列的正负链都进行cds预测,并将gff格式结果文件输出到标准输出。
genewise的常用参数:
-trev #仅对负义链进行cds预测
-tfor #仅对正义链进行cds预测,该参数是默认值
-both #对负链都进行cds预测
-genes #给出gene结构的结果,非常简单的exon信息结果。默认情况下仅输出适合人类阅读的比对结果
-gff #给出gff格式的结果
-cdna #给出cdna序列
-pep #给出cds翻译出的蛋白质序列
-splice [model/flat] #使用的split site是model(默认值)或GT/AG。
-help #给出帮助信息。
-version #给出版本信息。
-silent #标准错误输出不输出messages信息。
-quiet #标准错误输出不输出report/info信息。
GeneWise的高级使用
注意,-options的顺序并不重要,但是蛋白质文件必须是dna文件之前
基因序列与蛋白质比较 genewise:
genewise protein.pep cosmid.dna 比较蛋白质序列与DNA序列
genewise -hmmer pkinase.hmm cosmid.dna 比较了蛋白质谱HMM与DNA序列
genewisedb protein.pep human.fa 将单个蛋白质序列与DNA序列数据库比较
genewisedb -hmmer pkinase.hmm human.fa 将单个蛋白质谱HMM与DNA序列数据库
genewisedb -prodb protein.pep -dnas cosmid.dna 比较蛋白质数据库序列到单个dna序列
genewisedb -pfam Pfam -dnas cosmid.dna 比较了蛋白质谱HMM的数据库到单个dna序列
genewisedb -prodb protein.pep human.fa 比较蛋白质数据库序列到dna数据库序列-请注意,这将需要一段时间!
genewisedb -pfam Pfam human.fa 比较了蛋白质谱HMM的数据库到单个序列的数据库-请注意,这将需要一段时间!
estwise(蛋白质与est / cDNA比较)具有完全相同的运行模式。
estwise protein.pep singleest.fa 将蛋白质序列与DNA序列进行比较(相同如上面的示例)
estwise -hmmer pkinase.hmm singleest.fa 将HMM与DNA序列进行比较
estwisedb protein.pep est.fa 将单个蛋白质序列与DNA序列数据库
estwisedb -hmmer pkinase.hmm est.fa 将单个蛋白质配置文件HMM与DNA序列数据库
estwisedb -prodb protein.pep -dnas singleest.fa 比较蛋白质数据库序列到单个dna序列
estwisedb -pfam Pfam -dnas singleest.fa 比较了蛋白质谱HMM的数据库到单个dna序列
estwisedb -prodb protein.pep est.fa 比较蛋白质数据库序列到dna数据库序列-请注意,这将需要一段时间!
estwisedb -pfam Pfam est.fa 比较了蛋白质谱HMM的数据库到单个序列的数据库-请注意,这将需要一段时间
示例:
蛋白质数据库与基因组数据库比较,输出格式为 gff 格式,输出文件名为genewise.out
genewisedb -prodb protein.fasta bed_FASTA.fasta -gff > genewise.out
4.genewise的运行原理简述:
- genewise的算法:21:93算法是genewise的基础算法。该算法简单讲就是 Match-Insert-Delete,在蛋白质序列和DNA序列比对后能准确划定intron边界。算法将intron分成5部分:5'端splice site、中间intron主体、富含CT区域、连接区、3'端splice site。根据蛋白质序列和DNA序列的比对结果算出Intron部分,从而将DNA序列的CDS区分成了Match、Insert和Delete 3部分,再对这3部分进行蛋白质翻译或移码翻译,从而划定intron边界,得到CDS信息。
- 6:23算法则是2:93算法的简单版本,也是软件的默认设置。和2:93算法相比,6:23算法的intron没有第3和第4部分(富含CT区域、连接区)。同时,6:23算法更适合于DNA序列中没有屏蔽重复或introns序列比较怪异的情况。使用该算法的时候,-intron参数的值得tied(也是该参数默认的值),否则会得到错误的很长的intron结果。
- 若是算法后面带个 L 字样,则表示适用于进行输入的蛋白质序列是 HMM 模型。此外, 还有其它的一些算法,可以参考wise2.pdf文件。
- genewise对基因进行预测后,有一个得分。该得分 = log2(预测模型的可能性/随机结果的可能性) 。因此,0表示该结果是个随机的结果,不可靠的。根据软件作者的经验,得分高于35的结果是非常可靠的;得分25-35的结果是可信的;得分18-25的结果可能仅适用于某些蛋白质家族;得分低于15的是不可信的。
用临近物种的protein序列对基因组进行homolog gene预测的时候,需要通过blast将proteins序列和基因组序列进行比对,再提取基因组的目标基因区域和最佳结果protein进行genewise分析。因此,需要自己写一些程序进行并行化的genewise计算,从而达到对全基因组大数据的分析。Genewise软件提供了一支程序/opt/biosoft/wise2.4.1/src/perl/scripts/blastwise.pl,程序能进行该项处理(我没有用过该程序,我自己写用python写代码,并借助bedtools得到目标序列)。
示例:单个蛋白质序列跟单个基因比较
genewise jason.pep jason.dna
#显示结果
Name: wise2-4-1 $ (unreleased release)
This program is freely distributed under a GPL. See source directory
Copyright (c) GRL limited: portions of the code are from separate copyright
Query protein: BRR2
Comp Matrix: /usr/share/wise/BLOSUM62.bla
Gap open: 12
Gap extension: 2
Start/End default
Target Sequence Contig4084
Strand: forward
Start/End (protein) default
Gene Parameter file: /usr/share/wise/gene.stat
Splice site model: GT/AG only
GT/AG bits penalty -9.96
Codon Table: /usr/share/wise/codon.table
Subs error: 1e-06
Indel error: 1e-06
Null model syn
Algorithm 623
Find start end points: [964,36][2175,3876] Score 454309
Recovering alignment: Alignment recoveredplicit read offffone 74%%
genewise output
Score 1310.86 bits over entire alignment
Scores as bits over a synchronous coding model
Warning: The bits scores is not probablistically correct for single seqs
See WWW help for more info
BRR2 965 YVRMLRSPALYSVGPEYDD-DKYLVQKR
YVRML SP LY+VG +Y + D LVQKR
YVRMLESPKLYNVGADYQEGDDALVQKR
Contig4084 35 tgcatgtcactaggggtcgggggcgcac
atgttaccataatgcaaaagaacttaag
tgagggtcggctgcaccggctcgctgga
BRR2 992 DLLHSAAILLEKCKLLVYN
DL+HSAA+LLEK L+ Y+
A:A[gcc] DLIHSAAVLLEKGGLVRYD
Contig4084 119 GGTGAGTA Intron 1 CAGCCgcactgggccgaggcgctg
<1-----[120 : 169]-1> attaccctttaaggttgaa
tgctcttctcagatctctc
BRR2 1012 RQSGTLTATELGKVAASYYVTHNSMAIYNRLLMQTTSFIELFRVFSFSD
R +G +T+LG++A+ YY+ ++SM++YN+ L ++I+LFRVF++S+
RATGVFQSTDLGRIASHYYIAYSSMSVYNKHLKPNMTMIDLFRVFALSN
Contig4084 229 cgaggtctagcgcagtcttagtttatgtaaccacaaaaagctcgtgtaa
gccgttaccatggtccaaatcacctctaaaatacatcttattgttctga
ttttccgtcctcttcgccctgctagcgccgctgttgtgccccagctgcc
BRR2 1061 EFKHIPVREEEKVELAKLLERVPIPIRERLDEPAAKINALLQSYISRQR
EF+ IPVR+EEK+ELAKLLERVPIP++E +DE AK+N LLQ+YIS+ +
EFRLIPVRQEEKLELAKLLERVPIPVKEGVDESVAKVNVLLQAYISQLK
Contig4084 376 gtacacgacggacgtgaccgagcacgagggggtggagagctcgtatcca
atgttctgaaaatatcattagtctctaagtaactcatatttacatcata
gcagctcgaaaacggcggtggggacgggtgcatgcggtgtgagtcagtg
BRR2 1110 LDGFALVADMVYVTQSAGRIMRAIFEISLRRGWSSVATLSLDTCKMIEK
L GF +V DMV++ QSAGRI+RA+FEI L++GW+ +LD CKM+E+
LSGFDIVTDMVFIQQSAGRIIRAMFEICLKKGWAQPMRAALDLCKMVER
Contig4084 523 ctgtgagagagtacctggcaacgatgatcaagtgccacggcgctaagga
tcgtattcattttaaccggttgcttatgtaaggcactgcctatgattag
ccaccccgcgtccaattctccccgtactcagcgtaggatttcgtagtga
BRR2 1159 RLWPTMSPLRQFPNCPSEVIRRVEKKEFPWQRYFDLDPAELGELVGVPK
R+W +M+PLRQFP E+++R E+K+FPW RYFDLD AELGEL+G+PK
RMWKSMTPLRQFPRINREIVQRAERKDFPWYRYFDLDAAELGELIGLPK
Contig4084 670 aatataaccactcaaacgagccggaagtcttattgcggggcggtagtca
gtgactcctgatcgtagattagcagaatcgagatataccatgattgtca
ggggtgtgcgactgcctgttgtgaggcctgcgctctcctaaaggccgcg
BRR2 1208 EGRRVYNMVQSFPRLSVEAHVQPITRSLVRVELVINSQFNWDDHLSGTS
G + ++V FPRL ++AHV P+TRSL+++ + + F WD ++ G S
SGAYIQSLVHKFPRLDLQAHVLPLTRSLLKINVTLTPDFQWDRNVHGAS
Contig4084 817 aggtactcgcatcccgccgcgcccactccaaagacacgtctgcagcgga
ggcatacttaatcgtatacattctcgcttatatctccatagagatagcg
cacccgtttcgccacttattcgcctattcgcccttttccggtttatcct
BRR2 1257 EAFWILVEDVDGDRLLHYEQFFLLKKYKDDEHIVNFTVPLLEPLPPCYF
+AFWI+VEDVDG+ +L+++QF+L +++ +DEH V +TVP+ EP+PP Y+
QAFWIIVEDVDGENVLYHDQFILRERFAEDEHYVTITVPISEPVPPNYY
Contig4084 964 cgttaagggggggagctcgctatcgatggggctgaaagcatgcgccatt
actgtttaatagaattaaaatttgagtcaaaaatctctctcactccaaa
aatgccggcgtcgttttccgtcaaggcggtgttgcccccctgtatccct
BRR2 1306 IKIVSDRWLHSITKVPLSFQRLIMPEKFPAPTPLLDLQNAPVSSLNNPS
+ ++SDRWL + +K+P+SF LI PE FP TPLL+LQ P+++L+N +
LSVISDRWLQAESKLPISFAHLIRPEPFPPHTPLLELQPLPITALHNKA
Contig4084 1111 ctgatgattcggaatcattgctaacgctcccactcgccctcaagccaag
tcttcaggtacagatctctcattgcactccaccttatactctcctaaac
gtctttggaaggcgaccgcttgcgcaatttcctgtacatggtagttcgt
BRR2 1355 FISLYPNFKFFNKIQTQVFNSVYKTNDSVFIGAPNGSGKTVCAELALLH
F SLYP F+ FNKIQTQVF +++ T+D+VFIGAP GSGKT+CAE ALL
FESLYP-FEHFNKIQTQVFQALFTTDDNVFIGAPTGSGKTICAEFALLR
Contig4084 1258 tgtctc tgctaaacacgtcgctaaggagtaggcagagaaatggtgtta
tactac taataatacattacttccaaatttgcccgggactgcatcttg
tgtttt cgcccgcacaccgctcttcctccctgtaacaatttggtggga
BRR2 1404 HWSQ--EDYGTAVYIAPIQEIVDRRYEEWYGKFSDLGDGKVLVKLTGER
WS+ D AV I P QE+VD R EW KF L KV+V LTGE
LWSKKGKDVPRAVCIEPYQEMVDTRVAEWSNKFEGLE--KVIVALTGES
Contig4084 1402 ctaaagaggcaggtagctcgaggacgggttaatggcg agaggcaggt
tggaagaatcgctgtacaaattacgtcagcaatagta atttctcgac
tgcggtgtggggaccgtcgaggttaggagtcgtgagg ggcccccgag
BRR2 1451 SQDLKLIQVADLIFCTPSQWDSLSKRWRSMRSIQKVDFYICDELQLLGG
+ DL L++ AD++ CTPSQWD LS+RW++ + +Q + + I DELQL+GG
TADLALLRKADVVVCTPSQWDLLSRRWKTRKDVQNIGLLIADELQLIGG
Contig4084 1543 aggcgctcagggggtactctgtctcataaaaggcaagccagggcctagg
ccatcttgacatttgcccagattcgggacgaataatgtttcaatattgg
gctggagaagtttctttaggtgttaaggaggtggctgggtctgtaacct
BRR2 1500 FYGPLYEIVISRIRYMAVQLEKNIRVVGLSVSVANARDLGEWLGTSPQC
G YE+++SR RY++ Q R+V SVS++NARDLG+W+G S Q
DVGSTYEVIVSRTRYVSQQTGITTRIVACSVSLSNARDLGDWIGASSQT
Contig4084 1690 gggtatggagtaaatgtccagaaaaaggtagataagagtggtaggaaca
atgccaatttcgcgatcaacgtccgttcggtgtgacgatgagtgcggac
tgttccggttcagatatagggcccatacctgcacttgtgttgcattcac
BRR2 1549 IFNFSPKDRPNPLTIHLQSFSITHFPSLMLAMSKPIYRSLKNFISQRKS
+FNFSP RP PL +HLQSF++ HFPSLMLAM+KP Y S+ S +
VFNFSPAARPLPLEVHLQSFNVPHFPSLMLAMAKPAYLSMVEH-SAGRP
Contig4084 1837 gtattcggcccccggctcttagcctctcacgagacgtctaggc tggcc
ttatccccgctctatatactatcatcctttctcaccatcttaa ccggc
gtctttctatctcggtggtccgtccctcgttgcacctctggac ttcgg
BRR2 1598 TIVFTPDRKVAKQLAFDLVTFSMADEDEYLFSLMENE----AFNKVEDA
TI F RK K A D++T+ +AD+DE F +E E + ++ D
TICFVASRKQCKLTANDILTYCLADDDETRFLNVEREDLEPHLERLSDE
Contig4084 1981 aattggtcactacagagacattcgggggactcaggaggtgcctgatagg
ctgttccgaagatccaattcagtcaaaacgttatagaatacatagtgaa
cccctcgcgatgctcctctgcctgtctgtaccttgaatgggcggagccg
BRR2 1643 ALQQSLKHGIAYISEITSSNDQNIVQYLYRHGLIKVLIASR
L+++L++GI Y E S D+ IV L+ G IKVL+AS+
DLKETLRYGIGYYHEALSKLDKKIVTTLFEEGAIKVLVASK
Contig4084 2128 gtagatatgagttcggcaatgaaagaattggggaagcggta
ataactgagtgaaaactgataaattccttaagctatttcca
tgggcggcttactcgtgcggcagtctagcggatcggtgctg
BRR2 1684 DVIYSLKAKSNAVIVMGTQYYD
D +SL + + VI+MG QY+D
DTAWSLPSTAYMVIIMGVQYFD
Contig4084 2251 GTAAGTT Intron 2 TAGgagtacctagtagaaaggcttg
<0-----[2251 : 2301]-0>accggtccccatttttgtaata
cttgtctgtttgcccgtcatct
BRR2 1706 GKEHRYIDYPISELLQMLGFTASIGSSELSQVILMTVTTKKEYYKKFLN
G+EHRY+DY I+++LQM+G S+ +LM T+K+++KKFLN
GQEHRYVDYAIADILQMMGRACRPTIDTSSRCVLMCQQTRKDFFKKFLN
Contig4084 2368 gcgcctggtgaggaccaagcgtccaagattctgtatccacagttaatta
gaaagataactcattattggcggcctacccggtttgaacgaattaatta
cggcactttccctccaggcattcagtcctggcgggtggcagcccagcac
BRR2 1755 EPLPMESHLQVWLHDAFVSEISTQTIESKQDAVDWLTWSYMYRRLVANP
E LP+ES L +LHD F +EI +TIE+KQDAVDW TW+++YRRL+ NP
EALPVESSLPSFLHDHFNAEIVARTIENKQDAVDWCTWTWFYRRLMQNP
Contig4084 2515 ggtcggtatcattcgctaggaggaaagaacggggttatatttaatacac
actctacgtcgttaaatacattcgctaaaaactaggcgcgtaggttaac
gaggcgatagccgctccccgtaggtcgtggttttgttgcgccggaggtc
BRR2 1804 A YYGLQDITHESVSEFLSDLVE
+Y LQ T + E+LS+LVE
G FYNLQGTTPTHIGEYLSELVE
Contig4084 2662 gGTGAGTA Intron 3 CAGttaccgaacacaggtctgcgg
g<0-----[2665 : 2716]-0>taatagccccatgaatcatta
a tccagccattttcacatatca
BRR2 1826 TTMNDLSEARLITVDDEDDSCVALNLAMIASHYGITYITMQTFALSLSE
TT+NDL + I + D+ D+ NL MIAS Y I+YIT++ F+ S+ E
TTLNDLVNSDCIIIQDDMDT-LPNNLGMIASFYYISYITVEIFSQSIKE
Contig4084 2780 aatagtgatgtaaacggaga ccaatgaagttttattaaggattctaag
cctaattacagtttaaatac tcaatgttcctaatcatctattcactaa
ccgtcgccgtctccactgcc ccccatgtactcccaccccacctaccaa
BRR2 1875 RTKMKGLLEIVTSAAEYEQLPIRKYEDIVLERIHSRLPVRLSNPNYEDP
TK+KGLLEIV+SA E+E +PIR +ED +LERI+ R+PV+++ +Y P
TTKLKGLLEIVSSAHEFETVPIRHHEDTLLERIYDRVPVKVAKVDYSSP
Contig4084 2924 aaacagtcgagttgcgtgagcaaccggaccgaatgcgcgaggaggtatc
ccatagttattcccaatactctgaaaacttagtaagtctatcataagcc
tcacgcgtatctagtgtgctgcgctactttggtcctgttgtcactccac
BRR2 1924 HTKSFILLAAHFSRFELPPGLVIDQKFILTRVHNLLGACVDTLSSEGHL
+ K+F+LL AHFSR LPP L IDQ IL ++ LL A VD +SS+ L
YFKTFLLLQAHFSRTTLPPDLAIDQSTILGKIIGLLSAAVDVMSSKS-L
Contig4084 3071 ttaatccccgctacaacccgtgagctaacgaaagcctgggggataaa t
atacttttacatggcctccatctaaccttgattgttccctattcgag t
tcatccgtattcccgcttccgtctattttcgactttactgttgccgt g
BRR2 1973 IACIRPMEMSQMVTQALWDRDSPLKQIPYFDDALIERCNKEGVHDVFDI
+ C+ M++SQM QA+WDRDSPLKQ+PYFD ++ R +G+ V+DI
LGCLGAMDLSQMCVQAMWDRDSPLKQVPYFDADVLGRFKAKGLDSVYDI
Contig4084 3215 cgttggagcacatgcgatgagtctacgcttggggcgatagagtgtgtga
tggtgctatgatgtactgagacctaatcatacattggtacagtactaat
tatgtggcttagtgggggtgtatggggcctcccctgacgcgtgccgtcc
BRR2 2022 IDLDDEKRTELLHMDNAH A
++L+D++R +LL M++ A
MELEDDERNDLLRMNDRQ L:L[ctt] A
Contig4084 3362 agcggggaagttaaagacCTGTACGTT Intron 4 CAGTg
tataaaagaattgtaaga <2-----[3418 : 3471]-2> c
gggattagttggggtcag g
BRR2 2042 KCAEFINKYPDIDIDFEIEDSEDVHANSPSVLIVQLTRELEEDEEVDTT
+ A+F+N YP+I++ + +ED+ + ++ P VL + L RE +E D
RVAKFVNSYPNIEVSYHVEDASSLTSSDPVVLNITLDREADEGNPEDQV
Contig4084 3476 cggatgattcaaggttcggggttcattgcggcaaacgcgggggacggcg
gtcattacacatatcaataaccctcccactttatctagacaagacaaat
atcgccttttttgttcccacctttctcctcgcttcgtcatcacctacag
BRR2 2091 VIAPYFPAQKTEHWWLVISDDKT--LLAIKKITLGRSLTTKMEFVPPAM
AP+FP +K WWLV+ D+KT L AIKK+T+ +L TK+EF P
ADAPHFPHKKMVSWWLVVGDEKTKSLYAIKKVTVKATLKTKLEFTLPE-
Contig4084 3623 gggcctccaaagtttcgggggaaatttgaaagagagacaaacgtaccg
caccatcaaattcggtttgaaacactactaatctacctacatatctca
ctacccttgggcaggcggtcagcaggcgcggcttagatgtgtacacta
BRR2 2138 GTLKYKLSCFSDSYMGVDYEKEFECNVLEPLDTEMEDGE
G KL + DSY G D +F+ L+ ++ E D E
GEWNLKLFLICDSYAGAD--QDFDIETLKVVEGESSDEE
Contig4084 3767 ggtatacttatgatgggg cgtgagacagggggatggg
gagatattttgagacgca aatatactattagagcaaa
aggcgggcgcttctaagc gcttcgttgagaggctcgg
//
#end