生信知识

TE的鉴定

2020-04-01  本文已影响0人  生信师姐

https://www.jianshu.com/p/9191633017a1
https://www.jianshu.com/p/fd2b417ceff8
https://www.jianshu.com/p/6273241b26bc
https://www.jianshu.com/p/8b2bcbdd35ae
https://www.jianshu.com/p/4453e58a9c96

转座子鉴定方法

转座子的鉴定方法基本归于两大类:从头预测、基于同源比对

从头( De novo ) 算法

基于同源性的算法

RepeatModeler,LTR_retriever

自己看Repeatmodeler+Repeatmasker 跑出来的重复序列结果,发现,会存在一段序列注释为两种类型,如可能会是Copia,然后又被注释为LTR/unkonwn,但是不多,300多万个数目中有30几个会注释重复

EDTA

image

分析:生成基因组中的原始的所有TE库

EDTA.pl --genome xx.genome.fasta  --cds xx.final.gene.longest.gff3.cds.fa --exclude xx.gene.bed \
--curatedlib ./library_EDTA/xx.fa --species others --overwrite 1 --sensitive 1 --anno 1 --evaluate 1 --threads 32

GitHub - oushujun/EDTA: Extensive de-novo TE Annotator
--genome:必须文件,输入的基因组序列(序列名不多于15个字符,且为简单字符,如字母,数字或下划线)
--cds:非必须文件,该物种或相关物种的CDS编码序列(FASTA格式),不能包括内含子和UTR。该文件有助于去除TE库中的基因序列。
--exclude:非必须文件,该版本基因组组装结果的基因位置文件(BED格式)。TE注释过程中将会过滤该文件中的基因位置信息,从而避免注释错误。
--curatedlib:该物种修正版的TE库。其中的序列也没必要是全部修正过的TE,部分修正过的也可以使用。
--species:物种名,Rice, Maize和others三个可选,默认others
--step:运行步骤, all|filter|final|anno, 根据具体情况选择,默认all
--threads (-t):线程数,默认是4
--overwrite:如果发现以前的结果,决定是否覆盖(1,重新运行)或不覆盖(0,默认)
--sensitive: 是否用RepeatModeler分析剩下的TE,默认是0,也就是不要。RepeatModeler运行时间比较久
--anno: 是否在构建TE文库后进行全基因组预测,默认是0.
--evaluate 评估TE注释的分类一致性。默认值:0。这个步骤很慢,而且不会影响注释结果。

8G基因组跑了20天左右

genome.mod.EDTA.TEanno.gff:全基因组TE的注释. 该文件包括结构完整和结构不完整的TE的注释(需要--anno 1参数)
genome.mod.EDTA.TEanno.sum:对全基因组TE注释的总结(需要--anno 1参数)
genome.mod.EDTA.TElib.fa:非冗余的TE库。如果在输入文件中提供了修正版的TE库,则该文件中也将包含这部分序列。
genome.mod.EDTA.TElib.novel.fa:新TE类型。该文件中包括输入的修正版的TE库中没有的TE序列(需要--curatedlib参数)
genome.mod.MAKER.masked:低阈值TE的屏蔽.该文件中仅包括长TE(>= 1 kb)序列(需要--anno 1参数)
genome.mod.EDTA.TE.fa.stat.redun.sum:简单TE的注释偏差(需要--evaluate 1参数)
genome.mod.EDTA.TE.fa.stat.nested.sum:嵌套型TE注释的偏差(需要--evaluate 1参数)
genome.mod.EDTA.TE.fa.stat.all.sum:注释偏差的概述(需要--evaluate 1参数)

分析:生成基因组中的原始的亚类TE库

EDTA_raw.pl --genome xx.genome.fasta --cds xx.final.gene.longest.gff3.cds.fa --exclude gene.bed \
--species others --type tir --curatedlib ./library_EDTA/xx.fa -overwrite 1 --threads 20


参考:
https://github.com/oushujun/EDTA#issues
https://www.jianshu.com/p/dfa89f394882
https://www.jianshu.com/p/ddd1c9a74fde
https://www.jianshu.com/p/f962d5c40fdf
https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFD2013&filename=AHNY201308003&uniplatform=NZKPT&v=%25mmd2Fe0g9nSKUuUK1GjQz6eD4Op0avSl%25mmd2BYGyQTsPxiKcx27YQ9yw%25mmd2FVAPSWnHERxDx8gt 基因组转座子鉴别与注释方法研究进展

</article>

https://www.jianshu.com/p/107f1416fca7

上一篇 下一篇

猜你喜欢

热点阅读