LTR类转座子收藏

TE的鉴定

2021-09-27  本文已影响0人  ytbao

转座子鉴定方法

转座子的鉴定方法基本归于两大类:从头预测、基于同源比对

从头( De novo ) 算法

基于同源性的算法

RepeatModeler,LTR_retriever

自己看Repeatmodeler+Repeatmasker 跑出来的重复序列结果,发现,会存在一段序列注释为两种类型,如可能会是Copia,然后又被注释为LTR/unkonwn,但是不多,300多万个数目中有30几个会注释重复

EDTA

EDTA流程图

之前仓促做的分析,一些参数没有摸透,记录可能有错误的地方

分析:生成基因组中的原始的所有TE库

EDTA.pl --genome xx.genome.fasta  --cds xx.final.gene.longest.gff3.cds.fa --exclude xx.gene.bed \
--curatedlib ./library_EDTA/xx.fa --species others --overwrite 1 --sensitive 1 --anno 1 --evaluate 1 --threads 32

GitHub - oushujun/EDTA: Extensive de-novo TE Annotator
--genome:必须文件,输入的基因组序列(序列名不多于15个字符,且为简单字符,如字母,数字或下划线)
--cds:非必须文件,该物种或相关物种的CDS编码序列(FASTA格式),不能包括内含子和UTR。该文件有助于去除TE库中的基因序列。
--exclude:非必须文件,该版本基因组组装结果的基因位置文件(BED格式)。TE注释过程中将会过滤该文件中的基因位置信息(如果做内含子与TE之间相关分析,此参数可能不能加)。
--curatedlib:已知TE,会合并到TElib。其中的序列也没必要是全部修正过的TE,部分修正过的也可以使用。
--species:TIR注释物种,物种名Rice, Maize和others三个可选,默认others
--step:运行步骤, 从哪一步开始,all|filter|final|anno, 根据具体情况选择,默认all
--threads (-t):线程数,默认是4
--overwrite:如果发现以前的结果,决定是否覆盖(1,重新运行)或不覆盖(0,默认)
--sensitive: 是否用RepeatModeler分析剩下的TE,默认是0,也就是不要。RepeatModeler运行时间比较久
--anno: 是否在构建TE文库后进行全基因组预测,默认是0
--evaluate 评估TE注释的分类一致性。默认值:0。这个步骤很慢,而且不会影响注释结果。
--u ltr-retriever 的自然突变率 Default: 1.3e-8 (per bp per year, from rice)

8G基因组跑了20天左右

genome.mod.EDTA.TEanno.gff:全基因组TE的注释. 该文件包括结构完整和结构不完整的TE的注释(需要--anno 1参数)
genome.mod.EDTA.TEanno.sum:对全基因组TE注释的总结(需要--anno 1参数)
genome.mod.EDTA.TElib.fa:非冗余的TE库。如果在输入文件中提供了修正版的TE库,则该文件中也将包含这部分序列。
genome.mod.EDTA.TElib.novel.fa:新TE类型。该文件中包括输入的修正版的TE库中没有的TE序列(需要--curatedlib参数)
genome.mod.MAKER.masked:低阈值TE的屏蔽.该文件中仅包括长TE(>= 1 kb)序列(需要--anno 1参数)
genome.mod.EDTA.TE.fa.stat.redun.sum:简单TE的注释偏差(需要--evaluate 1参数)
genome.mod.EDTA.TE.fa.stat.nested.sum:嵌套型TE注释的偏差(需要--evaluate 1参数)
genome.mod.EDTA.TE.fa.stat.all.sum:注释偏差的概述(需要--evaluate 1参数)

分析:生成基因组中的原始的亚类TE库

EDTA_raw.pl --genome xx.genome.fasta --cds xx.final.gene.longest.gff3.cds.fa --exclude gene.bed \
--species others --type tir --curatedlib ./library_EDTA/xx.fa -overwrite 1 --threads 20

这里我得到的文件只有 intact 全长的重复序列,EDTA_raw.pl 好像只会得到全长TE,加上 --anno 1 参数也一样。分开跑好像不会运行RepeatMasker,只能得到全长的TIR,LTR,Helitron(不一定对,没有探究)


参考:
https://github.com/oushujun/EDTA#issues
https://www.jianshu.com/p/dfa89f394882
https://www.jianshu.com/p/ddd1c9a74fde
https://www.jianshu.com/p/f962d5c40fdf
https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFD2013&filename=AHNY201308003&uniplatform=NZKPT&v=%25mmd2Fe0g9nSKUuUK1GjQz6eD4Op0avSl%25mmd2BYGyQTsPxiKcx27YQ9yw%25mmd2FVAPSWnHERxDx8gt 基因组转座子鉴别与注释方法研究进展

上一篇下一篇

猜你喜欢

热点阅读