TEtranscripts：转座子元件差异表达

2022-08-28 本文已影响0人生信云笔记

转座子

转座子(transposable element)：或称跳跃基因，是一种可以改变其在基因组中位置的DNA序列，有时会产生或逆转突变，改变细胞的遗传特性和基因组大小。
转座子按照转座方式的不同，可分为两大类：I型转座子(Class I elements)，II型转座子(Class II elements)。
I型转座子又叫反转座子(retrotransposon)，其在转座时，会先以DNA为模板，在RNA聚合酶II的作用下，转录成一段mRNA，然后再以这段mRNA为模板反转录成cDNA，最后在整合酶的作用下将这段cDNA整合到基因组上新的位置。根据反转座子转座机制，人们形象地称其为“复制-粘贴”型转座原件。
II型转座子也叫做转座子(transposon)，在转座酶的作用下，II型转座子从原来的位置解离下来，再重新整合到染色体上的其他位置，原来的位置由于转座子解离形成的断链，会在DNA修复的机制下被修复完整。故II型转座子转座的机制被形象地称为“剪切-粘贴”。
根据参考文献对转座子的分类，总结如下：

TEtranscripts

转座子其实属于重复序列中的一个特殊类别，由于重复序列的研究起来比较复杂，所以一直以来研究这方面的人并不多。今天我们就来说一说如何分析差异转座子，其实从本质上看与分析差异基因表达类似，把转座子当成基因，然后统计reads，最后利用差异软件如DESeq2做差异分析。只不过，目前市面上好多软件都是为统计基因表达值而设计的，并不适合用来分析转座子。因为转座子具有重复序列，所以序列间相似性很高，所以比对到该区域的reads有很多是mutil-alignments，也就是说同一条read会有好多个比对到的地方。这样的话，如果简单的统计reads，势必会造成偏差，因为好多read被重复计数。当然也可以只用unique-alignments的reads，但这样肯定会丢失很多信息。所以为了更准确地分析转座子的差异，有人就开发相应的软件 — TEtranscripts。该软件在定量时，考虑了比对到转座子区域的reads数目(给予每一条mutil-alignments的reads一个权重)，转座子的长度，fragment长度等信息，使用Expectation maximization方法确定reads具体属于哪一个转座子。尽管本人也不是很明白软件的具体算法，但通过文献中的描述可以感觉到该方法还是比较科学靠谱的。

从上面的流程图，可以看出该软需要三种输入文件，样本bam、基因组gtf、转座子gtf，包含两个子命令TEtranscripts、TEcount，前一个命令会输出表达值和差异结果，后一个只是统计表达值。统计reads的时候，软件有两种模式可选分别为multi、uniq，默认是multi。如果选择uniq模式，mutil-alignments的reads就会被丢弃不用于计数。一般选择默认情况更好。该软件由python编写，安装和使用都很方便：

#安装
git clone https://github.com/mhammell-laboratory/TEtranscripts
cd TEtranscripts
python setup.py install --user

# 差异分析
TEtranscripts --mode multi \
              -t case1.bam case2.csort.bam case3.bam \
              -c ctrl1.bam ctrl2.bam ctrl3.csort.bam \
              --foldchange 1 \
              --GTF hg38_gene.gtf \
              --TE hg38_rmsk.gtf \
              --project transposon \
              --sortByPos

从上面的命令可以看出，使用起来确实很简单，里面的参数也很容易理解，这里就不一一解释了。程序正常结束后会在目录中生成如下文件：

result
├── transposon.cntTable                   # count矩阵
├── transposon_DESeq2.R                   # 差异R脚本   
├── transposon_gene_TE_analysis.txt       # 总的差异结果
└── transposon_sigdiff_gene_TE.txt        # 显著性的差异结果

差异的结果跟直接用R包分析的结果一样，差异分析方法默认使用的是DESeq2。如果对差异的阈值不满意，可以直接修改差异分析脚本文件 (如这里的transposon_DESeq2.R) 来生成想要的结果。

结束语

重复序列作为基因组中复杂且基本没有被开发的区域，也在慢慢进入更多研究者的视野，未来也许人们会在这个类似荒漠的地方发现新的绿洲。哦了，今天的分享到此结束了~~~

参考资料

https://www.jianshu.com/p/9191633017a1

https://blog.sciencenet.cn/blog-1509670-1205415.html

《TEtranscripts: a package for including transposable elements in differential expression analysis of RNA-seq datasets》

《Transposable Elements: Classification, Identification, and Their Use As a Tool For Comparative Genomics》

TEtranscripts：转座子元件差异表达

转座子

TEtranscripts

结束语

参考资料

猜你喜欢

热点阅读