组装基因组基因组

TEtranscripts:转座子元件差异表达

2022-08-28  本文已影响0人  生信云笔记

转座子

  转座子(transposable element):或称跳跃基因,是一种可以改变其在基因组中位置的DNA序列,有时会产生或逆转突变,改变细胞的遗传特性和基因组大小。
  转座子按照转座方式的不同,可分为两大类:I型转座子(Class I elements),II型转座子(Class II elements)。
  I型转座子又叫反转座子(retrotransposon),其在转座时,会先以DNA为模板,在RNA聚合酶II的作用下,转录成一段mRNA,然后再以这段mRNA为模板反转录成cDNA,最后在整合酶的作用下将这段cDNA整合到基因组上新的位置。根据反转座子转座机制,人们形象地称其为“复制-粘贴”型转座原件。
  II型转座子也叫做转座子(transposon),在转座酶的作用下,II型转座子从原来的位置解离下来,再重新整合到染色体上的其他位置,原来的位置由于转座子解离形成的断链,会在DNA修复的机制下被修复完整。故II型转座子转座的机制被形象地称为“剪切-粘贴”。
  根据参考文献对转座子的分类,总结如下:

TEtranscripts

  转座子其实属于重复序列中的一个特殊类别,由于重复序列的研究起来比较复杂,所以一直以来研究这方面的人并不多。今天我们就来说一说如何分析差异转座子,其实从本质上看与分析差异基因表达类似,把转座子当成基因,然后统计reads,最后利用差异软件如DESeq2做差异分析。只不过,目前市面上好多软件都是为统计基因表达值而设计的,并不适合用来分析转座子。因为转座子具有重复序列,所以序列间相似性很高,所以比对到该区域的reads有很多是mutil-alignments,也就是说同一条read会有好多个比对到的地方。这样的话,如果简单的统计reads,势必会造成偏差,因为好多read被重复计数。当然也可以只用unique-alignments的reads,但这样肯定会丢失很多信息。所以为了更准确地分析转座子的差异,有人就开发相应的软件 — TEtranscripts。该软件在定量时,考虑了比对到转座子区域的reads数目(给予每一条mutil-alignments的reads一个权重),转座子的长度,fragment长度等信息,使用Expectation maximization方法确定reads具体属于哪一个转座子。尽管本人也不是很明白软件的具体算法,但通过文献中的描述可以感觉到该方法还是比较科学靠谱的。

  从上面的流程图,可以看出该软需要三种输入文件,样本bam、基因组gtf、转座子gtf,包含两个子命令TEtranscriptsTEcount,前一个命令会输出表达值和差异结果,后一个只是统计表达值。统计reads的时候,软件有两种模式可选分别为multiuniq,默认是multi。如果选择uniq模式,mutil-alignments的reads就会被丢弃不用于计数。一般选择默认情况更好。该软件由python编写,安装和使用都很方便:

#安装
git clone https://github.com/mhammell-laboratory/TEtranscripts
cd TEtranscripts
python setup.py install --user

# 差异分析
TEtranscripts --mode multi \
              -t case1.bam case2.csort.bam case3.bam \
              -c ctrl1.bam ctrl2.bam ctrl3.csort.bam \
              --foldchange 1 \
              --GTF hg38_gene.gtf \
              --TE hg38_rmsk.gtf \
              --project transposon \
              --sortByPos

  从上面的命令可以看出,使用起来确实很简单,里面的参数也很容易理解,这里就不一一解释了。程序正常结束后会在目录中生成如下文件:

result
├── transposon.cntTable                   # count矩阵
├── transposon_DESeq2.R                   # 差异R脚本   
├── transposon_gene_TE_analysis.txt       # 总的差异结果
└── transposon_sigdiff_gene_TE.txt        # 显著性的差异结果    

  差异的结果跟直接用R包分析的结果一样,差异分析方法默认使用的是DESeq2。如果对差异的阈值不满意,可以直接修改差异分析脚本文件 (如这里的transposon_DESeq2.R) 来生成想要的结果。

结束语

  重复序列作为基因组中复杂且基本没有被开发的区域,也在慢慢进入更多研究者的视野,未来也许人们会在这个类似荒漠的地方发现新的绿洲。哦了,今天的分享到此结束了~~~

参考资料

  1. https://www.jianshu.com/p/9191633017a1
  2. https://blog.sciencenet.cn/blog-1509670-1205415.html
  3. 《TEtranscripts: a package for including transposable elements in differential expression analysis of RNA-seq datasets》
  4. 《Transposable Elements: Classification, Identification, and Their Use As a Tool For Comparative Genomics》
上一篇下一篇

猜你喜欢

热点阅读