RNA-seq

ONT全长转录组测序分析(三)-pipline背景

2020-09-09  本文已影响0人  信你个鬼

第一,二期见丁香园,由于丁香园坑爹的排版方式,已经弃坑。

ONT全长转录组测序分析-背景

在进行正式的流程分析之前,我们先了解以下常规的ONT全长转录组分析都有哪些内容。根据这张图,我们可以看见三代全长转录组主要做结构上的分析,由于测序长度非常有优势。我们来了解一下几个概念:

全长转录组测序分析流程
全长序列

根据cDNA测序原理,reads两端识别到引物则判断为全长序列。
这是一个实际项目中全长序列占所有cleandata数据的比例,物种为人:

image-20200908235758904.png
一致性序列

全长序列用minimap2软件与参考基因组进行比对,通过比对信息进行聚类后,使用pinfish软件就得到了一致性序列,即从全长序列得到一致性序列。

转录本去冗余

为得到质量较高的一致性序列,从全长序列得到一致性序列过程中参数设置较严格,同一转录本的多拷贝序列可能没有集中在同一个一致性序列,因此,产生了冗余序列。同时,全长转录本测序过程中,3'端因存在polyA结构,可以确定3'端比较完整,而5'端序列可能存在降解,导致同一转录本的不同拷贝分到不同的cluster中,如下图绿色圈中所示,5'端差异造成不同转录本,导致冗余序列的产生。

APA分析

可变多聚腺苷酸化(alternative polyadenylation, APA)。多聚腺苷酸化是指多聚腺苷酸与信使RNA(mRNA)分子的共价链结。在蛋白质生物合成的过程中,这是产生准备作翻译的成熟mRNA的方式的一部份。在真核生物中,多聚腺苷酸化是一种机制,使mRNA分子于它们的3'端中断。多聚腺苷酸尾(或聚A尾)保护mRNA,免受核酸外切酶攻击,并且对转录终结、将mRNA从细胞核输出及进行翻译都十分重要。前体mRNA的APA可能贡献于转录组多样性,基因组的编码能力以及基因的调控机制。

可采用TAPIS pipeline,DaPars2等识别APA。

image-20200909104426089.png
SSR分析

在基因组中存在着大量的重复序列,根据其重复的程度可分为简单重复序列、中度重复序列和高度重复序列。简单重复序列(Simple Sequence Repeat,SSR]在真核生物基因组中广泛存在,一般是以1-6bp组成较低程度的重复序列,主要以2-3个核苷酸为重复单位如(GA)n、(AC)n和(GAA)n等。从进化角度看物种间重复序列的差异是自然选择的结果。因此鉴定SSR在基因组分析中有重要意义。

SSR主要有7种类型的SSR:

MISA (MIcroSAtellite identification tool)是一款鉴定简单重复序列的软件,它可以通过对转录本序列的分析,鉴定出以上7中类型的SSR。

SRR实际分析结果统计:

image-20200909110429194.png

结果统计图

image-20200909110928860.png
可变剪切

有些基因的一个mRNA前体通过不同的剪接方式(选择不同的剪接位点)产生不同的mRNA剪接异构体,这一过程称为可变剪接(或选择性剪接, alternative splicing) 。可变剪接是调节基因表达和产生蛋白质组多样性的重要机制, 是导致真核生物基因和蛋白质数量较大差异的重要原因。

可变剪切的形式复杂多样,大致可以分为5大类,可以使用Astalavista软件进行分析。

image-20200909110210577.png

以下是某个实际项目中可变剪切的统计结果,我们可以看到一般真核生物中外显子跳跃这种类型的可变剪切占比最多,较为常见:

image-20200909110343378.png
上一篇下一篇

猜你喜欢

热点阅读