转录组数据分析

HISAT-StringTie-Ballgown流程的解释(原理

2019-10-09  本文已影响0人  桁_COLA

1、使用HISAT进行测序片段的比对

RNA测序数据分析的第一步是将测序数据比对到参考基因组上,以便于明确它们的位置。

这一步骤的实现有赖于BWT数据结构和FM索引(两个专业名词,无需掌握)

RNA测序的比对软件需要面对的另一个问题是许多RNA测序片段跨越了内含子

HISAT使用了两种索引文件,一大(全基因组索引)一小(局部索引),来解决这一问题。它们均建立于BWT数据结构和FM索引

RNA测序数据的比对可以得到新的剪切位点、转录起始位置和转录终止位置

这一步也可以直接提供注释文件,该注释文件明确了已知基因的位置及其外显子/内含子的边界?(区别)

2、使用StringTie进行转录本组装和计数

每个基因的亚型的表达情况和它们的相对转录丰度对分析十分重要

该软件首先将片段准确地分配至它们的基因座,然后尽可能得将每个基因座连接成基因亚型,用于解释数据。于此步我们也可以提供一个注释文件,其包含了已知基因的外显子-内含子结构及其名称?(区别)

比对完成后可用gffcompare软件去获得一些数据(对应于无参组装)

包括有多少组装好的转录本可以匹配到已注释的基因上(完全的或部分的)以及其中有多少是全新的

GFF文件是一种用tab作为间隔的文件,包含了基因组中基因的位置、属性、转录本、外显子和内含子

merge的操作请看图,这样就可以避免漏掉某些外显子(因为组装不完整)

merge后由于数目发生了变化,StringTie会对merge后的数据再进行一次丰度估计

3、使用Ballgown进行差异表达分析

探索性分析、可视化和统计建模

该软件可以得到三种文件:

表型数据:样本信息

表达量数据:数量

基因组信息:位置信息

大部分差异分析遵循以下步骤:

数据可视化和检查

差异性的统计学检验

多重检验校正

下游检查和结果总结

上一篇 下一篇

猜你喜欢

热点阅读