跨物种RNA-seq标准化及差异表达

2021-06-06 本文已影响0人小潤澤

前言

对跨物种的RNA-seq进行标准化和差异分析已知是一个问题，而目前对此类问题的相关研究还比较少，有用RPKM进行各物种之间标准化的，也有基于count文件利用DESeq2的标准化方法对各物种进行标准化的，而今天介绍的方法来自于文章：《A statistical normalization method and differential expression analysis for RNA-seq data between different species》

跨物种基因

首先，对于同一物种相同基因的比较，由于其基因长度和功能都一样，因此可以直接比较；而对于跨物种的RNA-seq比较来说，一般选取直系同源的基因来比较

跨物种RNA-seq基本模型

首先，作者定义基本模型如下：

其中：

E(Xgkt) 代表物种 t 中文库 k 基因 g 基因观测到的count值的期望（均值；上式右边可以看作为对 μgk 求均值的过程，因此式子左边用 E(Xgkt) 表示，另外一层意思参照下面的泊松分布模型）；

Xgkt 代表物种 t 中文库 k 基因 g 观测到的count

μgkt 代表物种 t 中文库 k 基因 g 的真实表达水平；

Lgkt 代表物种 t 中文库 k 基因 g 的基因长度；

St 代表

Nt 代表物种 t 中，文库 k 的所有基因count数总和；

上面的模型建立了物种 t 中文库 k 基因 g 的真实表达水平与观测值之间的关系，有助于下一步的标准化及差异分析

跨物种RNA-seq标准化及差异分析

首先对于两个物种的直系同源基因的比较，我们有如下假设：

那么H0对应该基因没有差异表达，H1对应该基因发生了差异表达；之前我们说 Xgkt 代表物种 t 中文库 k 基因 g 观测到的count，那么事实上对于其中两个物种的直系同源基因，我们需要对每一个基因的真实表达值（count值）假设一个分布，方便后续的假设检验，作者这里利用的是泊松分布
因此定义泊松分布的参数：