基因水平的关联分析
2019-03-11 本文已影响79人
Thinkando
1. 最显著SNP法
1.1 最显著 SNP 法
- 把基因中 P 值最小的 SNP 作为该基因的代表
2.1 最大 OR 法 - 当基因上 n 个 SNP 对应的病例对照的样本量一致时, P 值越小其对应的 OR 也越大, 这时最大 OR法与最显著 SNP 法完全等价;
- 当基因分型缺失造成样本量不一致时, 这时最显著的 SNP 其 OR 未必最大。
3.1 次显著 SNP 法(Second best SNP) - Nam 等[16]认为, 在 GWAS 中很多所谓“显著的”SNP 实际上是随机关联, 换句话说, 如果该基因与疾病存在真正的关联, 由于基因上一般都有很多SNP, 那么除了最显著 SNP 还应存在次显著 SNP 以及更多的显著 SNP, 否则该 SNP 很可能是随机关联SNP, 甚至最显著的结果还可能是基因分型错误造成的
2. 组合法
2.1 Fisher 组合法
image.png
2.2 TPM
- 在fisher 组合法的基础上选择显著突变
3 回归分析方法
3.1 线性回归
image.png
3.2 Logistic 回归
image.png
3.3 岭回归
- 由于全基因组关联分析中每个基因上通常包含较多的 SNP, 而 SNP 在回归分析中被编码成 0、1 和2, 由于自变量之间存在的相关性而在回归分析的过程中很容易产生多重共线性问题, 进而引起通过最大似然估计的回归系数的不稳定性, 影响了回归方程的建立, 而 SNP 数据中普遍存在的 LD 又加重了这个问题。在统计学上, 经常采用岭回归的方法来解决多重共线性问题, 即通过获得回归系数的最小有偏估计值(而不是无偏估计)来确保回归方程的稳定。
3.4 典型相关分析
- 与线性和 Logistic 回归所不同的是, 典型相关分析是同时在多个表型 Yi与多个 SNP 自变量 Xi之间建立回归方程, 以确定基因是否与多个相关表型之间存在关联; 当只有一个表型时, 典型相关分析就退化成多元线性回归。Tang 等[27]将典型相关分析应用到包含 6 种指标(总白细胞数、中性粒细胞数、淋巴细胞数、单核细胞数、嗜酸性粒细胞数和嗜碱性粒细胞数)的白细胞性状 GWAS 数据集, 验证了典型相关分析能够用于基因水平的数量性状位点研究。
4 主成分分析和傅里叶分析
- 岭回归虽然能够处理回归方程中存在的多重共线性问题, 但是无法解决基因水平的关联分析中经常存在的高自由度问题(基因上可能存在众多 SNP使得检验的自由度很高, 影响了检验效能), 当基因上存在较多 SNP 的时候(例如 20 个以上), 此时个体数与 SNP 数之比常常比要求的比例偏低, 导致检验效能较低也使得方程不稳定。
- 主成分分析通过降唯的方式将一组可能相关的自变量压缩成少数几个相互独立的新自变量(即主成分), 成功地解决了多重共线性问题并大大降低了回归方程的自由度。
5. 基于 Permutation 的方法
- 由于统计检验通常对数据分布都有要求(例如正态分布和均匀分布), 在统计量的分布类型不明确或者很难求得其解的情况下, 统计学上常常采用蒙特卡罗(Monte Carlo)随机模拟的方式来获得相应的P 值, 而 Permutation(重排法)和 Bootstrap(自举法)是其中两种常用方法。不管是 Permutation 还 是Bootstrap, 在统计学上都属于再抽样(Resample)方法。
- 由于人们对总体的分布不太清楚, 或者很难进行更多的真实抽样, 于是可以考虑在原有样本基础上通过再抽样这样一种方式来产生更多的模拟样本。
- Permutation 是通过打乱个体的病例/对照属性(不改 变 SNP 的基因型 )的方式来实现再抽样 , 而Bootstrap 是直接改变 SNP 的基因型(不改变病例/对照属性)的方式来实现再抽样。理论和实践都证明,再抽样的方法非常有效, 即使对有明确分布类型的数据, 也能获得非常逼近真实 P 值的结果