群体遗传学

重测序分析(10)群体进化分析之PCA分析

2022-10-15  本文已影响0人  Bioinfor生信云

PCA

PCA(Principal Components Analysis)即主成分分析,也称主分量分析或主成分回归分析法,是一种无监督的数据降维方法。首先利用线性变换,将数据变换到一个新的坐标系统中;然后再利用降维的思想,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上。这种降维的思想首先减少数据集的维数,同时还保持数据集的对方差贡献最大的特征,最终使数据直观呈现在二维坐标系。旨在利用降维的思想,把多指标转化为少数几个综合指标。

主成分分析可以反映出群体分群信息及离群样本,可以使用 plink、EIGENSOFT等软件进行分析,这里我们使用 plink。

数据和软件准备

数据:all.LDfilter.vcf(上一步构建进化树时已经过滤好的文件)
样品和分群的对应文件sample.txt,第一列是样品名,第二列是亚群名


软件:plink

参考脚本

plink --vcf  all.LDfilter.vcf  \ #输入文件
--pca 10  \ #PCA的个数要小于等于样本数
--out  PCA_out   \ #输出文件名称
--allow-extra-chr \ #允许其他格式的染色体名称

主要输出结果:
1.特征值文件:PCA_out.eigenval


2.特征向量文件:PCA_out.eigenvec


绘图

Rscript PCA.R  \#R绘图脚本
PCA_out.eigenvec 1 2  \#pca1、pca2
sample.pop  \#分群信息
PCA_out

欢迎关注Bioinfor 生信云公众号!

上一篇 下一篇

猜你喜欢

热点阅读