0525

2022-05-25 本文已影响0人坤坤呆又呆

基础知识

numts：线粒体假基因（Nuclear Mitochondrial Pseudogenes）

[Nuclear mitochondrial pseudogenes] - PubMed (nih.gov)

NUMT-pseudogenes can make serious errors in analyzing free mtDNA of total cellular DNA (using PCR), as a result of their co-amplification.
是一些线粒体基因片段游离整合到核基因上成为非编码区，影响mtDNA的PCR过程的结果（共扩增）。

群体分层分析方法学习（转）

structure

1.数据格式处理

2. 参数选择

将整理好的基因型数据导入Structure，设置参数“Number of MCMC Reps”， “burn-in period”， “length of burn-in period”。

由于该软件所采用的算法是一个随机过程，因此，对于每一个K，需要进行多次重复运算以保证结果的可靠性。

3. 判断最佳K值

将结果打包，提交给在线软件Structure harvester，分析最佳的K值。

4. CLUMPP

使用CLUMPP对structure分析的重复运算结果进行重复抽样分析。得到最佳K值的Q-matrix结果。

5. 作图

将CLUMPP的结果传递给distruct，进行structure图形的绘制。

作者：WooWoods

链接：https://www.jianshu.com/p/3b621b2d6c5f

来源：简书

著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

Structure图构建原理

获取样本基因型；即snp calling的结果，vcf file。

一般来说我们是不知道群体中十几包含了多少个亚群，我们一般把它设置为K。然后Structure软件就会使用贝叶斯算法，推算并模拟K分别在1~x的情况下，是如何分群，及每个个体血统分布情况。

如下图你可以了解k=2,3,9的情况下，该物种是如何分群的，及每个个体的血统构成。例如K=3，有三种颜色，代表三个亚群。有一些个体，会掺杂两种颜色，证明这个个体具有杂合的血统，并且颜色的多少代表掺杂了对应祖先的比例。

但是问题来了如何决定那个K值所对应的图是对的？因为structure使用的是贝叶斯算法，每个K值模拟的结果都会产生一个最大似然值。软件中会以最大似然值对数的形式出现，该值越大，说明对应K模拟的结果越接近真实群体的情况。当K值不断增加，会出现一个饱和的最大似然值的点。该点对应的K值所生成的图就是最合适的模拟图。般随着K值升高，ln likelihood值也会不断升高，但会慢慢进入平台期。选择最优K值的目标是要找到那个拐点。

简单说来，就是要找的一个likelihood最大（越大越可靠）而且K值最小（亚群数最少）的模拟结果，往往这样的模拟对应的K值是最接近于群体的真实情况的。

作者：lakeseafly

链接：https://www.jianshu.com/p/d46f27665074