叶绿体基因组生信学习记录

0524

2022-05-23  本文已影响0人  坤坤呆又呆

单倍型:

单倍体基因型的简称,在遗传学上是指在同一染色体上进行共同遗传的多个基因座上等位基因的组合;通俗的说法就是若干个决定同一性状的紧密连锁的基因构成的基因型。按照某一指定基因座上基因重组发生的数量,单倍型甚至可以指至少两个基因座或整个染色体。

单倍型多样性:Hd

单倍型个数:所有被研究的对象中所含有的不同单倍型的数目。

计算方法:

单倍型多样性:是指样本中随机抽取到两个不同单倍型的频率,单倍型多样性高的群体说明其遗传多样性高,遗传资源丰富。用统计学方法很好计算,比如说样本数为10,单倍型个数为10,则单倍型多样性为1;而单倍型个数为9时,则随机抽取到两个不同单倍型的频率为

1-(2/10)*(1/9)=0.9778

分析方法:

HLA单倍型的分析。方法将 HLA‐A和B两基因座位的等位基因分型数据进行格式转换,编辑成.arp格式输入文件,导入Arlequin软件进行分析计算。结果用Arlequin软件进行 HLA单倍型分析,直接得出各单倍型及等位基因的频率和统计表,分析得出19种 HLA‐A 等位基因、39种 HLA‐B等位基因和128种 A‐B单倍型。结论 A rlequin软件可用于 HLA单倍型的计算,该方法具有简便、快速、广谱、可操作性强的特点。

Single-nucleotide polymorphisms (SNPs) frequently called SNPs (pronounced "snips")。π

单核苷酸多样性(single nucleotide polymorphism,SNP),π主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多样性,其数量很多,多态性丰富。从理论上来看每一个SNP 位点都可以有4 种不同的变异形式(替换(转换或颠换)、插入或缺失),但实际上发生的只有两种,即转换和颠换,二者之比为2 :1。SNP 在CG序列上出现最为频繁,而且多是C转换为T ,原因是CG中的C 常为甲基化的,自发地脱氨后即成为胸腺嘧啶。一般而言,SNP 是指变异频率大于1 %的单核苷酸变异。

单核苷酸多态性,是由于单个核苷酸改变而导致的核酸序列多态。一般来说,一个SNP位点只有两种等位基因,因此又叫双等位基因。SNP在人类基因组中的发生频率比较高,大约平均每1000个碱基中就有一个多态位点。有些SNP位点还会影响基因的功能,导致生物性状改变甚至致病。单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据,因此被广泛用于群体遗传学研究(如生物的起源、进化及迁移等方面)和疾病相关基因的研究,在药物基因组学、诊断学和生物医学研究中起重要作用。

单核苷酸多态性分析方法

具体操作步骤比较简单,详情参考使用DnaSP计算核苷酸多样性和单倍型多样性 

使用DnaSP计算核苷酸多样性和单倍型多样性 | Public Library of Bioinformatics (plob.org)

https://link.zhihu.com/target=https%3A//www.plob.org/article/3682.html

计算方法:

基因多态性位点数:是指所研究的基因序列在所有研究对象中的总的突变位点数。

平均核苷酸变异数:所有个体的核苷酸变异数之和 / 个体数

样本数为10,总突变核苷酸数位666,则平均平均核苷酸变异数

为66.6

核苷酸多样性:平均核苷酸变异数 / 基因序列长度

基因序列长度为1000,则核苷酸多样性为66.6/1000=0.0666

临界值:

按照 Grant 等(1998)提出的标准,单倍型多样性以 0.5 为临界值,核苷酸多样性以 0.005 为临界值,二者的值越大,群体的多样性程度越高。


WGS 流程

数据下载SRA库

质控fastp FASTQC

1):fastp

fastp -i -o -I -O

2):FASTQC

指控后无新生成压缩文件,生成数据表格

trim galore过滤adapter

序列比对BWA:

1):构建索引

bwa index  -a bwtsw ABC.fna

2):序列比对

bwa mem -M -t 20 ABC.fna 1.fq.gz 2.fq.gz

3):samtools排序

samtools sort  ABC.bam -o ABC.sorted.bam

4):去除PCR重复

samtools rmdup -s/S  ABC.sorted.bam ABC.rmdup.sorted.bam

去除PCR重复:①samtools rmdup

②:picard MarkDuplicates

③:gatk Duplicates

[2、3、4合并为一个步骤如下:

bwa mem -t 20 ABC.fna 1.fq.gz 2.fq.gz| samtools view -b -S >a.bam]

GATK进行call SNP INDEL

1):标记重复序列

2):为bam添加read group 

java -jar /picard.jar绝对路径  AddReplaceReadGroups I=A.sort.markup.bam O=A.bam RGID=${id} RGLB=|ib| RGPL=ILLUMINA RGPU=group1 RGSM=${id}

3):生成.bam文件索引文件

samtools index A.bam.sort.markdup.bam

4):生成字典.dict文件

gatk CreateSequenceDictionary -R ABC.fna -O  ABC.dict

5):输出.vcf文件

gatk HaplotypeCaller -R ABC.fna -I A.bam.sort.sort.markdup.bam

-O A.dict

注释文件


群体分层分析

①进化树分析

短片断用MEGA11

邻接法:NJ

极大似然法:ML

FastTree软件

Bootstrap值:1000

②PCA:聚类分析

验证迁移事件

③STRUCTURE:

软件:structure

上一篇下一篇

猜你喜欢

热点阅读