PLINK+TASSEL做GWAS+Post-GWAS分析
此视频来自B站,是非常好和全的的一个GWAS操作的视频,从开始准备软件下载,数据过滤,到最后的候选基因注释。
GWAS的实战视频
https://www.bilibili.com/video/BV1f44y1t7Jk?from=search&seid=12908459299918140554&spm_id_from=333.337.0.0
LD

流程:


怎么安装软件:


VCF格式1:不需要填充:

VCF格式2(原始):需要处理:

首先基因型填充

填充后(PLNIK):



admixture: k = 1-13

根据VC,选取使用P文件

TASSEL:亲缘关系:

hapmap格式文件:

以下都为:TASSEL
VCF转为hapmap:

GLM使用时,要去除群体结构文件中的最后一列,需要保证三列和小于1.表型文件并且admiture的文件,在表型最前面加如covriances。

MLM加入亲缘关系:

表型数据中为单个表型:两列
安装R包

普通曼哈顿图:


CMplot:

RColorBrewer包调控颜色:

筛选显著值:第二:峰中的其他位点是受最大的影响,所以进行clump清理,根据LD值处理。

染色体注释
上下100kb进行注释。
准备基因位置文件:

基因功能注释文件:

输入文件:

使用perl进行注释:
先基因定位:


再对基因进行功能注释:

有重复的需要删除。
对结果再行筛选
Camoco预测候选基因。安装软件

构建数据库

Camoco的文章:

建立参考基因组:


GFF文件格式:


需要将csv格式,使用最后代码将数据分开。
根系文件:

GO

计算:

test.txt

再进行GO富集分析,网站直接进行。
区段关联分析

PLINK(文件格式转换)和TASSEL(关联分析)进行(windows版本)。

VCF(基因文件)改为ped,map


首先确定基因的目标区段:annotation文件:

从基因里查出内部及上下游50k的所得SNP

导入基因型:

关联分析:数据筛选

数据整合:

关联分析:

LD 分析:

根据TASSEL根据选出的SNP再次进行MLM分析,得到结果后,再次进行LD分析,
将基因型和关联分析结果导出。再使用R进行画图:
关联结果只需要marker,POS,P值,三列。
需要报: LDheatmap, genetics包,读数据:记得加as.is=T

p值转为-log10()


候选基因还是很多(GWAS步骤),可以构架一个WGCNA调控网络
基本概念:

主要数据:


基本流程:输入数据
基因表达矩阵:

性状矩阵(必须为数值型数据)
