生信分析20:基于重测序数据计算重组率
在基因组上,重组率并不是均匀的。这篇大豆的文章通过高密度的芯片数据绘制了大豆全基因组的重组图谱,结合转录特征以及各种表观修饰特征,探索了重组与基因表达以及各种表观修饰的关系。
今天的推送介绍如何基于SNP信息计算重组率。
计算重组率的软件不多,更新和维护做的都不太好。并且由于重组率的计算涉及庞大的计算量,所以选择合适的软件还是挺难的。今天用到的R包是2016年发表在G3上的FastEPR,相对而言其计算速度和准确性优于已发表的其他软件。
软件配置
https://www.picb.ac.cn/evolgen/softwares/index.html
在linux中输入R CMD INSTALL FastEPRR_1.0.tar.gz
即可安装
输入数据
可以输入三种常见的对齐格式(fasta、cluster和phillip),也可以输入vcf文件。
vcf文件一定是phased之后的,可以通过beagle实现。
实操
FastEPRR包含三个主要的函数,分别命名未step1、step2和step3,按顺序依次运行即可计算得到重组率。
FsatEPRR不支持一次输入所有染色体的信息,因此实例只选择了Chr1的前10000行变异信息。
第一步的目的是扫描输入vcf文件,识别需要的信息,并保存到chr1_step1文件中。
注意:
1、vcfFilePath需要输入绝对路径
2、winLength指定滑窗大小,单位是kb,写100代表100kb
3、srcOutputFilePath指定输出文件的路径
以上三个参数是必要的,其他额外参数可参考官方教程http://www.sinh.cas.cn/evolgen/202302/W020230424820292257595.pdf
第二步用于计算每个bin的重组率,bin的长度有step1中winLength指定。每个bin的计算结果保存在一个文件中。
注意:srcFolderPath是上一步文件夹的路径,不是文件
第三步用于整合第二步计算的结果。
三个必要输入都是文件夹,最终结果保存在chr1_results文件夹中。输出文件中记录了每个bin上的重组率Rho
Position(kb) 0.803-100.802 代表第一个bin是从803bp-100802bp,这段区间的重组率Rho是634.86
本文使用 文章同步助手 同步