如何获取测序数据的average insert size
2018-10-24 本文已影响0人
TOP生物信息
在学习用SOAPdenovo2组装基因组的过程中,发现配置文件需要填average insert size这一项。建库过程我是没有参与的,所以就不知道insert size到底多大(以后这种情况尽量避免,毕竟建库是很重要的)。搜了搜谷歌,找到了答案,作者以BBMap为例介绍了三种基本方法,适用于不同的情景——Average Insert Size
- 基于比对,需要参考基因组;
- 基于重叠,read1 + read2 > insert;
- 基于组装,需要足够的测序深度和内存来组装基因组。
我的重测序数据应该用第一种方法,如果是基于比对,那其他的软件应该也可以,有没有呢?先留一个问题。
下载安装
$ wget https://nchc.dl.sourceforge.net/project/bbmap/BBMap_38.26.tar.gz
#最近一次更新是2018年9月,作者真勤劳。
$ tar zxvf BBMap_38.26.tar.gz
$ cd ./bbmap
$ ls
太多了吧
$ ./../bbmap.sh in1=/ifs1/Grp3/huangsiyuan/learn_assemble/data/chr1_R1.fq \
in2=/ifs1/Grp3/huangsiyuan/learn_assemble/data/chr1_R2.fq \
ref=./chr1.fa ihist=ihist.txt reads=2m pairlen=1000 threads=4
#运行了近三个小时才得到了ihist.txt文件,感觉比对有些慢
平均数,中位数等等以及insert size的频数分布
insert size的频数分布
所以平均insert size就取354左右吧!