使用jellyfish软件利用二代测序数据估计基因组大小
2022-03-11 本文已影响0人
小明的数据分析笔记本
参考链接
https://bioinformatics.uconn.edu/genome-size-estimation-tutorial/
首先是 jellyfish的安装
我首先尝试的是使用mamba来安装
mamba install jellyfish
安装过程没有报错,也没有提示没有这个软件
但是运行命令jellyfish
就提示没有这个命令,暂时不知道是什么原因
找到软件github链接 https://github.com/gmarcais/Jellyfish
软件下载链接
https://github.com/gmarcais/Jellyfish/releases
image.png可以直接下载第二个,应该是二进制版本,可以直接使用,或者下载第一个自己编译
我这里下载第一个
wget https://github.com/gmarcais/Jellyfish/releases/download/v2.3.0/jellyfish-2.3.0.tar.gz
tar -xzvf jellyfish-2.3.0.tar.gz
cd jellyfish-2.3.0
./configure --prefix=$PWD
make -j 4
make install
运行完以后在jellyfish-2.3.0目录下会多出一个bin文件夹,文件夹下有jellyfish可执行的程序
使用的时候需要注意fastq文件需要是解压缩后的,如果是压缩文件会报错
terminate called after throwing an instance of 'std::runtime_error'
what(): Unsupported format
Aborted (core dumped)
接下来按照教程的内容
./jellyfish-2.3.0/bin/jellyfish count -t 8 -C -m 19 -o 19mer_out -s 16G YS_R1.fq YS_R2.fq
./jellyfish-2.3.0/bin/jellyfish histo -o 19mer_out.histo 19mer_out
接下来按照教程的内容发现我自己的数据和教程查好多,教程里会出现一个峰,我自己的数据完全是一个下坡,教程里的原理我也没看懂
image.png在杏的基因组论文里看到他的方法是用genomescope,github的链接是
https://github.com/schatzlab/genomescope
命令
./jellyfish-linux count -C -m 21 -s 8G -t 12 *.fq -o reads.jf
./jellyfish-linux histo -t 12 reads.jf > reads.histo
在线工具
http://qb.cshl.edu/genomescope/
上传数据后给出的结果
image.png欢迎大家关注我的公众号
小明的数据分析笔记本
小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!