生物信息小明数据分析基因组组装

使用jellyfish软件利用二代测序数据估计基因组大小

2022-03-11  本文已影响0人  小明的数据分析笔记本

参考链接

https://bioinformatics.uconn.edu/genome-size-estimation-tutorial/

首先是 jellyfish的安装

我首先尝试的是使用mamba来安装

mamba install jellyfish

安装过程没有报错,也没有提示没有这个软件
但是运行命令jellyfish就提示没有这个命令,暂时不知道是什么原因

找到软件github链接 https://github.com/gmarcais/Jellyfish

软件下载链接

https://github.com/gmarcais/Jellyfish/releases

image.png

可以直接下载第二个,应该是二进制版本,可以直接使用,或者下载第一个自己编译

我这里下载第一个

wget https://github.com/gmarcais/Jellyfish/releases/download/v2.3.0/jellyfish-2.3.0.tar.gz
tar -xzvf jellyfish-2.3.0.tar.gz
cd jellyfish-2.3.0
./configure --prefix=$PWD
make -j 4
make install

运行完以后在jellyfish-2.3.0目录下会多出一个bin文件夹,文件夹下有jellyfish可执行的程序

使用的时候需要注意fastq文件需要是解压缩后的,如果是压缩文件会报错

terminate called after throwing an instance of 'std::runtime_error'
  what():  Unsupported format
Aborted (core dumped)

接下来按照教程的内容

./jellyfish-2.3.0/bin/jellyfish count -t 8 -C -m 19 -o 19mer_out -s 16G YS_R1.fq YS_R2.fq
./jellyfish-2.3.0/bin/jellyfish histo -o 19mer_out.histo 19mer_out

接下来按照教程的内容发现我自己的数据和教程查好多,教程里会出现一个峰,我自己的数据完全是一个下坡,教程里的原理我也没看懂

image.png

在杏的基因组论文里看到他的方法是用genomescope,github的链接是
https://github.com/schatzlab/genomescope

命令

./jellyfish-linux count -C -m 21 -s 8G -t 12 *.fq -o reads.jf
./jellyfish-linux histo -t 12 reads.jf > reads.histo

在线工具

http://qb.cshl.edu/genomescope/

上传数据后给出的结果

image.png

欢迎大家关注我的公众号

小明的数据分析笔记本

小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!

上一篇下一篇

猜你喜欢

热点阅读