基因组生物信息学基因组组装

入门流程 | 三代测序基因组从[ 组装 ]到[ 评估 ]- Pa

2021-06-02  本文已影响0人  生信石头

写在前面

最近,带一个师妹了解并做了简单的基因组组装工作,感觉其上手速度还可以。慢慢地有初窥生物信息学数据分析门径的样式,于是....还是鼓励她整理整理流程,分享分享(其实....主要还是公众号明显有断更的趋势,赶紧补血....),与大伙共同学习。流程整理如下。

获取并上传测序数据

样品交付于公司后,公司开展Pacbio常规基因组建库测序,返回三个文件:

其中 BAM 文件保存的去除接头之后,所有subreads(来自同一个ZMW的reads在文件中连续排布)。使用 xftp 或 winscp 上传数据到服务器。

Pacbio的 BAM 文件转换为 Fastq/a 文件

计划使用 flye 软件进行组装。如果是 hifi 测序,我们可以直接使用 bam 文件。对于常规建库(其实也就是普通ccs),那么需要先转换为 fastq 或者 fasta 文件。使用Pacbio 官方的 bam2fastx 软件。
**安装 bam2fastx **

conda config --add channels defaults
conda config --add channels bioconda
conda config --add channels conda-forge
conda install bam2fastx

bam文件转换为fasta格式

bam2fasta -o out.subreads.fasta in.subreads.bam 

使用 flye 组装基因组

由于运行时间较长,我们使用 tmux 软件,防止掉线。

tmux new -s assembly

安装 flye 软件

conda install flye

开始组装,使用 4 个线程

cd /home/qi_zheng/PacbioGenomeAssembly
flye --pacbio-raw out.subreads.fasta --out-dir flye_ressembly_results --threads 4

查看组装结果

ls -ahl flye_ressembly_results

评估组装结果

下载Quast软件(Python软件,无需安装)

cd ~
wget -c https://github.com/ablab/quast/releases/download/quast_5.1.0rc1/quast-5.1.0rc1.tar.gz
tar -zxvf quast-5.1.0rc1.tar.gz

对组装结果进行评估

python /home/qi_zheng/quast-5.1.0rc1/quast.py assembly.fasta -t 10 -o quast_evalucation_results

查看评估结果

cd quast_evalucation_results
ls -ahl 

生成report.html文件,在浏览器上打开,即可查看评估结果

html 文件中存在可交互元素,可以详细查看具体组装信息。

写在最后

整体上,仅仅是上述简单的操作。我个人觉得组装效果还挺不错,起码组装出约等于预期染色体数目的长度够大的contigs。详细还是需要做进一步分析,如与近源物种比较,才能更好确定是否有具体组装问题。当然,我对这个结果充满信心。

上一篇下一篇

猜你喜欢

热点阅读