学一个软件比如blat工具

2018-12-21  本文已影响75人  因地制宜的生信达人

初学者怎么样才能迅速学会一个软件呢,我的生信菜鸟团博客早期就是靠写软件说明书起家的,至少100+软件安装使用说明书。正好系统性整理一下初学者该如何学习一个新的软件,比如blat工具。

首先安装软件

首先谷歌找到这个教程:http://nix-bio.blogspot.com/2013/10/installing-blat-and-blast.html

从这里面找到blat的二进制可执程序下载地址(优先选择这样的软件安装方式)

mkdir blat
cd blat
wget http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/blat/blat
chmod a+x blat
./blat

这样程序就安装成功啦!
可以选择添加到环境变量,或者不添加。

比较网页版工具和命令行的区别

网页版:https://genome.ucsc.edu/cgi-bin/hgBlat 网页版用法通常是很人性化的,不太需要刻意学习,我们至少是知道这个blat工具主要是用来想参考基因组上面快速定位自己的序列的,所以选择参考基因组然后输入框粘贴自己的序列。

命令行用法参考:https://www.cnblogs.com/adawong/articles/7460300.html 还有原理。

#blat常见用法
#处理单个job
blat chr11.fa human/test.fa test.psl #输出不含序列
blat chr11.fa human/test.fa -out=pslx test.pslx #输出含序列
blat chr11.fa human/test.fa -out=blast test.blast #输出格式同NABI的blast格式
#并行处理多个jobs
time parallel blat chr{}.fa human/human.fa test_{}.psl ::: {1..22} X Y M

output是什么

可以继续看英文readme,也可以选择搜索中文教程。
比如我就从教程找到psl文件说明:http://blog.sina.com.cn/s/blog_165caa4fd0102wh36.html

  psl - Default.  Tab-separated format, no sequence
                    pslx - Tab-separated format with sequence
                    axt - blastz-associated axt format
                    maf - multiz-associated maf format
                    sim4 - similar to sim4 format
                    wublast - similar to wublast format
                    blast - similar to NCBI blast format
                    blast8- NCBI blast tabular format
                    blast9 - NCBI blast tabular format with comments

可供选择的格式非常多。

默认的输出结果是列表形式的文本文件,即psl格式。

psl格式的结果包含了详细的比对位置信息,每一列的意义都在文件开头列出。第18列是通体的比对统计,包括精确比对碱基数、错配、query和subject上的gap个数与gap总长等;第917列是比对位置信息,包括比对方向、query和subject的名字、长度、比对起止位置;18~21列是显示每一个精确比对的block的信息,包括blocks数、每个block的长度和在query、subject上的位置。

对psl输出结果,需要注意一下几点:

做不同类型的比对时候需要注意一个问题,就是 “-t”和“-q”的定义必须为同一类型。比如database和query都是蛋白序列,并且两者同时定义为 “prot”的时候,比对能够正常进行;如果database是DNA序列而query序列是蛋白序列,那么在定义 “-q=prot”的同时还需要定义 “-tdnax”.下面就用同一个基因的DNA和蛋白序列举几个例子。

上一篇下一篇

猜你喜欢

热点阅读