学一个软件比如blat工具
初学者怎么样才能迅速学会一个软件呢,我的生信菜鸟团博客早期就是靠写软件说明书起家的,至少100+软件安装使用说明书。正好系统性整理一下初学者该如何学习一个新的软件,比如blat工具。
首先安装软件
首先谷歌找到这个教程:http://nix-bio.blogspot.com/2013/10/installing-blat-and-blast.html
从这里面找到blat的二进制可执程序下载地址(优先选择这样的软件安装方式)
mkdir blat
cd blat
wget http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/blat/blat
chmod a+x blat
./blat
这样程序就安装成功啦!
可以选择添加到环境变量,或者不添加。
比较网页版工具和命令行的区别
网页版:https://genome.ucsc.edu/cgi-bin/hgBlat 网页版用法通常是很人性化的,不太需要刻意学习,我们至少是知道这个blat工具主要是用来想参考基因组上面快速定位自己的序列的,所以选择参考基因组然后输入框粘贴自己的序列。
命令行用法参考:https://www.cnblogs.com/adawong/articles/7460300.html 还有原理。
#blat常见用法
#处理单个job
blat chr11.fa human/test.fa test.psl #输出不含序列
blat chr11.fa human/test.fa -out=pslx test.pslx #输出含序列
blat chr11.fa human/test.fa -out=blast test.blast #输出格式同NABI的blast格式
#并行处理多个jobs
time parallel blat chr{}.fa human/human.fa test_{}.psl ::: {1..22} X Y M
output是什么
可以继续看英文readme,也可以选择搜索中文教程。
比如我就从教程找到psl文件说明:http://blog.sina.com.cn/s/blog_165caa4fd0102wh36.html
psl - Default. Tab-separated format, no sequence
pslx - Tab-separated format with sequence
axt - blastz-associated axt format
maf - multiz-associated maf format
sim4 - similar to sim4 format
wublast - similar to wublast format
blast - similar to NCBI blast format
blast8- NCBI blast tabular format
blast9 - NCBI blast tabular format with comments
可供选择的格式非常多。
默认的输出结果是列表形式的文本文件,即psl格式。
psl格式的结果包含了详细的比对位置信息,每一列的意义都在文件开头列出。第18列是通体的比对统计,包括精确比对碱基数、错配、query和subject上的gap个数与gap总长等;第917列是比对位置信息,包括比对方向、query和subject的名字、长度、比对起止位置;18~21列是显示每一个精确比对的block的信息,包括blocks数、每个block的长度和在query、subject上的位置。
对psl输出结果,需要注意一下几点:
- 1.blat的结果在subject上允许存在很大的gap(intron区域),所以同一个结果在query和subjects上覆盖的区域可能会相差很多,这一点与blast不同。
- 2.在基因对基因组的比对中,block的个数不能等同于exon的个数。因为blat对block的定义是一个没有插入缺失的比对,任何插入或者缺失的碱基都会使一个block终止,所以一个exon很可能是有很多block构成的。因此exon和intron的个数要通过足够大的gap来判断。
- 3.psl结果里面碱基位置的计算是从0开始的而不是1.
做不同类型的比对时候需要注意一个问题,就是 “-t”和“-q”的定义必须为同一类型。比如database和query都是蛋白序列,并且两者同时定义为 “prot”的时候,比对能够正常进行;如果database是DNA序列而query序列是蛋白序列,那么在定义 “-q=prot”的同时还需要定义 “-tdnax”.下面就用同一个基因的DNA和蛋白序列举几个例子。