转录组分析1 各种生信数据格式fq、fa、sam、bam等
sra和fq
1 sra或fq(fastq),都是测序格式的文件。通俗理解:sra是把双端测序的2个文件合成了1个,而fq文件是2个。因为后续很多分析仪fastq格式文件进行,所以一般下载下来sra都要转换为fastq(可以用软件fastq-dump)。
从ensmble上截的图,提供这2种格式的数据下载
fastq文件特点(以二代测序为例):
4行为1个单位,第一行是@开头的解释信息,第二行是序列reads,第三行+开头的信息,第四行是对应的测序质量ASCII码(我们经常听到的质控主要就是用软件对第四行的信息进行分析吧)
zcat或zless都可以查看fq.gz文件
sra文件没找到打开的,查看都是乱码
fa和gff、gtf
2 fa(fasta),粗略理解就是2行为一个单位,第一行是>开头的解释信息,第二行是序列reads。简单理解就是,fq文件是测序后直接得到的,而fa文件是用各种软件处理了fq文件后得到的。与fa文件配套的就是注释文件gtf/gff,注释文件给出了外显子、内含子、基因等的位置信息。gff主要用来注释基因组,gtf主要用来注释基因,2种文件格式可相互转换,有些软件规定了必须用某一种软件格式。
注释里的ID都是唯一的,如果来自Ensemble数据库:
ENS[species prefix][feature type prefix][a unique 11 digit number]
- ENS:都以这3个字母开头
- species prefix:物种前缀(如果是人的基因这部分就空缺,小鼠是MUS)
- feature type prefix:包括E(exon)、FM(Ensembl protein family)、G(gene)、GT(gene tree)、P(protein)、R(regulatory feature)、T(transcript)
- a unique 11 digit number:唯一的11位数的编码
sam和bam
SAM(the sequence alignment/Map format)和BAM,都是比对结果的文件,2者可以相互转换,bam的文件明显比sam小很多。那sam和bam文件分别有什么作用呢?sam文件可以直接less查看,但bam文件是二进制的,不能直接查看,可以用samtools view查看。
补充:ftp和http
我们从ensemble数据库下载文件时,有时网站是HTTP开头的,即Hyper Text Transfer Protocol,超文本传输协议;有时又是FTP开头的,即File Transfer Protocol,文件传输协议;网上搜索一下,简单说HTTP是面向网页的,而FTP是面向文件的。