生信基础知识tbtools生物知识

生信格式之fasta、fastq

2021-01-10  本文已影响0人  小贝学生信

要点一:fasta格式

1、目的

蛋白质序列与核酸(DNA/RNA)序列研究是生命科学的核心,前者的组成单位为20种氨基酸,后者则是核苷酸(DNA与RNA均有四种不同核苷酸);为了便于记录与研究,科学家们分别统一了二者组成单位的字母表示方法,具体如下图所示。

protein and amino acid
AA 核酸的组成

2、fasta

fasta格式较为简单,并且很容易理解。对于序列的header,一般无硬性要求,但是从NCBI等数据库下载的示例都有各自固定的命名方式,例如下图,则是经常遇到的以bar-separated NCBI sequence identifier。


image.png

要点二:fastq格式 ☆

1、目的

2、fastq

在fastq格式中,一般每段序列信息有4行组成

同样关于第一行header无硬性的要求,不过一般都参考主流测序平台illumina的记录方式,如下图所示。


illumina

值得注意的一点是在双端(PE)测序中,第一行除了表征pair number的1/2,其余description基本相同。不过一般分别储存在对应的两个fastq文件里。


image.png

3、关于Phred Quality

The Bustard module of the SolexaPipeline estimates qualities, or error probabilities, from the signal/noise ratio of each base. I usually terms it as raw quality. Gerald is able to calibrate qualities with the Phred algorithm when the alignment is available. This is calibrated quality.
We have already known that the trend of raw qualities is about right, which means bases with higher quality contains fewer sequencing errors. However, the absolute value of raw quality is not right. You may see one error out of 1000 bases with Q=40. When properly used, calibrated qualities can be much more accurate. I usually recommend to use calibrated qualities if possible.

小彩蛋


参考资料

上一篇 下一篇

猜你喜欢

热点阅读