生物信息分析中的reads是什么

2019-03-07 本文已影响0人潘高PG

前言

更多内容，请访问我的个人博客。

image
测序得到的原始图像数据经 base calling 转化为序列数据，我们称之为 raw data 或 raw reads ，结果以 fastq 文件格式存储， fastq 文件为用户得到的最原始文件，里面存储 reads 的序列以及 reads 的测序质量。在 fastq 格式文件中每个 read 由四行描述：

@read ID
TGGCGGAGGGATTTGAACCC
+
bbbbbbbbabbbbbbbbbbb

Single-end(SE)测序：1个fastq文件
Pair-end(PE)测序：2个fastq文件分别存放read1和read2的数据

每个序列共有4行，第1行和第3行是序列名称(有的 fq 文件为了节省存储空间会省略第三行“＋”后面的序列名称)；第2行是序列；第4行是序列的测序质量，每个字符对应第2行每个碱基，第4行每个字符对应的 ASCII 值减去64，即为该碱基的测序质量值，比如 h 对应的 ASCII 值为104，那么其对应的碱基质量值是40。
碱基质量值范围为0到40。下表为 Solexa 测序错误率与测序质量值简明对应关系，具体计算公式如下：

Q = -10 log10P

Solexa测序错误率与测序质量值简明对应关系:

image

生物信息分析中的reads是什么

前言

猜你喜欢

热点阅读