基因组数据过滤、比对简介
2022-04-23 本文已影响0人
花生学生信
FastQ格式:
![](https://img.haomeiwen.com/i25274977/563256d40f2a427b.png)
(1)第一行以“@”开头,随后为Illumina测序标识别符(Sequence Identifiers)和描述文字(选择性部分);
(2)第二行是碱基序列;
(3)第三行以“+”开头,随后为Illumina测序标识别符(选择性部分);
(4)第四行是对应碱基的测序质量,该行中每个字符对应的ASCII值减去33,即为对应第二行碱基的测序质量值。
![](https://img.haomeiwen.com/i25274977/b07ac061a4f74250.png)
FASTA格式
![](https://img.haomeiwen.com/i25274977/3f49b611ed7ee661.png)
FASTA格式首先以大于号“>”开头,接着是序列的标识符,然后是序列的描述信息。换行后是序列信息,序列中允许空格、换行和空行,直到下一个大于号,表示该序列的结束。
有参转录组分析流程
![](https://img.haomeiwen.com/i25274977/95fa6e156907e75f.png)
过滤流程
![](https://img.haomeiwen.com/i25274977/6e5bcd098a589d3c.png)
cutadapt--去除接头污染
cutadapt –a/-g ADAPTER input.fq > output.fq
Trim PairEnd Reads:
cutadapt -a ADAPTER_FWD -A ADAPTER_REV -o out.1.fq -p out.2.fq reads.1.fq reads.2.fq
BWA比对
第一步: 建立 Index
bwa index [-p prefix] [-a algoType] <in.db.fasta>
-p 输出文件的前缀,默认是输入文件
-a 建库的算法,默认是is( bwtsw 是用于大基因组建库>2Gb,is是用于小基因组建库<2Gb)
例子:bwa index ref.fa
第二步: 比对
bwa mem [options] <idxbase> <in1.fq> [in2.fq]
bwa mem reference.fa read1.fq read2.fq > aln-pe.sam