小白生信入门NGS

【基因课】测序数据过滤和质控

2018-10-24  本文已影响118人  猪猪头看世界

1. 课程大纲

2. 学习笔记

2.1 基础知识

2.1.1 测序原理
2.1.2 fastq数据格式
2.1.3 碱基质量体系
2.1.4 下载数据资料

git clone 网址(在对应文件夹下载,可下载至当前文件夹)

2.2 数据质控

2.2.1 md5:数据完整性校验
2.2.2 安装FastQC
wget miniconda website #官网下载对应版本miniconda
sh 文件名 # yes下来安装
conda source ~/.bashrc #将conda添加至环境变量PATH
conda install 软件名 #后续可用此命令安装常用生信软件
conda config --add channels bioconda #配置channel
which 软件名 # 查看文件安装位置
conda install bwa = 0.7.12 #安装特定版本软件
conda search bwa #查看所有版本,*为已有版本
conda list # 查看已安装情况
conda update 软件名 # 软件升级
conda remove 软件名 #软件卸载
conda install fastqc # 安装
fastqc #查看是否安装好
which fastqc #查看安装位置
wget 网址 #手动安装下载文件
unzip 文件名 # 解压文件
fastqc为java文件,可直接使用,仅需修改权限
chmod a+x
2.2.3 使用FastQC进行质控
fastqc -help #查看帮助文档
fastqc 文件名 #简单的质控方法,默认结果输出至当前目录,输出结果包含html文件和一个zip压缩文件
fastqc -o ./ #设置存储位置,当前位置
fastqc --nogroup # 不设分组
vi qc.sh
sh qc.sh
fastqc test.1.fastq & test.2.fastq # &符号可同时运行两个文件,不分先后
nohup fastqc -o ./ -- nogroup test.1.fastq & test.2.fastq # nohup 用于后台运行,只需要远程服务器连接状态即可
ls ../raw_data/raw_data/*.fastq.gz | xargs -i echo nohup fastqc -o ./ -- nogroup {} \& >fastqc.sh #列出所有质控文件,命令通道,按行处理,对每行执行fastqc和输出,将结果存档于fastqc文件
less nohup.out # 通过日志查看运行状态

2.3 Fastqc结果解读

2.3.1 数据常见问题
2.3.2 数据的基本信息
2.3.3 数据质量如何
2.3.4 AT是否相等
2.3.5 Sequence Duplication
2.3.6 序列是否有污染

2.4 数据过滤

2.4.1 过滤软件哪家强
2.4.2 安装Trimmomatic
2.4.3 使用trimmomatic过滤数据
java -jar trimmomatic-0.35.jar \ #注意写好文件所在绝对路径
PE \ #pair end
-phred33 \ #此处可省略
input_forward.fq.gz input_reverse.fq.gz \ #输入文件名
output_forward_paired.fq.gz output_forward_unpaired.fq.gz output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz \ #输出文件名,一般四个
ILLUMINACLIP:adapter绝对路径/TruSeq3-PE.fa:2:30:10 \ #利用overexpresented数据确定adapter类型,Trueseq2 orTrueseq 3,去除adapter和primer等
LEADING:3 \ #去头,5’端低质量碱基
TRAILING:3 \ #去尾,3’端低质量碱基
SLIDINGWINDOW:4:15 \ #4个为单位的划窗,质量值小于15的去掉
MAXIINFO:60:0.2 # reads长度和质量的平衡
CROP/HEADCROP:100 \ # 最多保留N个碱基长度
MINLEN:36

3. 学习小结

上一篇下一篇

猜你喜欢

热点阅读