Bioinformatics入门实战精通大百科Bio-Information

生物信息-测序数据的获取、 格式转换和质控

2018-12-19  本文已影响446人  Lillian李李安

一,下载软件Aspera

1.Windows下载:浏览器直接搜索Aspera-connect下载浏览器插件。
2.Ubuntu下载:

1.下载Aspera-connec:wget https://download.asperasoft.com/download/sw/connect/3.6.2/aspera-connect-3.6.2.117442-linux-64.tar.gz 
2.解压缩:tar zvxf aspera-connect-3.6.2.117442-linux-64.tar.gz
3.运行:sh aspera-connect-3.6.2.117442-linux-64.sh
(此时在home目录下会生成 `.aspera` 的隐藏文件,使用 ls -a 命令可查看)
4.添加环境变量:echo 'export PATH=~/.aspera/connect/bin:$PATH' >>~/.bashrc
5.使其生效:source ~/.bashrc
6.拷贝秘钥文件:cp ~/.aspera/connect/etc/asperaweb_id_dsa.openssh ~/
7.拷贝协议文件:sudo cp ~/.aspera/connect/etc/aspera-license /usr/local/bin/
  1. -T ---- 取消加密。若不添加此参数,可能会下载不了。 
  2. -i ---- 输入私钥,一般不要少。安装 aspera 后在目录 ~/.aspera/connect/etc/ 下有几个私钥, 使用 linux 服务器的时候一般使用 asperaweb_id_dsa.openssh 文件作为私钥。 
  3. -l string ----- 设置最大传输速度,比如设置为 200M 则表示最大传输速度为 200m/s。 若不设置该参数,则一般可达到10m/s的速度,而设置了,传输速度可以更高。
  4. -k ---- 断点续传 ,一般设置为1
  5. -v ---- 可以实时知道程序在做什么,方便查错
  6. -Q --- 一般加上吧
  7. --host=string --- ftp的host名,NCBI的为ftp-private.ncbi.nlm.nih.gov;EBI的为 fasp.sra.ebi.ac.uk。 
  8. --user=string --- 用户名,NCBI的为anonftp,EBI的为era-fasp。 
  9. --mode=string --- 选择模式,上传为 send,下载为 recv。 
  10. --file-list --- 批量下载SRA文件的路径

二,在SRA数据库中下载数据

1、使用Aspera获取单个SRA数据:

  1. 首先知道SRA数据库数据的存放地址是ftp-private.ncbi.nlm.nih.gov,使用时加上ftp://或者http://,SRA在Aspera的用户名是anonftp
  2. 通过输入上述链接(这是已知accession no.的情况下可以直接查找,不知道accession no.的可以去SRA主页查找)然后逐步定位到需要查找的accession no,获得链接。
  3. 以 SRR6208854为例,可以得到链接ftp://ftp.ncbi.nlm.nih.gov/sra/srainstant/reads/ByRun/sra/SRR/SRR620/SRR6208854/SRR6208854.sra
    ftp://ftp.ncbi.nlm.nih.gov改为anonftp@ftp-private.ncbi.nlm.nih.gov:/注意不要少了:
  4. 完整代码如下:
ascp -v -i ~/.aspera/connect/etc/asperaweb_id _dsa.openssh -T -k 1 -l 200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/srainstant/reads/ByRun/sra/SRR/SRR620/SRR62088 54/SRR6208854.sra ./ 

2、使用Aspera批量下载SRA数据

1. 输入vi sra_list.txt 或 nano sra_list.txt 
2. 输入下载链接,并保存,例如/sra/srainstant/reads/ByRun/sra/SRR/SRR623/SRR6232298/ SRR6232298.sra h和/sra/srainstant/reads/ByRun/sra/SRR/SRR623/SRR6232299/ SRR6232299.sra 
3. 运行:ascp -T -i  ~/.aspera/connect/etc/asperaweb_id_ds a.openssh -k 1 -l 200m --mode recv --host ftpprivate.ncbi.nlm.nih.gov --user anonftp --filelist ./sra_list.txt ./ 

三、sra toolkit的下载和使用

1. 下载:wget https://ftptrace.ncbi.nlm.nih.gov/sra/sdk/2.9.2/sratoolkit.2.9.2ubuntu64.tar.gz  
不清楚版本可将 2.9.2 替换成 current 。
2. 解压缩:tar zvxf sratoolkit.2.9.2-ubuntu64.tar.gz -C ~/Biosofts/  解压缩到指定目录
3. 添加环境变量:echo 'export PATH=~/Biosofts/sratoolkit.2.9.2ubuntu64/bin:$PATH'  >> ~/.bashrc 
4. 使其生效:source ~/.bashrc
5. 检查: prefetch -h

3.1、使用Prefetch下载sra文件

以 SRR6232298为例

prefetch SRR6232298

软件会自动建立~/ncbi/public/sra文件夹,sra文件

3.2、使用fastq-dump,将SRA文件解压为fastq

  1. 第一行由'@'开始,后面跟着序列的描述信息,这点跟fasta格式是一样的。
  2. 第二行是序列。
  3. 第三行由'+'开始,后面也可以跟着序列的描述信息。
  4. 第四行是第二行序列的质量评价字符数跟第二行的序列是相等的。
拆包文件:fastq-dump --split-files SRR6232298.sra 

还可以压缩为gzip文件,节省空间:

fastq-dump --gzip --split-files SRR6232298.sra 
#!/bin/sh 
for i in *sra
do 
echo $i 
fastq-dump --gzip --split-files $i 
done 

四,NGS介绍

  1. 二代测序技术(NGS--next generation sequencing):也叫下一代测序技术,相较于第一代测序技术测序通量提高了不少。基本原理是边合成边测序,在Sanger测序方法的基础上,通过技术创新,用不同颜色的荧光标记四种不同的dNTP,当DNA聚合酶合成时,每添加一种dNTP就会释放出不同的荧光,根据捕捉的荧光信号并经过特定的计算机软件处理,从而获得待测DNA的序列信息。
    其中illumina的测序,可以有single end和paired end两种,分别从一端和两端进行测序。具体情况可以查看www.bio-info-trainee.com/298.html这篇文章
  2. 基本概念介绍:
  1. 基本流程介绍:
  1. 测序读长短的原因:
  1. 质量评分:
    指的是一个碱基的错误概率的对数值。
    为了便于序列存储,通常采用单字符来标示序列的质量值。其质量得分与错误概率的对应关系见下表
Quality Score Probability of incorrect base call Base call accuracy
10 1 in 10 90%
20 1 in 100 99%
30 1 in 1000 99.9 %
40 1 in 10000 99.99 %
50 1 in 100000 99.999 %

把这个Quality value加上33或者64转成一个新 的数值,称为Phred,最后把Phred用对应的 ASCII字符表示。

五、质控:

5.1安装Java

  1. 下载jdk8
  1. 登录linux系统,进到usr目录下建立Java目录
sudo mkdir  java (要先进入usr目录)
  1. 解压缩
1. cp /mnt/hgfs/linux/jdk-8u60-linux-x64.tar.gz /usr/java/
2. tar -zxvf jdk-8u60-linux-x64.tar.gz

*一种方法是直接解压缩,使用参数

 sudo  tar -zvxf  ~/sf_Linux/Biosoft/jdk-8u172-linux-x64.tar.gz -C /usr/java/  
 (注意路径要根据情况变化)
  1. 进入/uer/java/目录(注意:可能使用ls命令找不到Java目录,可以尝试使用find命令查找,如find -name java,然后进去的时候输入相应路径就可以)
sudo cd /usr/java(路径可能会有不同) 
  1. 建立链接,节省目录长度
sudo ln -s jdk1.8.0_172   latest 
sudo ln -s /usr/java/latest  default  
  1. 加入环境变量
sudo vi /etc/profile  
末尾加上如下几行  
export JAVA_HOME=/usr/java/latest  
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH  
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar 

安装Java可以查看这篇文章:https://www.cnblogs.com/zeze/p/5902124.html

  1. 使其生效
source /etc/profile  
  1. 检查
java -version 

当出现以下情况时说明安装成功:

java version "1.8.0_60"
Java(TM) SE Runtime Environment (build 1.8.0_60-b27)
Java HotSpot(TM) Client VM (build 25.60-b23, mixed mode)

如果没有出现,可能是因为没有安装default,按照屏幕上的命令安装default就可以了,然后在执行Java-version就行了。

5.2 安装FastQC

5.2.1 安装--按照下列步骤一步步操作

1. 下载:wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/f astqc_v0.11.7.zip 
2. 解压到目录下:unzip ~/Biosofts/fastqc_v0.11.7.zip -d ~/Biosofts/  (注意,路径会有所不同) 
4. 检查是否解压成功:~/Biosofts/FastQC/fastqc  -h 
5. 加入环境变量:echo 'export PATH=~/Biosofts/FastQC:$PATH'  >>~/.bashrc 
6. 使其生效:source ~/.bashrc 
7. 检查:fastqc -h 

其实也可以直接使用sudo apt-get install fastqc直接下载。

5.2.2 使用:

可以看这篇文章:https://zhuanlan.zhihu.com/p/20731723

*使用格式:fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN

  1. -o --outdir FastQC生成的报告文件的储存路径,生成的报告的文件名是根据输入来定的
  2. --extract 生成的报告默认会打包成1个压缩文件,使用这个参数是让程序不打包
  3. -t --threads 选择程序运行的线程数,每个线程会占用250MB内存,越多越快
  4. -c --contaminants 污染物选项,输入的是一个文件,格式是Name [Tab] Sequence,里面是可能的污染序列,如果有这个选项,FastQC会在计算时候评估污染的情况,并在统计的时候进行分析,一般用不到
  5. -a --adapters 也是输入一个文件,文件的格式Name [Tab] Sequence,储存的是测序的adpater序列信息,如果不输入,目前版本的FastQC就按照通用引物来评估序列时候有adapter的残留
  6. -q --quiet 安静运行模式,一般不选这个选项的时候,程序会实时报告运行的状况。
1.直接分析: fastqc Akle_TTAGGC_L004_R2_001.fastq.gz 

2.会生成两个文件,后缀名分别为.html 和.zip

将.html文件传到Windows上查看,可以得到图表化的fastqc报告

5.3数据过滤

5.2.1 Trimmomatic的使用:
1. 下载: –wget http://www.usadellab.org/cms/uploads/supplementary/ Trimmomatic/Trimmomatic-0.38.zip 
2. 安装: –unzip Trimmomatic-0.38.zip -d ~/Biosofts/Trimmomatic038/ 
3. 运行: –java -jar ~/Biosofts/Trimmomatic038/Trimmomatic0.38/trimmomatic-0.38.jar 

具体用法可以参考这篇文章:https://www.jianshu.com/p/a8935adebaae

5.2.2 Seqtk 安装与下载
sudo apt-get install seqtk 

上面这个命令我执行了没用,但是出现了sudo apt autoremove,我去查了一下资料,发现不要乱使用这个命令,不然系统会删掉很多软件。
然后,我去浏览器直接下载了软件,链接为http://github.com/lh3/seqtk,接着去解压缩,命令为unzip seqtk-master.zip

上一篇下一篇

猜你喜欢

热点阅读