rna_seq

RNASeq实战练习-软件安装及数据下载

2021-08-12  本文已影响0人  小小白的jotter

软件安装

新建 rnaseq 分析环境

conda env list
conda create -n rnaseq -y

安装软件

# 激活rnaseq分析环境
conda activate rnaseq

# 安装所需的软件
conda install -c biobuilds sra-tools -y
conda install -c hcc aspera-cli -y
conda install -c bioconda gffread -y
conda install -c bioconda trim-galore -y
conda install -c bird fastqc -y
conda install -c bioconda multiqc -y
conda install -c bioconda hisat2 -y
conda install -c bioconda samtools -y
conda install -c bioconda subread -y

有时候用 conda 直接搜索搜索不到,可以百度 conda 软件名查找安装方式

image-20210812140243741

转录组数据下载

实战使用数据NCBI登录号:PRJNA480638。

惨痛教训,刚开始不懂做练习的时候最好用别人已经做过没有问题的数据,不然中间有哪一步出问题根本不知道是自己参数设置不对,还是下载的数据有问题。。。

下载方式一:sra数据下载

NCBI搜索登录号:PRJNA480638,勾选搜索结果,下载包含转录组数据下载地址的 excel 文件

image-20210729132012168

打开下载的 excel 文件找到下载文件路径在 Windows 中下载

image-20210729132358193

winscp 将 SRA 数据上传到服务器 /home/jiamj/analysis/raw 目录下

image-20210730100951072

fastq-dump 将 sra 文件转换为 fastq 格式

转录组(三):了解 fastq 测序数据:https://www.cnblogs.com/fhn7/articles/12355025.html

#确认是否在rnaseq分析环境中,否则激活
conda activate rnaseq

# 进入到存放文件的目录
cd /home/jiamj/analysis/raw

批量将sra文件转换为fastq格式
for i in 39 40 41 42 43 44 
do
fastq-dump --gzip --split-3 -O /home/jiamj/analysis/raw SRR75089${i}.1
done

下载方式二:aspera下载数据(使用)

后续分析用的是该方式下载的数据。

ENA 数据库: https://www.ebi.ac.uk/ena/browser/home

ENA 数据库输入 PRJNA480638 搜索

image-20210729160707100

输入登录号查找,选择自己想要的信息。可以看物种分组和文件大小

image-20210729161423432

点击 TSV 下载,filereport_read_run_PRJNA480638_tsv.txt

image-20210729161954989

将 fastq_aspera 整理成下面的文件,命名为 aspera_download.txt

image-20210729171223341

winSCP 将这 aspera_download.txt 上传到服务器 /home/jiamj/analysis/rnadata 目录下

Aspera下载安装使用:https://www.jianshu.com/p/fed19a8821eb

Aspera工具安装与使用:https://www.jianshu.com/p/a6ac81456c01

# 先看看 rnaseq 环境激活没有,没有激活就激活分析环境
# conda activate rnaseq 
# 查看是否安装成功
ascp -h
# 查找密钥
which ascp
image-20210729173258753

binbin后面的内容换成etc/asperaweb_id_dsa.openssh即为密钥地址

/home/jiamj/miniconda3/envs/rnaseq/etc/asperaweb_id_dsa.openssh
参数 说明
-l 最大传输速率
-i 密钥地址,/home/jiamj/miniconda3/envs/rnaseq/etc/asperaweb_id_dsa.openssh,用conda安装可以看上面操作
-P 提供SSH port,一般是33001
-Q Enable fair transfer policy
-k 断点续传,一般设置为1
-T 取消加密

批量下载

ascp -k 1 -QT -l 100m -P33001 -i /home/jiamj/miniconda3/envs/rnaseq/etc/asperaweb_id_dsa.openssh --mode recv --host fasp.sra.ebi.ac.uk --user era-fasp --file-list aspera_download.txt . 
# .表示当前文件夹

数据完整性检验

windows 将 filereport_read_run_PRJNA480638_tsv.txt 中的 fastq_md5 整理出来记为 md5.txt

image-20210729175527689

将这个文件上传到服务器 /home/jiamj/analysis/rnadata 目录

md5sum -c md5.txt进行数据检查的时候会报错,因为在 Windows 系统下编辑的文件,换行符回车的格式为 ’\r\n’,在 linux 系统下,回车的格式为 ’\n’,在 Windows 下编辑的文本文件在上传至 linux 服务器时,回车 ’\r\n’ 就显示成 ^M+’\n’

问题解决_md5sum检验提示没有该文件 https://blog.csdn.net/mudong0052/article/details/108931285

sed 's/\r//g' md5.txt | md5sum -c -
image-20210730100902652

参考基因组下载

ensembl plant 数据库,点击进去拟南芥的链接

image-20210702161500551

点进上图红框,右键复制所要下载文件的地址链接地址

# 在analysis目录下创建一个ref文件夹存放参考基因组文件
mkdir ref

#进入ref目录下
cd ref

#下载
wget -c ftp://ftp.ensemblgenomes.org/pub/plants/release-51/fasta/arabidopsis_thaliana/dna/Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz
wget -c ftp://ftp.ensemblgenomes.org/pub/plants/release-51/gff3/arabidopsis_thaliana/Arabidopsis_thaliana.TAIR10.51.gff3.gz

# 解压缩
gunzip *.gz
image-20210812141412669
上一篇下一篇

猜你喜欢

热点阅读