数据获取及处理

2020-07-10  本文已影响0人  嗒嘀嗒嗒嘀嗒嘀嘀

基因课FTP地址:ftp://http://gsx.genek.tv/2020-3-10%E7%9B%B4%E6%92%AD%E4%B8%80%E4%B8%AA%E5%AE%8C%E6%95%B4%E7%9A%84%E8%BD%AC%E5%BD%95%E7%BB%84%E9%A1%B9%E7%9B%AE/
听张旭东老师的课

数据下载

批量重命名文件名

$ ll
-rw-r--r-- 1 lyao CLChen  1.3G Jun 20 09:40 SRR2176358_RNA-seq_of_Kidds-D_8_fruit_skin_with_flesh_at_stage_I_Rep._II.fastq.gz
-rw-r--r-- 1 lyao CLChen  1.3G Jun 20 09:41 SRR2176359_RNA-seq_of_Kidds-D_8_fruit_skin_with_flesh_at_stage_I_Rep._III.fastq.gz

$ rename 's/SRR.*_RNA-seq_of_//' *.gz
# ".*"为正则表达式,通配符,将前面一长串改为空

PS 为什么我们的服务器rename就不行呢??????

数据质控、过滤

fastp -i -o -h -j -w
-h 生成网页版报告储存位置
-j 生成json格式报告储存位置
-w
fastp官网说明文档
默认两个线程
nohup ****** & —— 程序后台执行

参考基因组下载、处理

访问ftp地址一定不能翻墙

git clone 克隆链接
苹果参考基因组下载
git clone https://github.com/moold/Genome-data-of-Hanfu-apple.git

基因组注释文件有.gtf文件则选择.gtf文件,因为是最新注释文件,.gff/gff3文件较原始

样本信息表

问题

上一篇 下一篇

猜你喜欢

热点阅读