RNA-seq

RNA-seq上游分析

2019-01-16  本文已影响0人  dandanwu90

count计数

  1. 注释基因下载
mkdir gtf && cd gtf
wget -c ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_29/gencode.v29.annotation.gtf.gz
  1. 全部比对
cd ~/project/rna/alignment
cat >fcount.sh
vim fcount.sh
featureCounts -T 2 -p -t exon -g gene_id -a /home/vip11/project/rna/gtf/gencode.v29.annotation.gtf.gz -o ~/all.id.txt  *.bam
nohup bash fcount.sh &
  1. 生成表查看
multiqc all.id.txt.summary

file:///private/var/folders/5w/58ldv1kn7tn2n0_n8jq8w9840000gn/T/fz3temp-2/multiqc_report.html/#featurecounts

salmon fastq到差异分析

  1. 下载cdna数据构建索引,存储路径 /home/vip11/project/rna/gtf/
wget -c ftp://ftp.ensembl.org/pub/release-95/fasta/homo_sapiens/cdna/Homo_sapiens.GRCh38.cdna.all.fa.gz
  1. 建立路径及索引
mkdir salmon && cd salmon
salmon index -t /home/vip11/project/rna/gtf/Homo_sapiens.GRCh38.cdna.all.fa.gz -i hg38_index

reads 计数

index=“/home/vip11/project/rna/salmon/hg38_index”
cat /home/vip11/project/rna/SRR_Acc_List.txt |while read sample
do
echo "Processin sample ${sample}"
salmon quant -i $index -l A -1 /home/vip11/project/rna/clean/${sample}_1_val_1.fq.gz -2 /home/vip11/project/rna/clean/${sample}_2_val_2.fq.gz -p 2 -o ${sample}_quant 1>/home/vip11/project/rna/salmon/${sample}.salmon.log 2>&1
done


未整理,自行忽略
查看基因和转录本之间的对应关系,需要用注释包gencode.v29.annotation.gtf.gz 得到的salmon 结果没有整合
zcat gencode.v29.annotation.gtf.gz |less -SN #查看之后发现有以#开头的表头
所以去掉表头
zcat gencode.v29.annotation.gtf.gz | grep -v "^#"|awk '{if (3=='trnascript')print12"\t"$10}'|sed 's/;//g'|sed 's/"//g' >hg38_tx2gene.txt

zcat gencode.v29.annotation.gtf.gz |grep -v "^#"|awk '{if(3=="transcrit")print 12"/t"10}'|head

id 为ls输出额结果,作为一个变量
top临时节点

nohup 在外面的时候
ps -ef | grep vip11 查看节点上所有的任务, kill PID只杀掉一个任务,若是循环,kill -9 PID(bash.sh)

循环报错,在前面加一个echo

第0个表示是第一个的下标

nohup在循环里面的时候
ps -ef |grep qmcui|grep python|awk '{print 2}'|while read id, do killid;done

日志信息
1来补货正确信息,不显示在屏幕,
2捕获错误信息,不输出在屏幕
将1和2同时输出到一个.log日志里面1>*.log 2>&1

salmon 从fastq到差异分析 省去比对过程。

不同软件的index
没有排序的未见
ls *.sam |while read id;do (samtools sort -O bam -@ 2 -o (basename{id} ".sam").bam ${id});done

检查文件是否完整要进行校验, md5sum ‘filename’

ls *sra|while read id;do echo $id;echo "1111";echo "4444";done

上一篇下一篇

猜你喜欢

热点阅读