用BWA-MEM比对ChIP-seq数据到基因组
2020-03-16 本文已影响0人
嗒嘀嗒嗒嘀嗒嘀嘀
20200315
- 诺禾致源给出的测序结果有两个,一个是测序结果原始文件
.raw.fq.gz
文件,一个是质控过滤raw reads得到的clean reads的.clean.fq.gz
文件。如果质疑公司的质控,可以自己尝试质控。 - 下载安装bwa,注意配置 .conda 文件
$ conda create -n bwa python=3.7
$ conda activate bwa
$ conda install bwa
- 建立基因组索引 → 比对到基因组
# bwa建立索引
bwa index csi.chromosome.fa
# bwa-mem比对到基因组上
bwa mem csi.chromosome.fa /root/workstation/chipcen3/basefile/Cen_BRRC190000161-1A/Cen_BRRC190000161-1A_1.clean.fq /root/workstation/chipcen3/basefile/Cen_BRRC190000161-1A/Cen_BRRC190000161-1A_2.clean.fq > cenh3.sam
bwa mem csi.chromosome.fa /root/workstation/chipcen3/basefile/input-1_BRRC190000175-1A/input-1_BRRC190000175-1A_1.clean.fq /root/workstation/chipcen3/basefile/input-1_BRRC190000175-1A/input-1_BRRC190000175-1A_2.clean.fq > input.sam
- 经历与教训
① 测序结果文件很大,40G根本不够。运行前可用df -h
命令查看储存余量;
② 程序挂起,登出。再登入,可用top
命令查看程序运行;
③ 用1个CPU,将12G的测序结果文件比对到318M的基因组文件,产生14G的结果文件,耗时4.87h;
④ bwa可一次将2个测序结果文件比对到基因组上;
⑤ 阿里云学生服务器仅40G储存,2GB内存,1CPU,真的是很小很小,不适合用于生信分析。集群式的服务器更适合。
20200316
- 于是乎在泽哥的帮助下连上了学校服务器,那叫个爽呢!
- 经历与教训
① 学校LSF集群上提交作业时直接用bsub < xxx.lsf 提交,不要用nohup挂起命令,这样会使作业进入排队。直接提交的作业退出登录后也在继续运行;
② 作业线程数≤3 最好(申请核数应该与程序跑的线程数相等),且不要用-m指定运行节点,这样不用排队,直接安排到服务器上可以运行的节点上运行;
③ 提交作业时 #BSUB -p normal会报错,删掉,不写了;
④ 有时候,某一个操作后,服务器输入任何命令都会报错,怪我参数太长 —— 目前还没有很好的解决办法,只有登出服务器,等一会儿再重新登入,好了。无奈... ...
⑤ 此外,学了一项新技能:用bypy工具将服务器上的数据直接上传到百度网盘。