WGS实战篇

WGS实战分析(四)----Shutdown in progre

2018-11-25  本文已影响5人  liu_ll

接着上一篇讲,已经完成了samtools的sort操作,得到了sorted.bam文件。接下来可以用picard MarkDuplicates进行标记并且可以去除这些duplication。
这一步的目的是为了去除在PCR中的重复read,这一步会生成2个文件,一个是dedup.bam文件,另一个是dedup.metrics文件,这个metrics文件里面包含了duplication的一些统计信息。(用GATK调用的原理也是一样的,GATK也会调用Picard进行去标记重复)
基本的用法:

java -jar $picard MarkDuplicates \ 
    INPUT=sorted_sample1.bam \ 
    OUTPUT=dedup_sample1.bam \
    METRICS_FILE=metrics_sample1.txt
   java -jar $gatk MarkDuplicates\
       -I sample1.sorted.bam
       -O sample1.rmdup.bam
       -M metrics_sample1.txt

但是在这一步的时候就开始出现各种奇怪的bug.


error.log信息

这个shudown in progress 的错误真的很奇怪,起初以为是大型机抽风了,但是程序重跑了几遍之后,还是一样的结果。Picard都自动的停了,所以开始往回头倒腾哪一步出错了。
在和大神沟通了之后,发现一个很致命的问题,就是参考基因组的index的出现了问题,因为index的排序不对导致后续的文件会出错!!!!!


hg38.fa.fai的信息
之前我建立的index并没有从chr1开始,而是直接是chr10所以,index的错误导致我这几天跑的数据得重新跑一遍,期待这次的可以成功!
上一篇下一篇

猜你喜欢

热点阅读