fastq文件随机取样问题(适于大数据)

2020-10-10  本文已影响0人  想把生信学好的胡小慧

3M的reads是指3000000的read num

1G是指总的数据量

涉及到fastq文件(大约13个g)随机取样,看的文献用的seqkit,但我试了几次并没有取到3M的reads,输出的还是原来的文件,后来看了参数,seqkit的-n并不适用于大数据,数据太大就会输出全部的序列,然后我就在算覆盖度等问题,一直在找可替代软件或脚本,然后又尝试了seqtk(之前尝试过)并不是我想要的结果,特别奇怪,输入的是3M的reads,结果输出的只有一半,因为当时也快回来了,然后突然就想通了,我是双端测序,R1和R2加起来不就是3M的reads


看似简单,我却思考了两三个小时,算覆盖度,数据量,中间各种坑,走进了死胡同,还好要下班的时候走出来了,下午又在一直调试我新写的脚本,希望下周组装能提上日程

上一篇下一篇

猜你喜欢

热点阅读