fastq文件随机取样问题(适于大数据)

2020-10-10 本文已影响0人想把生信学好的胡小慧

3M的reads是指3000000的read num

1G是指总的数据量

涉及到fastq文件(大约13个g)随机取样，看的文献用的seqkit，但我试了几次并没有取到3M的reads，输出的还是原来的文件，后来看了参数，seqkit的-n并不适用于大数据，数据太大就会输出全部的序列，然后我就在算覆盖度等问题，一直在找可替代软件或脚本，然后又尝试了seqtk(之前尝试过)并不是我想要的结果，特别奇怪，输入的是3M的reads，结果输出的只有一半，因为当时也快回来了，然后突然就想通了，我是双端测序，R1和R2加起来不就是3M的reads

看似简单，我却思考了两三个小时，算覆盖度，数据量，中间各种坑，走进了死胡同，还好要下班的时候走出来了，下午又在一直调试我新写的脚本，希望下周组装能提上日程

fastq文件随机取样问题(适于大数据)

猜你喜欢

热点阅读