你知道你的二代测序数据来自于哪个平台吗

2021-10-18 本文已影响0人生信师姐

转自：https://mp.weixin.qq.com/s/fCPkWa68mejERL7b9s9Mog

图片

准备上传数据时发现一个有趣的问题，自己不知道数据来自于哪个illumina的哪个测序平台，所以整理下如何根据FASTQ的标识行分析测序数据的来源

FASTQ格式文件中每个read由四行描述，如下：

@HWI-ST1327:30:C18RRACXX:8:1101:10939:1992  1:N:0:ACCAAT
AGGACCCGAAAGATGGTGATGGAATTCTCGGGTGCCAAGGAACTCCAGTC
+
DDFFFHHHHHJIIIJJHIHIJJJJIJIIJJJJDGHIJJJJIJJJJJJJIJ

其中illumina测序标识符和测序仪器线索相关的内容为就是第一行中 HWI-ST1327部分，用于说明来自于什么测序平台。

根据10X公司的脚本，illumina_instrument.py，整理出如下内容

测序仪器平台	编号
MiSeq	HWI-M
Genome Analyzer IIx	HWUSI
HiSeq 1500	HWI-C 或 C
Hiseq 2500	HWI-D 或 D
Hiseq 3000	J
HiSeq 3000 或 HiSeq 4000	K
HiSeq X	E
NextSeq	NB或NS
MiniSeq	MN
novaseq	DMXX

举几个例子：

@E00591:243:HLK2YCCXY:3:1101:4411:1608 1:N:0:AGCAGGAA 包含E，也就是HiSeq X平台，
@ST-E00314:132:HLCJTCCXX:6:2206:31213:47966 1:N:0 虽然开头是ST，但是后续跟着E，那么还是HiSeq X。

大部分情况都能解决问题，但是如果你遇到了@HISEQ:739:CCGERANXX:7:1101:9617:1309 1:N:0:NATCCGTC 这种编号的话，那么就得求助这里面的CCGERANXX这9个字符组成的FCID

还是根据illumina_instrument.py脚本里的内容，查询以C开头，ANXX结尾的是HiSeq 1500", "HiSeq 2000, HiSeq 2500，我们将范围缩减到了3个平台。同时我们还可以查询每个测序仪器的测序读长范围。

根据我整理的表格，至少能够区分250bp ，以及小于100bp的FASTQ数据来源。

测序仪型号	最长读长	数据量
HiSeq X	2 x 150 bp	1.6–1.8 Tb
NovaSeq 6000	2 x 150 bp	134–6000 Gb
HiSeq 4000	2 x 150 bp	125–1500 Gb
HiSeq 3000(过时,不用)	2 x 150 bp
HiSeq 2500	2 x 250bp	9 –1000Gb
HiSeq 2000	2 X 100 bp	36 - 200Gb
NextSeq	2x 150bp	20–120 Gb

考虑HiSeq 1500 基本不用，最后就只有2个选项，最后比较下每个读段长度，就能分析出具体的平台了

参考资料

https://github.com/10XGenomics/supernova/blob/master/tenkit/lib/python/tenkit/illumina_instrument.py
Illumina的仪器说明

你知道你的二代测序数据来自于哪个平台吗

猜你喜欢

热点阅读