探针寻找之旅(4)——拆分长探针,得到短探针
2020-03-20 本文已影响0人
嗒嘀嗒嗒嘀嗒嘀嘀
- 我们想要拆分杂交不具染色体特异性的长探针,得到染色体特异的短探针。
- 这是CsCen1/2以15bp可以完全匹配到基因组上的比对结果
CsCen1_Ident1.0Cover15bp
chr1: 6
chr2: 0
chr3: 14
chr4: 0
chr5: 1
chr6: 1
chr7: 0
chr8: 0
chr9: 0
chrUn: 68
total: 90
CsCen2_Ident1.0Cover15bp
chr1: 0
chr2: 0
chr3: 1
chr4: 0
chr5: 0
chr6: 0
chr7: 0
chr8: 0
chr9: 0
chrUn: 29
total: 30
-
由此猜测探针CsCen1、2 Fish染色的染色体可能是chr3
CsCen1 长度为35bp
CsCen2 长度为50bp
CsCen3 长度为37bp -
以探针每15bp为单位进行比对,查看一下NCBI blastn的默认参数,包括默认输出的最低长度、匹配最小单位。
想知道35bp序列中有几个15bp的片段,用这些15bp的片段比对到基因组,并统计情况。
因此想要写一个python脚本实现 由35bp的序列文件生成所有可能包含的的15bp片段序列。 -
将1k左右截短到50bp。探针不特异染色的原因可能是因为探针太长,其中包含多个重复序列。去掉长度低于50bp的三条序列CsCen1/2/3,比对得到Identity ≥ 80%的结果。
-
我们想要识别出每个染色体上结合的是该探针的哪一部分,于是上面说到的python脚本看起来是一个不错的解决办法。
$ cat copyNumId0.8Co50bp.txt
C5-1_Ident0.8Cover50bp
chr1: 4
chr2: 13
chr3: 0
chr4: 0
chr5: 37
chr6: 1
chr7: 3
chr8: 30
chr9: 0
chrUn: 288
total: 376
C7-1_Ident0.8Cover50bp
chr1: 6
chr2: 13
chr3: 0
chr4: 0
chr5: 23
chr6: 0
chr7: 2
chr8: 24
chr9: 1
chrUn: 253
total: 322
CiclevCL17_Ident0.8Cover50bp
chr1: 4
chr2: 9
chr3: 0
chr4: 0
chr5: 27
chr6: 1
chr7: 2
chr8: 18
chr9: 0
chrUn: 194
total: 255
CiclevCL1_Ident0.8Cover50bp
chr1: 0
chr2: 0
chr3: 0
chr4: 0
chr5: 1
chr6: 0
chr7: 0
chr8: 3
chr9: 0
chrUn: 315
total: 319
CiclevCL2_Ident0.8Cover50bp
chr1: 0
chr2: 1
chr3: 0
chr4: 0
chr5: 0
chr6: 0
chr7: 0
chr8: 1
chr9: 0
chrUn: 130
total: 132
CL-1_Ident0.8Cover50bp
chr1: 47
chr2: 23
chr3: 33
chr4: 87
chr5: 23
chr6: 11
chr7: 36
chr8: 16
chr9: 9
chrUn: 282
total: 567
CL-2_Ident0.8Cover50bp
chr1: 178
chr2: 48
chr3: 109
chr4: 71
chr5: 63
chr6: 65
chr7: 78
chr8: 19
chr9: 64
chrUn: 279
total: 974
CL-3_Ident0.8Cover50bp
chr1: 126
chr2: 12
chr3: 33
chr4: 67
chr5: 69
chr6: 35
chr7: 32
chr8: 142
chr9: 5
chrUn: 424
total: 945
CL-5_Ident0.8Cover50bp
chr1: 0
chr2: 0
chr3: 0
chr4: 184
chr5: 0
chr6: 0
chr7: 0
chr8: 0
chr9: 0
chrUn: 39
total: 223
CL_Ident0.8Cover50bp
chr1: 4
chr2: 1
chr3: 2
chr4: 4
chr5: 26
chr6: 0
chr7: 17
chr8: 4
chr9: 0
chrUn: 250
total: 308