取在intron内的sequence
2020-09-23 本文已影响0人
byejya
已经取出在intron的序列,并对在intron的序列取了meta序列
问题:1.meta序列似乎比较少
2.再细致一点
下一步:改igv使得更清晰

使用脚本:
seq_in_intron.py




仍需排除一些特殊情况:
1.这两个是同一条。



正好错开一位的,也需要拼接。
但突然想到

这种并非在3'ss 5'ss 的,可能是intron拼接导致的。或许不该拼接。

这样比较对?放大看:


比较正确。
2.落单的序列

5086,400位置不是intron。但有可能是intron的问题,所以,需要把落单的序列取出来重新验证。
3.(横向的两个是一组。)断点不一致,但起止位置一致。好结果


4.重叠。两个都是10762

下一步:去单,去重叠。
找配对
把其他文件全跑了
正确情况:

两个蓝的,start end一致,中间长度不一致。
因此,找到的另一条对应序列应该在intron中间。
问题:1.intron该不该合。
2.跨exon的是否能找到。
思路流程:
取特征序列 > 取在intron的特征序列>取对应部分> 改igv作图观察
目的:得到切实可靠的bpreads
取meta部分:

用法:
f=max.sam
fi=onr_pair
for i in fi:
mate = f.mate(i)


两条只看一条就行,因为是重复取的,没有去重。

结果上看是比较可靠的。


还是intron拼接太长的问题


