进一步判断正确性与可视化探索
判断依据:1.单个文件多数开头结尾重合,即断点一致。更进一步,由于在3‘ss截断,因此按FR方向的3'ss如果有大于两个的一致,可认为正确。同理可用于多文件判断
2.利用互补序列,如果另一条未分段匹配,且在环形内部,可认为正确。进一步,在多个开始结尾一致的序列中,如果其互补序列也在环内,则认为正确。有其twopair中,可以判断两条序列的起止位置是否一致。一致则更加可信。这时可看一下TLEN的特征。
IGV查看结果:
1不正确的还很多,该加什么限制条件以去除
首先,每一段都在intron内,不可能有一半在exon中。就只是以在intron中为限制条件
2标准的也确实存在。参考基因组反向,5‘位置与5‘ss重合,3‘位置离3‘ss有一定距离。
3A ? -2u不在
2又一个
想加入内含子位置信息
想写可视化工具
集成起来
或者将内含子信息当参考基因组
可视化的话以片段为主,不以参考基因组为主。
只用intron看:
3 4 6 8extron
0 7 99 3不同两条
6intron 看似没问题
取出的序列问题也不大
下一步用三种方式验证准确性
1.先取只在intron的序列
2.所有文件放一起,取聚集数大于两条的。且按单双分开,看与另一条的情况
3.分文件考虑,对单侧的,取另一条,看成环情况
简单说,想看位置重叠情况,不按序列
再看两段情况,这个按是否同一序列。
方法:1.取onepair 的另一端
2.取在intron位置的序列。写取intron的位置,再取在intron的序列。或者,将gff3作为参考基因组,把取出的序列比对上去。
找最简单的办法将比对在intron的序列取出。
如果采用两类不直接的办法:1.将sam和gff3都转为fa再取出比对为全M的。问题是即使得到了还得再取比对上的,非常麻烦。
2.取出gff3的位置信息,不转sam,在sam里找
感觉都比较麻烦。用index过的bam文件应该可以缩短时间?
如何直接取出位置信息并与intron位置比对?可否借助igv工具?
如果用sam文件和位置信息,使用建索引的方式对intron位置信息+二分法能否达到快速比对的目的?是否还有更高效的算法?
或者可以将intron作为参考基因组。
研究工具和算法:
pysam取重叠区域
gffread取序列、bedtools、gffcompare等研究。
找好的算法比对
同时尝试往intron比对的结果
感觉从sam比对有点复杂,不如直接在bwa的那一步将参考基因组换为intron序列,再从其中取特征序列,在igv中与intron的gff文件同时查看。
因此现在:取intron的fa,建索引,bwa,取特征序列。
这种的twopair会比较准确,而onepair需要从与全部参考基因组比对的sam里取。
现在两步:1.用intron再重复一次
2.取onepair的另一条。