进一步判断正确性与可视化探索

2020-09-03  本文已影响0人  byejya

判断依据:1.单个文件多数开头结尾重合,即断点一致。更进一步,由于在3‘ss截断,因此按FR方向的3'ss如果有大于两个的一致,可认为正确。同理可用于多文件判断

                    2.利用互补序列,如果另一条未分段匹配,且在环形内部,可认为正确。进一步,在多个开始结尾一致的序列中,如果其互补序列也在环内,则认为正确。有其twopair中,可以判断两条序列的起止位置是否一致。一致则更加可信。这时可看一下TLEN的特征。

IGV查看结果:

1

不正确的还很多,该加什么限制条件以去除

首先,每一段都在intron内,不可能有一半在exon中。就只是以在intron中为限制条件

2

标准的也确实存在。参考基因组反向,5‘位置与5‘ss重合,3‘位置离3‘ss有一定距离。

3

A ? -2u不在

2

又一个

想加入内含子位置信息

想写可视化工具

集成起来

或者将内含子信息当参考基因组

可视化的话以片段为主,不以参考基因组为主。

只用intron看:

3 4 6 8

extron

0 7 99 3

不同两条

6

intron 看似没问题

取出的序列问题也不大

下一步用三种方式验证准确性

1.先取只在intron的序列

2.所有文件放一起,取聚集数大于两条的。且按单双分开,看与另一条的情况

3.分文件考虑,对单侧的,取另一条,看成环情况

简单说,想看位置重叠情况,不按序列

再看两段情况,这个按是否同一序列。

方法:1.取onepair 的另一端

2.取在intron位置的序列。写取intron的位置,再取在intron的序列。或者,将gff3作为参考基因组,把取出的序列比对上去。

找最简单的办法将比对在intron的序列取出。

如果采用两类不直接的办法:1.将sam和gff3都转为fa再取出比对为全M的。问题是即使得到了还得再取比对上的,非常麻烦。

2.取出gff3的位置信息,不转sam,在sam里找

感觉都比较麻烦。用index过的bam文件应该可以缩短时间?

如何直接取出位置信息并与intron位置比对?可否借助igv工具?

如果用sam文件和位置信息,使用建索引的方式对intron位置信息+二分法能否达到快速比对的目的?是否还有更高效的算法?

或者可以将intron作为参考基因组。

研究工具和算法:

pysam取重叠区域

gffread取序列、bedtools、gffcompare等研究。

找好的算法比对

同时尝试往intron比对的结果

感觉从sam比对有点复杂,不如直接在bwa的那一步将参考基因组换为intron序列,再从其中取特征序列,在igv中与intron的gff文件同时查看。

因此现在:取intron的fa,建索引,bwa,取特征序列。

这种的twopair会比较准确,而onepair需要从与全部参考基因组比对的sam里取。

现在两步:1.用intron再重复一次

2.取onepair的另一条。

上一篇 下一篇

猜你喜欢

热点阅读