作图

2021-06-25  本文已影响0人  byejya

先是集中数据

再1. vs intron 

2.+strand

3.vs mercer

与各个数据库做比对。

集中数据时需要把全部数据跑一下,先测试:

max正确

1

用错了,但是下面测试了,没问题,不放图了

1

vs ncbi

1

比完并去重

1

一个数据出来4w。。。而且一个取end一个取start肯定没重的,所以是uniq的问题,uniq只能对相邻的起作用,

1 1

检查max版本:

 1

数量上应该没错,去重也没去错。

1 1

好的消息是不管往没往intron上比对,这个的缩小并不少。起码说明使用ncbi的gff是对的。

1

坏消息是可能没法增多了

但是检查发现mercer的选值和我的不同,基本都是前一位的,尝试-1处理。纯为了数据+-1可以试试。

1 1

32 33 在-1的 情况下,只测试one pair:

1

之前+1的只有30有比较多。

再做整体的:32 33的也不多。

1 1

测试+-1

32:

1

33:

1

31

1

30

1

-1的情况,检查31:

1

30:

1

+-0检查: 

30

1

31

1

32

1

33

1

和exon intron比对

取exon:

1

取gbkey=mRNA的,

思路:1.同时和exon和intron比,取同时比对到的,看parent是不是同一个,指的是来自同一个转录本。

            2.对同是intron的,看有没有比对到多个intron且parent相同。

1

exon变bed暂时没问题,intron也没问题

1 1 1

和各个数据库比较:

1

仅仅算过滤出的结果,不去假阳性能得到的bp数:

1

加几乎全部的列得到的结果:

1

想测试sam和mercer坐标是否变化,但是随便打开一个发现这个是正常的,这个文件是:

1

是坐标-1的,但是取值没变,因此发现,确实是坐标有问题:

1
上一篇下一篇

猜你喜欢

热点阅读