作图
2021-06-25 本文已影响0人
byejya
先是集中数据
再1. vs intron
2.+strand
3.vs mercer
与各个数据库做比对。
集中数据时需要把全部数据跑一下,先测试:
max正确
![](https://img.haomeiwen.com/i18429961/76723f95b566464a.png)
用错了,但是下面测试了,没问题,不放图了
![](https://img.haomeiwen.com/i18429961/97b7762caefc498a.png)
vs ncbi
![](https://img.haomeiwen.com/i18429961/3010a89f5df0ab4c.png)
比完并去重
![](https://img.haomeiwen.com/i18429961/937283c97dc88593.png)
一个数据出来4w。。。而且一个取end一个取start肯定没重的,所以是uniq的问题,uniq只能对相邻的起作用,
![](https://img.haomeiwen.com/i18429961/6f93c3ae35ed5abe.png)
![](https://img.haomeiwen.com/i18429961/ab6fd61ee533d10e.png)
检查max版本:
![](https://img.haomeiwen.com/i18429961/c90ec4fb8de26ebb.png)
数量上应该没错,去重也没去错。
![](https://img.haomeiwen.com/i18429961/798ab8abc511ad03.png)
![](https://img.haomeiwen.com/i18429961/63c8869c7598d51b.png)
好的消息是不管往没往intron上比对,这个的缩小并不少。起码说明使用ncbi的gff是对的。
![](https://img.haomeiwen.com/i18429961/42fa075b86eeee92.png)
坏消息是可能没法增多了
但是检查发现mercer的选值和我的不同,基本都是前一位的,尝试-1处理。纯为了数据+-1可以试试。
![](https://img.haomeiwen.com/i18429961/2ff59f8533840f62.png)
![](https://img.haomeiwen.com/i18429961/656a0bd8d7be5857.png)
32 33 在-1的 情况下,只测试one pair:
![](https://img.haomeiwen.com/i18429961/2a904c9f1e5e2134.png)
之前+1的只有30有比较多。
再做整体的:32 33的也不多。
![](https://img.haomeiwen.com/i18429961/1947488b4a2991cd.png)
![](https://img.haomeiwen.com/i18429961/2ea79cc0c45a64ab.png)
测试+-1
32:
![](https://img.haomeiwen.com/i18429961/c87491c85c3ae84e.png)
33:
![](https://img.haomeiwen.com/i18429961/8f2ea5be2ba0c6e1.png)
31
![](https://img.haomeiwen.com/i18429961/69f3882ab7fdca24.png)
30
![](https://img.haomeiwen.com/i18429961/9f6aa54ebfab8966.png)
-1的情况,检查31:
![](https://img.haomeiwen.com/i18429961/b9e23e396f8cc9f9.png)
30:
![](https://img.haomeiwen.com/i18429961/bd51b4927318b2f0.png)
+-0检查:
30
![](https://img.haomeiwen.com/i18429961/1eebca2b8031dac7.png)
31
![](https://img.haomeiwen.com/i18429961/fe5bd585986109b8.png)
32
![](https://img.haomeiwen.com/i18429961/920751882c74543d.png)
33
![](https://img.haomeiwen.com/i18429961/6da8876d7bb97c94.png)
和exon intron比对
取exon:
![](https://img.haomeiwen.com/i18429961/9febfab3d4b3beb3.png)
取gbkey=mRNA的,
思路:1.同时和exon和intron比,取同时比对到的,看parent是不是同一个,指的是来自同一个转录本。
2.对同是intron的,看有没有比对到多个intron且parent相同。
![](https://img.haomeiwen.com/i18429961/e227d6162244c772.png)
exon变bed暂时没问题,intron也没问题
![](https://img.haomeiwen.com/i18429961/3815c8fadaa7e398.png)
![](https://img.haomeiwen.com/i18429961/841b7c918317ac8d.png)
![](https://img.haomeiwen.com/i18429961/e7a76a37a01f2e4f.png)
和各个数据库比较:
![](https://img.haomeiwen.com/i18429961/b7d1a1bf78ae92a8.png)
仅仅算过滤出的结果,不去假阳性能得到的bp数:
![](https://img.haomeiwen.com/i18429961/3b3c965477cfa1cb.png)
加几乎全部的列得到的结果:
![](https://img.haomeiwen.com/i18429961/dfcf6b4ea992d2b7.png)
想测试sam和mercer坐标是否变化,但是随便打开一个发现这个是正常的,这个文件是:
![](https://img.haomeiwen.com/i18429961/971e8dad2e3cea96.png)
是坐标-1的,但是取值没变,因此发现,确实是坐标有问题:
![](https://img.haomeiwen.com/i18429961/4ae8c7d7168d5989.png)