mate

2021-04-26  本文已影响0人  byejya

人类代码:python full_human_1_2.py -i /mnt/x110/wus/BP_new/BWA_mapping/dingh/SRR6999003_mapped.sam -f /mnt/x110/guosy/Database/hg19/samtools-index/hg19.fa -I /mnt/x110/wus/BP_new/BWA_mapping/dingh/hg38_intron_111 -o /mnt/x110/wus/BP_new/BWA_mapping/dingh/te

pysam的meta使用时需要sort并index,否则会报错,因此,两个文件都需要sort index,

1

查看类型,并不是迭代器,因此?如果一对多怎么办。检查。

1

新改之后可以出结果:

1

结果:

1

8个一样的

1

85 61 97 重复

检查原文件,发现不是mate的问题,原文件就有很多重复

1

grep发现确实很多

1 1

在往intron上比之前的比较准。

改成用比到intron之前的:

1

冗余的没有了

原文件:

1 1

能对的上

1

从exon取补集找intron,实际exon也有重叠。

awk,$0输出整条,$1才是第一个

1 2 1 1

awk -F '\t' '{ if (($5 - $4 + 1) == $19) print $0}' test_bedtools

1

做了个实例并用bedtools运行,因为bedtools取的不是完全在内而是只要有交集就行,因此还得过滤出最小的。

bedtools intersect -a test_SRR.gff -b test_genomic.gff -wo >test_bedtools

检查mate,用one_pair_but的

mate:

1

原sam:

1

结果的:

1

显然,一个跑出的结果对应一条mate结果,而每个mate结果都是145的,

另:用pysam写入:

不需要后期再加header,

结果

1 2

没区别,更方便

用法:

1

尝试:没此文件能否实现。

1

测试成功,只要给文件名即可,摒弃写入list再转存file的模式,出来的文件直接带有header。

在new上测试

python full_human_1_2.py -i /mnt/x110/wus/BP_new/BWA_mapping/dingh/SRR6999003_mapped.sam -f /mnt/x110/guosy/Database/hg19/samtools-index/hg19.fa  -o /mnt/x110/wus/BP_new/BWA_mapping/dingh/te/new_all

能一次性跑通,需要:分析结果

1

双端的,其中之一,解释器原理

1

首先不在exon

其次

1

用hg19应该没彩色线

1

彩线消失

特点,首尾一样齐

但是不是MHM,都是MS MH的类型

找到一个

1 1 1 1 1 0 1 1

mate

1 1

果然没去接头,因此出现HMH的状况。

经检查,有HMH的影响,multiple结果有干扰,如下:

1

26H可能就是接头

目前先从onepair和twopair中取可信的,twopair观察igv结果,如下:

1 1 1

36,92 =128

1 1

64 64 =128

结尾都是98 开头都是84,即使有同序列不同名的情况,只要方向不同但比对到的位置一致也能证明,有多个片段时更好的。需要看一下位置,看一下2个被错配的原因

双端的一条被选为mate也能处理,

再查看14209:结果很好

1 1
上一篇下一篇

猜你喜欢

热点阅读