去SNP

2021-06-25  本文已影响0人  byejya

GRCH37 是NCBI的编号 而hg19是ucsc的编号

更新到v7已经新增时间计算,并检查了输出结果,之后的v8不再输出SNP的信息

1

下一次更新的v9针对读取SNP过于耗时的问题,

新增支持输入多个文件名,或者文件名列表。

新增:对每个文件比对结果的计时和对总时长的计时

新增--nonamecheck功能,其实就是对长,按_或者-截取,对短的增补chr

1

输入参数设计:

-i 输入文件

-o 输出文件名,不写则使用输入文件名+后缀的形式

--input_file_list 输入文件名列表

--output_file_list 输出文件名列表,不写则使用输入文件名+后缀的形式

--snp clear_snp文件

usage: -i/--input_file_list   [-o/--output_file_list] --snp

设计思路:先实现功能,再快速迭代

回到测试部分:

时间表现为3小时读完,感觉不太对。

1 1

白色部分为normal

更新计划:

1.独立出建索引步骤,独立出clear-snp步骤,计划是想 hisat2 index这种方式传参,但是不知怎么实现,先分步进行。

模拟建索引思路的方式是:将snp字典写入json文件。

已实现:

1

2.添加nucleotide检查步骤,直接一步输出去snp后的

这个写为了snp_filter,可测

1

测试结束无误

提取的intron exon地址:

/mnt/T30/wus/brantch_point_human/Mercer_data/SRR1049830_1.5/classify

上一篇 下一篇

猜你喜欢

热点阅读