MutScan软件介绍

2020-01-07  本文已影响0人  京古

近期在分析人的一种眼科疾病的WES数据时,发现RPGR基因的第15号外显子的一部分在高度重复区域,该区域是高含量的CT重复,因此前期的文库捕获、后期比对都比较困难。好在我的样本在这个区域的覆盖度还可以,但是常规的流程没有检测出来这个区域的可靠变异,因此需要验证这个区间是否还有漏掉的位点。发现MutScan软件可以基于输入的位点进行验证,从fastq序列入手,不经过bwa比对,而是进行字符串匹配(当然会考虑到容错),找出来一些位点。

1.软件的情况如下:

1.1 源代码网址:

http://www.github.com/OpenGene/MutScan

1.2 下载二进制文件后直接使用:

wget http://opengene.org/MutScan/mutscan
chmod a+x ./mutscan

或者下载可编译文件:

# get source (you can also use browser to download from master or releases)
git clone https://github.com/OpenGene/MutScan.git

# build
cd mutscan
make

# Install
sudo make install

1.3 软件功能:

直接扫描FastQ文件检测和可视化目标突变

1.4 软件特性

应用程序方案:

1.5 Windows 版本( 可能不是最新版本)

如果要在 Windows 上编译 MutScan,则应使用 cygwin。 我们已经用 cygwin-2.6.0/G++ 5.4构建了一个,它可以从以下位置下载: http://opengene.org/MutScan/windows_mutscan.zip

1.6 HTML报告

1.7 JSON报告

默认情况下禁用JSON报告。 你可以通过使用 -j 或者 --json 指定一个JSON文件 NAME 来启用它。 JSON报告如下所示:

{
 "command":"./mutscan -1/Users/shifu/data/fq/S010_20170320003-4_ffpedna_pan-cancer-v1_S10_R1_001.fastq -2/Users/shifu/data/fq/S010_20170320003-4_ffpedna_pan-cancer-v1_S10_R2_001.fastq -h z.html -j z.json -v --simplified=off ",
 "version":"1.14.0",
 "time":"2018-05-15 15:48:21",
 "mutations":{
 "NRAS-neg-1-115258747-2-c.35G>C-p.G12A-COSM565":{
 "chr":"chr1",
 "ref":["TGGATTGTCAGTGCGCTTTTCCCAACACCA","G","CTGCTCCAACCACCACCAGTTTGTACTCAG"],
 "reads":[
 {
 "breaks":[31,61,62,76], 
 "seq":"ATATTCATCTACAAAGTGGTTCTGGATTAGCTGGATTGTCAGTGCGCTTTTCCCAACACCAGCTGCTCCAACCACC",
 "qual":"eeeeeiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiieiiiiiiiiiiieieeeee" },
 {
 "breaks":[31,61,62,76], 
 "seq":"ATATTCATCTACAAAGTGGTTCTGGATTAGCTGGATTGTCAGTGCGCTTTTCCCAACACCAGCTGCTCCAACCACC",
 "qual":"eeeeeiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiieeeee" }
 ]
 },
 "PIK3CA-pos-3-178936082-9-c.1624G>A-E542K-COSM760":{
 "chr":"chr3",
 "ref":["AAAGCAATTTCTACACGAGATCCTCTCTCT","A","AAATCACTGAGCAGGAGAAAGATTTTCTAT"],
 "reads":[
 {
 "breaks":[22,52,53,83], 
 "seq":"GGAAAATGACAAAGAACAGCTCAAAGCAATTTCTACACGAGATCCTCTCTCTAAAATCACTGAGCAGGAGAAAGATTTTCCAAAGATGTTTCTCAGAACGCTGCAGTCTGCAATTTGTATGAATTCCC",
 "qual":"eeeeeiiiQiiiiiieiiiieiSeiiiiiie`iiii`i`iiiiiiiiiiiiii`iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiaiiiiiiiiiiiiiiiiiieiiiiiieeeee" },
 {
 "breaks":[0,27,28,58], 
 "seq":"GCAATTTCTACACGAGATCCTCTCTCTAAAATCACTGCGCAGGAGAAAGATTTTCTATGGACCACAGGTAAGTGCTAAAATGGAGATTCTCTGTTTCTTTTTCTTTATTACAGAAAAAATAACTGACTTTGGCTGATCTCAGCATGTTTTTACCATACC",
 "qual":"AAAAAEEEEiieiiieiiiiiiiiiieiiiiiiiie``iiiiiieiiiiiiiiiieiiiieiieieeiiiSiiiiiieiiiiiiiiiiiiiieiiiiiSiiiiiiiiiiiiieiiiiiiiiiiii`ieiiieiii`ieiiiii`eS``eieEEEAAAAA" }
 ]
 }
 }
}

1.8 软件选项

usage: mutscan -1 <read1_file> -2 <read2_file> [options]...
options:
 -1, --read1 read1 file name, required
 -2, --read2 read2 file name
 -m, --mutation mutation file name, can be a CSV format or a VCF format
 -r, --ref reference fasta file name (only needed when mutation file is a VCF)
 -h, --html filename of html report, default is mutscan.html in work directory
 -j, --json filename of JSON report, default is no JSON report (string [=])
 -t, --thread worker thread number, default is 4
 -S, --support min read support required to report a mutation, default is 2.
 -k, --mark when mutation file is a vcf file, --mark means only process the records with FILTER column is M
 -l, --legacy use legacy mode, usually much slower but may be able to find a little more reads in certain case -s, --standalone output standalone HTML report with single file. Don't use this option when scanning too many target mutations (i.e.> 1000 mutations) -n, --no-original-reads dont output original reads in HTML and text output. Will make HTML report files a bit smaller -?, --help print this message

1.9 示例

纯文本结果,其中包含检测到的突变和它们的支持读取,将直接打印。 你可以使用 > 将输出重定向到文件,例如:

mutscan -1 <read1_file_name> -2 <read2_file_name > result.txt

MutScan生成非常有用的HTML文件报告,默认为工作目录中的mutscan.html。 你可以使用 -h 参数更改文件 NAME,例如:

mutscan -1 <read1_file_name> -2 <read2_file_name> -h report.html

对于单端排序数据,省略 -2 参数:

mutscan -1 <read1_file_name>

多线程

-t 参数指定要启动的工作线程数。 默认的线程号是 4。 建议使用比系统的CPU内核少的数字。

变异文件

格式的csv格式变异文件

带有 name,left_seq_of_mutation_point,mutation_seq,right_seq_of_mutation_point 和 chromosome(optional) 列的CSV文件:

#name, left_seq_of_mutation_point, mutation_seq, right_seq_of_mutation_point, chromosome

NRAS-neg-1-115258748-2-c.34G>A-p.G12S-COSM563, GGATTGTCAGTGCGCTTTTCCCAACACCAC, T, TGCTCCAACCACCACCAGTTTGTACTCAGT, chr1

NRAS-neg-1-115252203-2-c.437C>T-p.A146V-COSM4170228, TGAAAGCTGTACCATACCTGTCTGGTCTTG, A, CTGAGGTTTCAATGAATGGAATCCCGTAAC, chr1

BRAF-neg-7-140453136-15-c.1799T>A -V600E-COSM476, AACTGATGGGACCCACTCCATCGAGATTTC, T, CTGTAGCTAGACCAAAATCACCTATTTTTA, chr7

EGFR-pos-7-55241677-18-c.2125G>A-p.E709K-COSM12988, CCCAACCAAGCTCTCTTGAGGATCTTGAAG, A, AAACTGAATTCAAAAAGATCAAAGTGCTGG, chr7

EGFR-pos-7-55241707-18-c.2155G>A-p.G719S-COSM6252, GAAACTGAATTCAAAAAGATCAAAGTGCTG, A, GCTCCGGTGCGTTCGGCACGGTGTATAAGG, chr7

EGFR-pos-7-55241707-18-c.2155G>T-p.G719C-COSM6253, GAAACTGAATTCAAAAAGATCAAAGTGCTG, T, GCTCCGGTGCGTTCGGCACGGTGTATAAGG, chr7

testdata/mutations.csv 给出了csv格式变异文件的示例

vcf格式变异文件

标准VCF可以作为一个变异文件,文件扩展名为 .vcf 或者 .vcf。 如果突变文件是VCF文件,你应该通过 -r <ref.fa> 指定 reference assembly file。 例如命令可以是:

mutscan -1 R1.fq -2 R2.fq -m target.vcf -r hg19.fa

使用 bam/fill

如果希望使用 bam/fill文件运行 MutScan,可以使用 samtools 将它们转换为FASTQ文件,使用 samtools fastq 命令,最新版本的samtools fastq 数据支持 paired。

注释

2. 一些说明:

(1)相关的网站:
https://github.com/OpenGene/MutScan#get-mutscan

https://www.biostars.org/p/213988/

https://www.biostars.org/p/283969/#283980

https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-018-2024-6

(2)关于indel模式,创建vcf时的格式:
如果变异类型是insertion,则直接把变异后的序列作为M序列,如下图中的红色框内:


image.png

对于deletion类型:


(3)该软件更像是验证变异位点,不是call 变异,是需要把已知的位点先填入的。

上一篇 下一篇

猜你喜欢

热点阅读