数量遗传或生统SV基因组学

Paragraph对SV进行基因分型

2022-06-10  本文已影响0人  斩毛毛

基于重测序数据用于对sv进行genotype.

githup: https://github.com/Illumina/paragraph
相关文章:Chen, S. et al. Paragraph: a graph-based structural variant genotyper for short-read
sequence data. Genome Biol. 20, 291 (2019).

1、安装

可以参考 doc/installation.md

2、测试数据

安装完成后,bin目录下有运行脚本。

python3 bin/multigrmpy.py -i share/test-data/round-trip-genotyping/candidates.vcf \
                          -m share/test-data/round-trip-genotyping/samples.txt \
                          -r share/test-data/round-trip-genotyping/dummy.fa \
                          -o test \

其中:

输出结果如下所示:


输出结果

如果运行成功,genotype.vcf.gz的结果类似expected file

3、 输入文件需求

VCF格式

对于vcf中的SV格式可以使用全部序列,或者symbolic,只要满足VCF 4.0就可以。

样本展示manifest

利用tab分割,包括以下列
必须列:

运行时间

为了提高效率,建议设置-M参数(针对于一个SV最大的reads 深度),可以跳过这些高深度的区域。建议 -M 参数为自己数据平均样本depth的20倍

群体 genotype

为了高效的对群体进行genotype,建议首先对单个样本进行genotype,然后在合并;

其他信息

bin目录下的脚本

Bam文件深度统计

bin/idxdepth -b \<bam/cram> -r \<reference fasta> -o \<output>

其输出结果为一个json文件

{
    "autosome": {
        "contigs": [
            "chr1"
        ],
        "depth": 1
    },
    "bam_path": "fake_path.bam",
    "contigs": [
        // ...
    ],
    "read_length": 50,
    "reference": "fake_reference.fa",
    "unaligned_reads": 0
}

图形化序列的read 数量

Genotyper

python3 bin/multigrmpy.py -i \<input\> \
  -m \<manifest> \
  -r \<reference fasta> \
  -o \<output directory>

a. input: 变异的VCF活着JSON文件
b. manifest: BAM文件的一个列表
e.g.

id      path          read length  depth
sample1 sample1.bam   150          50
sample2 sample2.bam   150          50

c. ref.
d. 输出文件


output

other tools

参考

上一篇下一篇

猜你喜欢

热点阅读