外显子拷贝数分析之cnvkit

2024-05-25  本文已影响0人  单细胞空间交响乐

作者,Evil Genius

跟美国人交流的时候,讨论起外显子的CNV检测,国内用的cnvkit居多,但是我翻了很多的推文,感觉都写的很肤浅,美国人问到的问题都比较深入,涉及到算法核心,所以这一篇我们好好梳理一下cnvkit的运用。

反正不详细的深入理解,糊弄不过去,这一点美国人还是很较真的,在大佬面前真的是一点侥幸心理都不能有。

cnvkit的官网网址https://cnvkit.readthedocs.io/en/stable/

文章在CNVkit: Genome-Wide Copy Number Detection and Visualization from Targeted DNA Sequencing

cnvkit方法使用targeted reads和nonspecifically captured off-target reads来均匀地推断整个基因组的拷贝数。这种组合在目标区域实现了外显子水平的分辨率,在较大的内含子和基因间区实现了足够的分辨率,以识别拷贝数的变化。

知识背景

pipeline

CNVkit使用on-target reads和非特异性捕获的off-target reads来计算每个样本基因组的log2拷贝比。简而言之,off-target bin是从目标区域之间的基因组位置分配的,off-target bin的平均大小比平均on-target bin大得多,以匹配它们的read counts.然后分别使用目标位置和非目标位置来计算每个间隔内的平均reads深度。然后将目标reads深度和非目标reads深度结合起来,将其归一化为来自对照样本的参考,并对几个系统偏差进行校正,从而得到 log2 copy ratios的最终表。内置的segmentation algorithm可以在log2 copy ratios上运行,以推断discrete copy number segments。

Calculation of off-target intervals

用于计数脱靶reads的基因组间隔最初是从目标间隔的基因组位置计算的。CNVkit根据target regions,将每个target之间的非target区域划分为bin,通常按100 kilobases的顺序划分。作为可选的输入,在创建off-target bins时,可以使用可测序的染色体区域和低映射区域的单独列表来排除端粒、着丝粒和其他不可测序或不可映射的重复区域。
每个连续的非目标区域被划分为大小相等的bin,使得该区域内的平均bin大小尽可能接近指定大小。可以通过计算目标区域平均大小与目标区域测序reads的fold-enrichment的乘积来选择合适的off-target bin大小,使得平均大致相同数量的reads被映射到on - and - off-target bin上。为了最大限度地增加bin的数量,CNVkit将偏离指定的bin大小,将bin放入小的区域,如内含子,这些区域的大小受到限制。还可以指定bin大小的下限,以避免评估非常小的非目标区域,在这些区域中,捕获的reads太少,无法给出可靠的拷贝数估计。一旦生成了一组可靠的off-target bin并保存为BED文件,同一个BED文件可以在CNVkit中重复使用,用于使用相同panel的其他样品的拷贝数分析,并在相同的平台上测序。

Estimation of copy number by read depth

CNVkit coverage命令使用BAM格式的测序reads比对和BED或interval list格式的on或off-target bins的位置,计算样本中每个bin中的log2平均读取深度。对于每个bin,使用pysam计算和求和bin中每个碱基对的read depths,然后除以bin的大小。输出是一个表,其中显示了每个给定bin的平均reads depths,经过log2变换并以所有常染色体centered to the median read depth of all autosomes。

Construction of a copy number reference

在每个基因组bin中,提取每个给定对照样本的read depths。对每个control样本执行reads深度偏差校正。在每个bin中,计算control samples中log2 reads深度的加权平均值,以标记上具有较高或较低覆盖率的bin,the spread or statistical dispersion of log2 read depths indicates bins that have erratic coverage so that they can be de-emphasized at the segmentation step. 也可以使用单个成对的control sample,或者,在没有任何control samples的情况下,可以构建一个“通用”参考,读取深度为log2,分配给所有箱子的扩展为0。在所有情况下,都可以指定一个“男性参考”,其中X染色体bin的预期读取深度是常染色体的一半。

Bin size and resolution

Filtering segments

在每种情况下,根据给定的标准将具有相同值的相邻段合并在一起,并适当地重新计算列值。即使总拷贝数相同,位于不同染色体上或具有不同等位基因特异性拷贝数值的片段也不会合并

breaks

cnvkit.py breaks Sample.cnr Sample.cns

这有助于鉴定(a)发生不平衡融合或其他结构重排断点的基因,或(b)由于拷贝数信号不一致而难以调用CNV的基因。

Columns:

  • gene, chromosome – as in .cns, the gene where the breakpoint occurs and the chromosome it lies on.
  • location – the end of the segment to the left of the breakpoint, and start of the segment to the right.
  • change – the difference in log2 values between the adjacent segments.
  • probes_left, probes_right – the number of probes on each side of the breakpoint within the gene. (Not the same as the number of probes supporting each segment; just the portion within the gene.)

genemetrics

Identify targeted genes with copy number gain or loss above or below a threshold.

The remaining output columns have slightly different meaning depending on whether or not segments were provided. Without segments (.cnr alone):

With segments (-s):

今天就看panel部分,生活很好,有你更好

上一篇 下一篇

猜你喜欢

热点阅读