vcf数据分析文献阅读生信学习

拷贝数变化CNV分析神器:CNVpytor简介

2022-01-25  本文已影响0人  Jason数据分析生信教室

概要

介绍

CNV分析里比较常用到的一款工具是10年前开发的CNVnator。因为这款工具的高精度和高感度受到广泛的欢迎和应用。CNVpytor就是基于这款工具开发的,基于Python内核,强化了CNVnator的可视化,模块化,功能和计算能力。CNVpytor用到了RD和BAF信息,可以更加准确的计算CNV和CNA。

结果

RD信号分析

CNVpytor继承了CNVnator的RD信号分析功能。这个步骤大概包含了一下几步。

  1. 读取拼接数据(BAM,SAM,CRAM)的RD,合并RD (图1.A)
  2. 根据GC含量进行GC矫正(图1.A & D)。该程序自带人类基因组GRCh37, GRCh38的GC数据,如果需要分析的不是人类基因组的话需要另行计算。具体操作会另外写一篇文章。
  3. 用mean-shift算法计算出CNV (图1.A)
                                      图.1 核心算法的步骤

再举一个例子,如图2所示,可以通过可视化CNVpytor结果来看出是Deletion,还是Duplation还是LOH

                                     图.2 CNVpytor结果可视化

总结一下,整个分析流程可以参照图.3。可以理解成分成独立的两步,一步是图3左边,分析BAM数据里的RD,另外一步是图3右边, 分析VCF数据里的BAF。其实功能和另外一篇文章里R平台的VcfR有点类似。但是功能更加强大,是专业的CNVs分析工具。

                                      图.3 分析流程图

最后可以根据自己的格式需求导出数据,并同时得到可视化结果。CNVpytor也可以被当作Python的一个包在各种平台上简单安装和操作。之后会专门花篇幅整理如何On Command或者On Python来操作这个工具。图4是另外一个例子,可以看出颜值很高。CNVpytor不仅支持分染色的分析,也支持全局分析和可视化操作。

                                          图.4 分析示例

流程和思路都理出来了,你以为可就以自己看着官方github一步一步操作了?道理都懂,却活不好这一生。首先安装,环境构建就成问题(大概率),这一点就继承了CNVnator的缺点。然后非人类基因组得自己整合参考序列,自定义参考序列的话操作和官方说明会有不一样。不过,没有关系,Jason会在后续文章里给出完整的操作手册。

上一篇下一篇

猜你喜欢

热点阅读