1. 大部分方法为基于深度(划分区间检测)的方法(FPKM、区域碱基数的类似FPKM算法)。
2. 大部分软件会使用对照样本作为reference作为基线,但是reference本身的方差可能会比较大,方差可能是bias也可能是CNV等,方差的差异在算法处理过程中是不能消除的。并且大部分使用对照的算法在检测common CNV的时候可能都不准确,比如人群频率50%的CNV,reference处理的时候,可能会把单拷贝作为正常二倍体处理,这样正常二倍体可能会被作为三倍体检出。
3. 外显子数据矫正常利用GC含量、mappability对覆盖深度进行矫正。比如GC矫正,一般是对于一个窗口w,标准化后的深度,等于窗口原始深度值/具有相同GC含量窗口的深度值。
4. 检测CNV之前一般会有质控,去除一些bias较大的区间,比如考虑区间覆盖度,样本整体覆盖情况,GC含量极端区间等。
5. 数据降噪方法常见 PCA、SVD(一般去除前k个noise)。一般应用这类方法的时候,也就可能去除掉common CNV的信号,所以会看到有些软件在检测common的性能上不太好。commom CNV有考虑的,比如CLAMMS的一个主要优化点就是同时考虑的common的CNV的特征,做批次效应去除的时候不用深度文件,而是用picard产生的metrics。另外CODEX2,在无正常对照的时候「也需要一堆样本同时检测」可以检测所有样本的common CNV,文章数据表现很好。
6. CNV检测算法常见HMM,CBS,新一点的方法还会用机器学习,其他的使用比较少也看不太懂~检测区间一般是跨越多个外显子,也有能做到单外显子水平的,但是比较少且recall不太好(deletion相对更容易做到)~
