比较与进化基因组

人类线粒体(mtDNA)二代测序数据分析的几个坑

2022-06-16  本文已影响0人  谦分之亿

从业多年,在人类线粒体分析时遇到的几个坑,在此分享一下,共同进步。

1.版本问题

线粒体参考基因组一直以来都有两个版本,两个版本之间大小相差2bp,注意这2bp并不是简单的差异2个碱基。

2.核基因同源问题

线粒体mtDNA与核基因nuMTs之间存在同源相似区,部分同源区的相似程度可达100%,已有文献研究表明在做全基因组比对时,随着读长、测序模式的不同,会造成不同程度的覆盖率缺失,影响后续突变寻找。
文献链接: https://pubmed.ncbi.nlm.nih.gov/31612134/

image.png
image.png
因为这个问题的存在,选择全染色体作为参考基因组还是仅使用线粒体作为参考基因组是一个需要考量的问题。
怎么选?
细胞里的线粒体拷贝数量很多,在WGS测序数据中,一般线粒体的深度约是常染色体的50-100倍(和细胞类型关系密切,比如肌细胞的线粒体深度可能远远超过这个倍数)。照此推断核基因同源区的影响占比可能在1-2%左右,如果仅使用线粒体作为参考基因组,这部分数据肯定是会误比对到线粒体上的;但如果使用完整的参考基因组,又会因为同源性问题丢失部分判断不了来源的数据,所以怎么选择还是和项目具体需求有关。

3.线粒体结构问题

线粒体是环状的,虽然从参考基因组序列上看不出来,但是实际上第16569bp和第1bp是连着的。对于比对软件来说,会造成“半截比对”的现象,即只能选择头或尾其中一个位置,且一条read只有部分能比对上,剩余部分会被判定为soft clip,导致头尾的深度会下降,损失部分数据量。

image.png
怎么办?
还是那句话,选择和实际项目情况紧密相关,如果你深度足够深,不在意这点损失的话,可以不去理会。此外,也有公司推出了一些解决方案,比如搞一个16569+前80bp的16649bp版本基因组用于比对。
image.png
文献链接:https://pubmed.ncbi.nlm.nih.gov/34769461/
软件链接:https://github.com/filcfig/PCP
因为本人尚未测试,所以暂时没有试用结果和结论。
上一篇 下一篇

猜你喜欢

热点阅读