【现学现卖】CHEER与病毒宏基因组数据分析(2)
“ 文献阅读”
CHEER: HierarCHical taxonomic classification for viral mEtagEnomic data via deep leaRning
2. 方法
这部分介绍了病毒宏基因组分类的方法,首先介绍了CHEER结构,从目到属的等级分类模型;还介绍了不同层次的分类器;skip-gram based word embedding和one-hotencoding的比较;以及前处理、过滤非病毒源reads的rejectionlayer。
2.1. Hierarchical classification model-等级分类模型
模型结构如下图,最重要的组成是一个由目到属的多个分类器组成的树状模型。为了实现新病毒reads的系统发育分析,分类器是自上而下进行的:top layer是训练的CNN,可以拒绝不属于RNA病毒的reads;过滤后的reads将进入等级分类(目,科,属)模型(hierarchical classification model),后文和图片中形象称之为树模型(tree model)。CHEER的每一level还实施了提前停止功能,可以将分类停止在一个高级分类单位,这个功能可以帮助我们找到新的属,甚至新科、目的新病毒。添加更精细的分类器,将属下划分为种水平也很方便,但是由于CHEER是为了给病毒新种的reads进行系统发育分类,所以在CHEER中没有加入种级分类器。
2.2. The structure of each classifier-每个分类器的结构
树模型中的每个分类器是用CNN实现的,见下图。
2.3. Read encoding-read编码
之前基于深度学习的序列分类模型一般用hot encoding将序列转化为矩阵;或者利用k-mer的组成和频率(k-mer composition and frequency)编码DNA序列,但是不能体现原始read的顺序信息。结合k-mer组成和read序列信息,文中构建了skip-gram based word embedding。如下图:
2.4. Viral read screening based on Open Set Problem-开集分类问题
病毒宏基因组数据不可避免会有来自寄主的污染,所以首先要拒绝非病毒reads。这是一个开集分类问题,即区分read类别,并拒绝其他未知类别(非病毒,不是指新病毒reads)。
2.5. The early stop function in the hierarchical classification-提前停止
模型目的是给新种病毒分配标签,所以CHEER的最后一级是属。但是也有可能发现了新属,新科,甚至新目呢?这是标签分配会提前停止在高一些的分类单元。这也是一个质控,如果分类的可信度不高就不分配标签。如图1中的黄色线条走向,这个read最后分配到科标签就结束了。
2.6. Training and validation datasets-训练与验证
所有数据从ICTV下载,为了保证分类器训练有足够的数据,实验删除了只有一个科的目,只有一个属的科和少于三个种的属。最终使用的数据包含6目,23科,55属。
Shang, J., and Sun,Y. (2020) CHEER: HierarCHical taxonomic classification for viral mEtagEnomicdata via deep leaRning. Methods.