day01 | 利用深度学习从基因转录数据中预测药物疗效
读文献之前的几个基础概念:
1.基因表达谱(changes in transcriptional profiles,CTPs):是一种在分子生物学领域,借助cDNA、表达序列标签(EST)或寡核苷酸芯片来测定细胞基因表达情况(包括特定基因是否表达、表达丰度、不同组织、不同发育阶段以及不同生理状态下的表达差异)的方法。通过一次性测定大量基因构建起细胞功能的总体态势图,可以从图谱中区分出正在分裂的细胞,以及细胞对于特征性治疗的反应。基因表达谱还有助于了解疾病的发病机制、药物的生理反应和治疗效果。基因表达图谱从逻辑上说是基因测序的下一个步骤,基因序列包含细胞可能存在的功能的信息,而基因表达谱则包含细胞实际上正在完成的工作的信息。(https://zh.wikipedia.org/wiki/%E5%9F%BA%E5%9B%A0%E8%A1%A8%E8%BE%BE%E8%B0%B1)
2.基因签名(gene signatures):具有独特基因表达模式的细胞中的单个或组合基因组,这是由于改变或未改变的生物过程或病原性疾病导致的。不要将这与基因表达谱的概念混淆。激活常规生理过程中的通路或对刺激的生理反应会导致信号转导和相互作用的级联反应,从而引起基因表达水平的改变,这被归类为该生理过程或反应的基因特征。基因特征的临床应用细分为预后、诊断和预测特征。理论上可由基因表达特征定义的表型范围从预测患有疾病的个体的存活或预后的表型、用于区分疾病的不同亚型的表型到预测特定途径激活的表型. 理想情况下,基因特征可用于选择特定治疗对其有效的一组患者。(https://en.wikipedia.org/wiki/Gene_signature)
3.基因富集分析(gene set enrichment analysis,GSEA):是一种识别在大量基因或蛋白质中过度表达且可能与疾病表型相关的基因或蛋白质类别的方法。该方法使用统计方法来识别显着富集或耗竭的基因组。转录组学技术和蛋白质组学结果通常可以识别出数千个用于分析的基因。(https://en.wikipedia.org/wiki/Gene_set_enrichment_analysis)
今天阅读的是北京大学医学院谢正伟团队发表在Nature Biotechnology上的文章,文章提出了一种基于深度学习的药效预测系统(DLEPS),该系统将药物SMILES分子输入神经网络来拟合药物作用下基因表达谱的变化信息,从而预测疾病药物分子,该模型在测试集上的预测效果(Pearson相关系数)达到0.74;之后文章作者还进行了案例分析,即分别预测肥胖、高尿酸血症和非酒精性脂肪肝炎三种疾病药物分子,随后通过构建小鼠模型验证了系统预测的候选药物的有效性,表面该系统具有通用性,可以预测多种疾病的药物分子。
研究背景
基于靶蛋白的研发目前存在的问题是不能处理缺乏明确定义靶蛋白的疾病,针对这种疾病的策略是设计一个能够独立于特定靶标的药效预测模型。比如Stokes, J. M等人于2020年发表在Cell期刊上的研究提出使用定制的深度学习模型来发现治疗大肠杆菌感染的新候选抗生素,但是该模型依赖于特定单一疾病状态的表型数据,缺乏推广到其他疾病的能力。因此,设计出一种能够预测多种疾病药物分子的通用系统是有重要意义的。
本文贡献
(1)本文提出了一个基于深度学习的疾病药物分子预测模型,该模型是利用药物分子和药物作用下的基因表达谱信息进行训练,不需要知道靶蛋白信息,这给缺乏明确定义靶蛋白的疾病药物分子预测带来新的思路;
(2)本文做了生物实验验证了系统的有效性,分别是使用褐变基因特征寻找抗肥胖分子、使用多个基因特征识别抗高尿酸血症分子以及鉴定抗非酒精性脂肪性肝炎的药物分子。
模型介绍
1.数据预处理
本文使用的数据集是L1000,该数据来源于一个项目库(Integrated Network-Based Cellular Signatures),对其进行清洗处理,按照以下规则进行清洗:
1)分子必须有超过5个备份;
2)分子的SMILES要能使用RDKIT(version 2017.9.1)工具解析。
随后,通过处理过程获得了与疾病的标志性基因有关的17051个已经验证的分子,其中随机选取14051个分子作为训练集,1500个分子作为验证集以及1500分子作为测试集。
2.方法
图2.模型介绍模型输入与疾病标志性基因表达谱变化有关的药物分子数据,输出药物作用下的基因表达谱信息,从而预测疾病药物分子。药物分子的SMILES可以通过变分自动编码器作为纯文本编码到潜在空间中。首先,使用GVAE(语法树模型)对药物分子的SMILES(是用rdkit处理的规范的SMILES)进行编码,即将SMILES解析成一个语法树(有76个节点类型),然后再解析为扁平向量,进行one-hot编码(最大长度227,数据维度277*76),然后将其传递给三层一维卷积神经网络(Conv1D(9, 9),输出维度为 (269, 9),Conv1D(9, 9),输出维度为 (261, 9),Conv1D) (10, 11) 输出维度为 (251, 10))得到新的特征表示。将新的特征表示展平(dim=2510)成一维的向量,然后传递到一个全连接神经网络,输出得到两个新的特征表示,分别是中心向量和半径向量,对中心向量和半径向量进行采样获得新的向量表示,随后作为隐向量输入到一个含有5层全连接层的神经网络(其中每层都施加Dropout机制,前3层的激活函数采用Relu,第4层的激活函数采用Tanh,最后一层不使用激活函数),用于预测转录谱(CTPs,978个标志性基因)的变化。最后,978个标志性基因通过线性变换转化为12328个基因。
模型采用采用 dropout 层来克服过拟合。tanh 函数的作用是使输出在 [−1, 1] 的范围内,之后的线性层将在 [−∞, +∞] 范围内输出。模型使用带有固定参数的预训练 GVAE 模型进行第一步训练(30,000 步)。然后将所有参数再微调 10,000 步。使用均方误差作为损失函数,使用 Adam 作为优化方法。使用 Pearson 相关系数评估模型的性能。
实验
1.预测结果
本文采用Pearson相关系数作为评价指标来评估模型的性能,并通过设置不同的Pearson相关系数阈值来计算平均Pearson相关系数作为模型性能指标;模型的训练集和测试集的不同Pearson相关系数阈值绘制的类似于ROC曲线如下图g和j所示:
图3.模型性能评估2.案例分析
略。
参考文献
https://www.nature.com/articles/s41587-021-00946-z#Abs1