使用机器学习进行植物基因型到表型预测(综述讲解)
讲解分析 frontiers |使用机器学习进行植物基因型到表型预测 (frontiersin.org)
1 . 从基因型到表型预测的机器学习方法
预测的方法分为传统机器学习和深度学习
传统机器学习中比较优秀的模型是:lightgbm,rf,gbr
深度学习用的比较多的是:CNN架构神经网络
有时候传统机器学习可以获得比深度学习模型更优的预测值。
遗传变异的编码
- 常见的遗传变异是SNP,编码成0/1,某个位置存在突变则是1,不存在则是0.或者是根据等位基因型,编码为0/1/2,Ref/杂合/Alt.
- 也有其他编码方式。例如:SNP,indel,编码区移码突变,划分为不同的编码值。
- 根据泛基因组的结果,基因上存在或不存在变异进行变异进行编码
- 根据LD联锁值进行辅助编码
- 根据突变的功能区进行编码,对编码区可以结合同义和非同义突变进行编码
特征值的选取
Curse of Dimensionality:维度的诅咒。
随着数据维度的增加,机器学习会出现以下问题:
- 数据稀疏性,维度增加后,数据点之间的距离很大,对基于距离或密度的算法,很难找到足够多的临近点。
- 计算复杂性,高纬度数据的计算量指数增长。
- 容易出现过拟合
解决方法: - 降低维度,PCA或t-SNE
- 减少特征值,从高维数据中选择出最相关的特征,去除无关或冗余的特征。这可以减少数据的维度,提高模型的性能和可解释性。
- 数据采样, 随机投影采样,重要性采样。减少数据的稀疏性和计算复杂性。
- 使用卷积神经网络
使用深度学习模型整合多类型表型数据进行预测
image.png
多种表型或环境数据或多种类型的基因型数据或产量数据如何整合到一起进行建模预测。
包括:无人机的数据(红外光谱、可见光光谱、激光雷达光谱),蛋白组,转录组,基因组、代谢组等组学数据联合分析。
上图中展示了2种不同的融合方法:
- 早融合:使用串联层将多种数据类型集合到每个样本的单个文件中
- 后融合:每个类型的特征值分别建模预测,最后在输出前把所有的特征值的权重融合。
使用深度学习模型进行植物表型预测的潜在挑战
image.png
i) 训练和模型部署期间数据收集和处理的一致协议(Hagiwara等人,2020 年;Mårtensson等人,2020 年)。由于 DL 模型直接从数据集中学习,因此改变数据收集和处理方法可能会增加噪声,从而导致模型性能不佳。保持一致的数据处理协议以及定期评估以确保模型仍然适合任务非常重要;
ii) 避免维度的诅咒(Altman 和 Krzywinski,2018 年)。高通量表型平台、高光谱相机和泛基因组组装可以生成大量数据,使模型更难定义哪些数据点代表性状。特征选择算法可以帮助选择最具代表性的数据子集来训练 DLmodel (Cen et al., 2016;Khaki 和 Wang,2019 年);
iii) 数据不平衡。代表特定基因型或环境的样本稀缺可能会给模型带来偏差。这可以通过采用采样方法(例如过度采样和欠采样)或生成 DL 来构建人工增强的数据集来解决(Radford et al., 2015);
iv) 由于植物表型可塑性,环境条件的变化(年际天气变化、农业生态区和作物管理实践的差异)可能会影响模型性能。在定义模型验证和未来适用性时,应考虑环境对表型的影响,并且可以通过收集模拟模型在预测表型时将看到的条件的数据来解决(Montesinos-López O. A. et al., 2018;Khaki et al., 2019;Shook et al., 2021)。
2. 模型的可解释性
当从基因型信息预测植物表型时,使用可解释模型提供了选择高排名标记作为特征选择策略的机会,并且有证据表明选择重要标记的子集可以改善对给定表型的预测(Oakey等人,2016)。这是由于大量的 SNP 充当预测的背景噪声,导致性能回报递减,除非包含的大部分 SNP 与该性状相关(Pérez-Enciso et al., 2015)。CGBayesNets 等工具可用于首先选择对表型预测有用的特征样本(McGeachie等人,2014 年)。Harvestman 是另一种工具,它选择具有代表性和非冗余的特征子集,特别关注最小化过拟合问题,这在高维预测任务中很常见(Frisby et al., 2021)。然后,可以使用特征的最佳子集和编码来训练新模型。也可以实现集成方法,其中可解释的 ML 方法可用于特征选择,然后可以将排名靠前的特征输入到另一个模型(例如 DL 架构)中,以改进预测(Azodi et al., 2019)。特征选择的好处是,输入特征减少可以减少训练模型所需的计算资源和时间。
模型的解释常用的工具算法是SHAP和LIME.
机器学习进行表型预测要解决的问题列表
- High-Dimensional Data(高维数据)
定义
高维数据指具有大量特征(维度)的数据,例如基因组学数据(成千上万个基因)、图像数据(百万像素)或金融交易记录(多变量时间序列)。其核心挑战是维度灾难(Curse of Dimensionality),即随着维度增加,数据变得稀疏,传统算法性能显著下降。
学术研究与应用
因果结构学习:2023 年 Nature Machine Intelligence 提出的 D2CL 模型,结合卷积神经网络(CNN)和图神经网络(GNN),从高维数据中学习变量间的因果关系,在生物医学分子数据中识别数千个变量的因果网络,突破了传统方法对数据量的依赖。
子空间异常检测:通过投影到低维子空间(如轴平行子空间),结合遗传算法或特征袋(Feature Bagging)识别异常值,有效过滤噪声并提高检测鲁棒性。
降维技术:主成分分析(PCA)仍是基础方法,但深度学习方法(如变分自编码器 VAE)在保留非线性特征方面表现更优。例如,CVPR2023 的 DRSformer 通过自适应稀疏选择(TKSA)和多尺度前馈网络,在图像去雨中实现高效特征聚合。 - Feature Selection(特征选择)
定义
从原始特征中选择最相关子集,以提高模型性能、降低计算成本或增强可解释性。方法包括过滤法(Filter)、包裹法(Wrapper)和嵌入法(Embedded)。
学术研究与应用
自适应特征选择:腾讯云 2023 年提出的 MvFS 模型,通过多视角网络和专家混合策略,为每个数据实例动态选择特征,避免传统方法对高频特征的依赖,在推荐系统中提升准确率和多样性。
注意力机制与稀疏选择:DRSformer 的 TKSA 模块 通过 Top-k 稀疏选择和通道维度注意力,仅保留最关键的自注意力值,减少冗余计算并提升图像去雨效果。
深度学习与特征选择结合:KDD2024 的 TSDE 框架 利用扩散模型和 IIF 掩码策略,在时间序列表示学习中同时实现特征选择和缺失值插补,显著提升高维数据处理效率 - Interpretability(可解释性)
定义
指模型决策过程的可理解性,尤其在医疗、金融等高风险领域至关重要。挑战包括复杂模型(如神经网络)的黑箱特性和解释的稳定性。
学术研究与应用
自解释神经网络(SENN):2023 年研究提出的 SENN 通过局部线性特性和结构化变分分布,在保持模型性能的同时,确保解释的显性(Explicitness)、忠实性(Faithfulness)和稳定性(Stability),尤其适用于图像分类任务。
SHAP 与 LIME 的扩展:SHAP 值(Shapley Additive exPlanations)和 LIME(Local Interpretable Model-agnostic Explanations)仍是主流工具,但结合因果推断的方法(如 D2CL)开始用于解释高维数据中的因果关系。
复杂模型的可解释性:针对 Transformer,研究通过可视化注意力头或设计可解释的模块(如混合专家补偿器 MEFC),揭示模型对不同特征的依赖程度 - Missing Data Imputation(缺失数据插补)
定义
利用观测数据推断缺失值,方法包括均值插补、多重插补和基于模型的插补(如回归、贝叶斯网络)。
学术研究与应用
扩散模型与概率插补:ICML2024 的 CSDI 模型 基于条件扩散过程,在医疗和环境数据中实现概率插补,将连续排序概率得分(CRPS)降低 40-65%,并支持多变量时间序列的插值和预测。
时间序列插补:KDD2025 的 TSDE 框架 结合扩散模型和双正交 Transformer,在高缺失率数据中实现高效插补,推理速度比传统方法快 10 倍,并支持异常检测和聚类。
深度学习与高斯过程结合:GP-VAE 通过低维潜在空间的高斯过程建模时间动态,在医疗时间序列中提升插补平滑性和不确定性估计