机器学习通用流程
2020-02-02 本文已影响0人
编程回忆录
机器学习解决问题的通用流程主要分为4大部分:
问题建模:
解决一个机器学习问题都是从问题建模开始。首先需要收集问题的资料,深入理解问题,然后将问题抽象成机器可预测的问题。在这个过程中要明确业务指标和模型预测目标,根据预测目标选择适当的评估指标用于模型评估。接着从原始数据鸿选择最相关的样本子集用于模型训练,并对样本子集划分训练集和测试集,应用交叉验证的方法对模型进行选择和评估。
特征工程
完成问题建模,对数据进行筛选和清洗之后的步骤,就是对数据抽取特征,即特征工程。特征工程是一项很重要但又很困难的任务,不仅需要我们对模型和算法有深入的理解,还需要我们有很扎实的专业领域知识。工业界大多数成功应用机器学习的问题,都是在特征工程方面做的很好。虽然不同模型和不同问题都会导致特征工程差异很大,但仍有很多特征工程的技巧可以通用。
模型选择
我们进行特征工程是为了将特征输入给模型,让模型从数据中学习规律。但是模型有很多,不同的模型有很大差别,使用场景不同,能够处理的特征也有很大差异。当我们经过特征工程得到一份高质量的特征之后,还需要考虑哪个模型能够更准确地从数据中学习到相应规律。从众多模型中选择最佳的模型对模型有深入的理解。
模型融合
如上所言,不同模型有很大差别,能够从数据中学到的规律也会不同。我们可以采用模型融合的方法,充分利用不同模型的差异,以进一步优化目标。
从机器学习的发展现状来看,很多机器学习从业者在处理问题时直接进行特征工程和模型选择, 而忽略了问题建模。问题建模是十分重要的一个环节,必不可少。
评价指标很多,我们应该选择一个能跟业务指标波动一致的评估指标。这样通过观察评估指标就能观察模型效果,可以大大提高模型迭代效率。否则评估指标都没有参考意义。