机器学习篇(1)——基础
2018-02-28 本文已影响159人
飘涯
前言:
以下是在自己理解的基础上做的总结,介绍了机器学习的定义以及评估算法的几个概念
-
定义
- 机器学习是一门从数据中研究算法的科学学科。是根据已有的数据,进行算法选择,并基于算法和数据构建模型,最终对未来进行预测。
1.数据中研究算法
可以从人的学习来理解机器学习,比如,人通过西瓜的颜色,响声,根蒂来挑选西瓜,也就是说人通过经验来对新的情况作出预测。而计算机中,“经验”是以“数据”的形式的存在,从数据中产生模型算法也叫学习算法,对新的情况进行预测。如下图:
image.png
2.机器学习分类
把历史数据分为“训练集”和“测试集”用于训练算法
- 根据预测值进行分类
预测值是离散值,如“好瓜” “坏瓜”。此类学习任务是“分类”
预测值是连续值,是“回归”
若没有预测值或者,训练样本不存在标记信息,对西瓜做“聚类” - 根据训练集是否有标记信息
分位“监督学习”和“无监督学习” - 泛化能力
适用于新样本的能力
3.关于模型
也就是机器学习算法,从数据中获得一个假设的函数g,使其非常接近目标函数f的效果。
算法(T):根据业务需要和数据特征选择的相关算法, 也就是一个数学公式
模型(E):基于数据和算法构建出来的模型

4.机器学习的过程

5.如何评估你得到的算法的好坏?
-
鲁棒性:也就是健壮性、稳健性、强健性,是系统的健壮性;当存在异常数据的 时候,算法也会拟合数据
-
过拟合:算法太符合样本数据的特征,对于实际生产中的数据特征无法拟合
由于数据中会存在一些比较特殊的,假如你的算法非常符合样本数据,就会对预测的数据产生不准确的预测。
例如,knn算法中当k=1时,就是严重的过拟合,算法部分会在后面介绍。
还如:线性回归中用多项式拟合,级数较大时也会出现过拟合,解决的办法是正则化表达 -
欠拟合:算法不太符合样本的数据特征
-
流程

- 数据收集
很关键,传统行业转向机器学习的第一步 - 数据清理
大部分的机器学习模型所处理的都是特征,特征通常是输入变量所对应的可用于模型的 数值表示
数据过滤
处理数据缺失
处理可能的异常、错误或者异常值
合并多个数据源数据
数据汇总 - 模型测试
模型选择:对特定任务最优建模方法的选择
模型的测试一般以下几个方面来进行比较,分别是准确率/召回率/精准率/F值
1 准确率(Accuracy)=提取出的正确样本数/总样本数
2 召回率(Recall)=正确的正例样本数/样本中的正例样本数——覆盖率
3 精准率(Precision)=正确的正例样本数/预测为正例的样本数
4 F值=PrecisionRecall2 / (Precision+Recall) (即F值为正确率和召回率的调和平均值)
5 ROC曲线
image.png
6 AUC
表示ROC的面积
AUC的值越大表达模型越好