《机器学习实战》笔记(0) 第一章
2017-05-29 本文已影响19人
appcompat_v7
1.1
- 机器学习就是把无序的数据转换成有用的信息。
- 分类和回归数据监督学习,是因为这类算法必须知道预测什么,即目标变量的分类信息。
- 与监督学习相对应的是无监督学习,此时数据没有类别信息,也不会给定目标值。在无监督学习中,将数据集合分成有类似的对象组成的多个类的过程叫做
聚类
, 将寻找描述数据统计值的过程叫做密度估计
。 - 如果想要预测目标变量的值,选择监督学习算法,否则选择无监督学习算法。
- 确定选择监督学习算法后,需要进一步确定目标变量类型,如果是离散型(是否、1/2/3、红绿蓝)等则可以选择分类算法。如果目标变量的值是连续型数值,则使用回归算法。
- 如果选择了无监督学习,进一步分析是否需要将数据划分为离散的组。如果这是唯一的需求,则使用聚类算法;如果还需要估计数据和每个分组的相似程度,则使用密度估计算法。
- 步骤:
- 收集数据
- 准备输入数据
- 分析输入数据
- 训练算法(无监督不需要)
- 测试算法
- 使用算法