数据科学 5 机器学习介绍

2018-11-20 本文已影响17人她即我命

把无序的数据转换成有用的信息，海量数据抽取有价值的信息。
创建并使用那些由学习数据而得出的模型，预测建模或数据挖掘。
用已存在的数据来开发可能来对新数据预测多种可能结果的模型。

专家系统
例如鸟类识别专家系统
测量所有可测属性（特征）

6个训练样本的训练集，每个训练样本4种特征，1个目标变量

前两种特征：数值型
第三种特征：布尔型
第四种特征：枚举型

为算法输入大量已分类数据作为算法的训练集

测试机器学习算法效果，通常使用两套独立的样本集：训练数据和测试数据

算法必须知道⽬标变量的分类信息，分类和回归

如目标变量是离散型（如是／否，1/2/3，红⻩蓝），选分类器算法
如目标变量是连续型（如0.0 - 100.00) ，选回归算法

算法不知道目标变量，没有类别信息
聚类：将数据集合分成由类似的对象组成的多个类的过程
密度估计：寻找描述数据统计值的过程

如需要将数据划分为离散的组，选聚类算法
需要估计数据与每个分组的相似程度，选密度估计算法