数据科学 5 机器学习介绍
2018-11-20 本文已影响17人
她即我命
何谓机器学习
把无序的数据转换成有用的信息,海量数据抽取有价值的信息。
创建并使用那些由学习数据而得出的模型,预测建模或数据挖掘。
用已存在的数据来开发可能来对新数据预测多种可能结果的模型。
专家系统
例如鸟类识别专家系统
测量所有可测属性(特征)
6个训练样本的训练集,每个训练样本4种特征,1个目标变量
前两种特征:数值型
第三种特征:布尔型
第四种特征:枚举型
学习主要任务-分类
为算法输入大量已分类数据作为算法的训练集
测试机器学习算法效果,通常使用两套独立的样本集:训练数据和测试数据
监督学习
算法必须知道⽬标变量的分类信息,分类和回归
应用:预测目标变量的值
如目标变量是离散型(如是/否,1/2/3,红⻩蓝),选分类器算法
如目标变量是连续型(如0.0 - 100.00) ,选回归算法
无监督学习
算法不知道目标变量,没有类别信息
聚类: 将数据集合分成由类似的对象组成的多个类的过程
密度估计:寻找描述数据统计值的过程
应用: 不预测目标变量
如需要将数据划分为离散的组,选聚类算法
需要估计数据与每个分组的相似程度,选密度估计算法
开发机器学习算法程序的步骤
- 收集数据
- 准备输入数据
- 分析输入数据
是否有异常值?是否有空值?是否有规律?
通过图形化展示数据 - 训练算法
无监督学习不需要训练算法 - 测试算法
- 使用算法