机器学习-算法实施

2017-03-15  本文已影响0人  郭姣姣

根据目的选择算法

(一般并不存在最好算法,只能在一定程度上缩小算法的选择范围,发现最好算法的途径是反复的试错迭代)

1.若想预测目标变量的值,则选监督学习。若目标变量类型是离散型,则选分类算法,若是连续型数值选回归算法。

如果不想预测目标变量值,则选无监督学习。如需将数据划分为离散的组是唯一需求则使用聚类算法。如还需估计数据无与每个分组的相似程度,则需要使用密度估计算法。

应用程序开发步骤

1.收集数据

爬虫、RSS反馈、API信息

2. 准备输入数据

为机器学习算法准备特定的数据格式,如字符串类型、整数类型。

3.分析输入数据

特征值是离散型变量还是连续型变量

特征值是否存在缺失,缺失原因

是否存在异常值

某个特征发生的频率如何

4.训练算法

将格式化数据输入到算法从中抽取知识或信息。

将知识存储为计算机可处理的格式,方便后续使用。

如监督学习不存在目标变量值,故不需要训练算法。

5.测试算法

检验算法成功率

6.使用算法

将机器学习算法转换为应用程序,执行实际任务。

上一篇 下一篇

猜你喜欢

热点阅读