机器学习实战 分类
监督学习:只需要给定输入样本集,机器就可以从中推演出指定目标变量的可能结果。
监督学习一般使用两种类型的目标变量:标称型和数值型。
标称型:在有限目标集中取值,如真与假;
数值型:可以从无限的数值集合中取值,如0.100、42.001等,主要用于回归分析。
1.1 机器学习
机器学习是把无序的数据转化成有用的信息。机器学习对于任何需要解释并操作数据的领域都有所裨益。
特征:事物属性;
训练集:用于训练机器学习算法的数据样本集合;
目标变量:机器学习算法的预测结果;通常将分类问题中的目标变量称为类别。
为了测试机器学习算法的效果。通常使用两套独立的样本集:训练数据和测试数据。
1.3 机器学习的主要任务
机器学习的另一项任务是回归,主要用于预测数值型数据。分类和回归属于监督学习。之所以称为监督学习,是因为这类算法必须知道预测是什么,即目标变量的分类信息。
无监督学习中,将数据集合分成由类似的对象组成的多个类的过程被称为聚类;将寻找描述数据统计值的过程称为密度估计。
1.4 如何选择合适的算法
考虑两个问题:
1、机器学习算法的目的;2、需要分析或者收集的数据是什么。
-> 首先考虑机器学习算法的目的:1、选择监督还是无监督学习算法;2、确定监督学习算法后,进一步确定目标变量类型,选择分类器算法或者回归算法;3、确定无监督学习算法,进一步分析数据,使用聚类算法,若需估计数据与每个分组的相似程度,需使用密度估计算法。
->考虑数据问题:特征值的等数据特性。
一般来说发现做好算法的关键环节是反复试错的迭代过程。
1.5 开发机器学习应用程序的步骤
(1)收集数据。如爬虫抽取数据、设备实时数据等。
(2)准备输入数据。准备特定的数据格式。
(3)分析输入数据。人工分析以前的数据,确保数据集中没有垃圾数据。
(4)训练算法。
(5)测试算法。
(6)使用算法。
1.6 Python语言的优势
1.7 Numpy函数库基础
机器学习算法涉及很多线性代数知识,使用Python语言会经常使用Numpy函数库。