机器学习之算法概览

2017-11-29  本文已影响48人  有志者说

本文是斯坦福机器学习课程笔记第2篇:机器学习算法概览,主要是NG课程1-3,1-4两小节和李宏毅ML课程第1课内容的总结整理。本节不探讨算法的实现细节,只做总体的概览。
机器学习的算法有很多,请看下面一张图,这张图来自台湾李宏毅教授机器学习课程PPT,很好的概括了机器学习的常见算法,可以作为一个学习路线图。


ML-LearningMap

1.监督学习(Supervised Learning)

首先要理解监督的到底是指什么?个人理解就是训练数据有标签,比如面积,价格,房间数等,预测也有目标性,即成交价格,这就是所谓的“监督”。

1.1 回归(Regression)

NG课程里面举了一个预测房价的例子,还是比较容易理解的。如下图所示:


supervised-learning

上图表示根据某一地区房屋历史交易数据,可以在图上标出面积和房价的点,根据这些历史数据,可以拟合出一条面积和价格之间的直线,或者曲线,进而预测房屋价格。
根据已有房屋历史交易数据(即所谓的“正确答案”)来来预测房屋交易价格(即更多“正确答案”),是典型的监督学习,而且是线性回归算法。这里要理解回归(Regression)是什么含义?简单来说,回归就意味着预测结果是连续的(Continuous)。

1.2 分类(Classification)

如果预测结果是不连续的呢?这就属于分类问题,比如NG在课程中提到的癌症预测案例,如下图所示:


classification

根据一个人身上肿块大小,预测肿瘤是良性的还是恶性的,即有没有得癌症?因为结果要么是得了癌症,要么是没得癌症,只有两个结果,即结果是不连续的,离散的。本实例只有两个结果,即良性和恶性,算是一个Binary Classification,当然有Multi-Class Classification,比如新闻分类,可以有很多种。
上述两个案例中,都是只有一个特征,实际问题中特征肯定不止一个,比如房间预测案例中房间数目,癌症预测案例病人年龄,都是有价值的特征。有一些算法可以处理多个甚至无限多特征,比如支持向量机(SVM),里面有 一个巧妙的数学技巧,能让计算机处理无限多个特征。
另外,监督学习中还有决策树,深度学习等,也属于分类算法,后面的课程笔记中再详细说明。

2.无监督学习(Unsupervised Learning)

无监督学习肯定是相对监督学习而言,无监督学习不管是训练数据还是学习目标都不明确,没有任何标签(Unlabeled data),没有“正确答案”,只有一个数据集,算法自己从数据中学习出有价值的东西出来。最常见的应该是聚类算法,聚类算法应用很广泛,比如谷歌新闻分类,DNA微观数据集,大型计算机集群,推荐系统,天文数据分析等。
NG在课程中举了一个鸡尾酒宴问题(Cocktail Party Problem)的案例,即在一个嘈杂的环境中,如何根据两个麦克风输入的声音,提取出某一个人或者某个东西发出的声音,是一个无监督学习的例子。
除了无监督学习,图中还提到的几个算法,下面逐一简单说明之:

3.另一种分类

在网上看到过一篇机器学习的入门文章(计算机的潜意思《让我们从机器学习谈起》),总结的也比较好,如下:

AI_Notes,欢迎关注
上一篇 下一篇

猜你喜欢

热点阅读