ML. Andrew Ng. 4.28 Ⅱ

2019-04-28 本文已影响0人 13351

Andrew会花很多时间来教授案例，这样的好处是往往能够避免我们去走别人已经走过的弯路，以便于我们开发机器学习系统的时候不会变成花6个月去研究机器学习系统却出了大毛病的人的一员

监督学习

现在实例监督学习，后面解释
监督学习意思是给出一个算法，需要部分数据集已经有正确答案。

意思是要预测一个连续值的输出，比如房价。
实际上是离散值，所以往往看作标量

对应的问题是：给定肿瘤的大小，你能否给出肿瘤为良性还是恶性的概率的对应大小

image.png

在别的学习算法中，可能用到更多特征，在最有意思的学习算法中，能够用无穷多的特征

当使用支持向量机的算法时，就知道存在简洁的数学方法能够让计算机处理无穷多的特征。

不是写下五六个特征，而是写下一个无穷长的特征表

监督学习当中，我们有数据集并且已经知道我们的正确输出应该是什么样的（训练集），并且试图找出输入和输出之间的关系。
监督学习分为回归和分类问题
回归问题试图预测连续值输出，我们试图将输入变量映射到一些连续函数上。
分类问题试图预测离散输出，我们试图将输入变量映射到一些离散类别上。

例1：给定房产大小，预测房价。价格是大小的连续函数，这是回归问题。
我们也可以把它变成分类问题，给定某个阈值价格，高于它卖出，低于它不卖，这样就将问题转化为“以高于或者低于给定价格卖出？”的二分类问题

例2：
（a）回归问题：给定某人照片，基于这张照片预测年龄
（b）分类问题：知道某个患肿瘤的病人信息，预测肿瘤是恶性(malignant)还是良性(benign)

监督学习每个样本都标注为正样本负样本，但是无监督不知道这些数据是什么意思，问题是：我给你一堆数据，你能找到这些数据的某种结构吗？

聚类算法的应用：google news会将相似新闻组成新闻专题
基因芯片的概念，将相似的基因段分类

四大无监督学习应用：

在不同距离有不同的麦克风，两个发言者同时对这些麦克风说话

算法实现了两个人的不同语音的分离增强
算法还实现了单独人说话时，和他的背景音乐的分离增强

Andrew Ng:在Java或者C++中实现这个算法要好多行，现在Python由于库函数的原因变得很容易，但是他说的这两大语言还是要注意