Structuring Machine Learning Pro

2018-12-06 本文已影响23人 geekpy

第二周课程目标

Understand what multi-task learning and transfer learning are
Recognize bias, variance and data-mismatch by looking at the performances of your algorithm on train/dev/test sets

Error Analysis

通常针对有监督学习，为了提高准确率，降低错误率，我们需要分析错误的原因是什么，这就涉及到error analysis。通常的做法是可以看下具体是哪些item进行了错误的分类，然后可以整理出如下图所示的表格，从而可以判断接下来应该如何降低错误率。

error analysis

在进行错误分析的时候，也需要注意有些情况下并不是我们的算法有问题，而是样本标记错误导致的。针对这种情况，就需要分析这类错误所占的比例是多少，即可以在上图的表格当中加入一列'error labeled'，如果所占比例较大，则说明需要去针对错误样本进行重新标记，但是如果比例很小，则不值得我们花精力去做这件事，而且通常DL算法对错误样本是有很强的容忍性的，即可以允许部分样本的错误，对算法的准确度影响很小。针对标记错误的样本，当我们判断需要进行更正的时候，那么有以下原则需要考虑：

rules for updating labels

dev set 和test set服从同一个分布才能建立统一的验证标准，从而让我们能够准确判断算法的优劣
training set并没有必要去做更正标签的工作，这是因为很多情况下，尤其是做迁移训练的时候，我们的训练集本身就是来自很多不同源数据，这并不影响训练算法。DL算法对于此类问题有健壮性的。
有的时候我们需要考虑预测正确的样本。因为有时我们标记错误了，但是预测也错了，这就导致预测结果是正确的（有点绕啊，举个例子，比如实际是一个狗的照片，你标记的时候，把它标记成猫，你的算法也预测是猫，虽然显示预测正确因为跟标记一致，但是实际是错误的）

另外，Andrew还强调了要尽快建立第一个模型，然后再通过分析是bias问题还是variance问题来决定下一步的方向，逐渐地迭代改进。这很类似于现在的互联网产品理念，即最小模型原则，先建立一个基本的原型产品，再跟进用户反馈快速迭代。所以一开始最好不要想太多，先做出第一个原型产品再说。

Mismatched training and dev/testing set

这一节主要讲当training set和dev/test set并非同一个distribution的时候如何处理。当我们只有很小量的实际数据，但是有大量的非实际场景数据（但是仍然是可以迁移使用的，比如都是图片），这时一种直观的做法是将所有的数据混合在一起，shuffle之后再按比例切分，但是这种情况下就存在一个问题，我们的dev/test中存在的数据大部分都是非实际场景的数据，这导致了我们的训练的target就已经不准确了，所以更好的做法是，所有的dev/test set的数据均来源于实际场景的数据，而添加一部分实际场景的数据到training set。

但是，当training set和dev/test set来自不同的distribution的时候又会带来一个问题，即当training set的error rate和dev set的error rate有较大差距的时候，我们怎么判断是存在variance问题，还是由于dev set的数据本身更加难以识别导致的，即有两种可能的因素，那么如何区分这两个因素呢？Andrew在这里提到了一个新的概念，training-dev set，如下图所示：

what's the reason of error rate difference

在原先的training set中切分出一小部分作为training-dev set，这样保证了training set和training-dev set在同一个distribution
通过在training set上训练，然后在training-dev set和dev set上分别验证，然后看这三者之间的差距就可以分析出到底是variance问题还是dev set数据本身的问题。当training set和training-dev set差距比较大时，说明存在variance问题，反之则不是variance问题，而是data mismatch问题。
总的来说，可以通过如下图中的表格来展示具体是什么问题：

how to confirm the problem

那么问题来了，当我们发现data mismatch问题时，我们该如何处理了，总的来说有两步，如下图所示：

deal with data mismatch

第一步是分析到底有哪些不同，比如在车载语音系统中可能实际的声音会有大量背景噪声，而训练集中的声音大都没有背景噪音。
第二步就是尽可能让训练集的数据与dev set中的数据近似，比如为训练集中的语言添加背景噪音

那么如何让训练集中数据更像dev set中的数据呢，这主要是通过两种方式来实现：

最好是收集更多的实际数据，然后充实到训练集中
可以用合成的方式来生成模拟数据，比如dev set的声音有背景噪音，那么我们就可以通过合成背景噪音的方式来生成模拟数据

生成模拟数据需要注意的是，我们的生成数据因为只是实际数据的一个非常小的子集，这可能导致我们的模型针对这部分数据过拟合。

Learning for multiple tasks

作者首先在这节讲述了什么是transfer learning

transfer learning

作者举了一个例子是说首先训练了一个图片识别的神经网络，之后如果我们需要一个X射线诊断的模型，我们可以将最后一层的输出层替换掉，然后再针对X射线诊断进行训练，这样最终的模型的训练会更加有效，之前的训练获得的知识可以转移到新的模型当中来。
针对新模型进行再训练有两种模式，一种是当实际的数据集较小时，我们可以只针对最后一层输出层进行训练；另一种是当我们有大量的实际数据时，我们可以针对整个神经网络进行重新训练。
针对第二种训练方式，这里会有两个概念。之前针对图像识别的训练我们可以叫做pre-training，之后的针对X射线的训练可以叫做fine tuning
那么为什么这样是有效的呢？这是因为神经网络之前通过训练习得的knowledge如对于图像边缘的识别，对于曲线和物体的识别这些low level的knowledge对于新模型仍然是有效的

那么在什么情况下我们需要使用transfer learning呢？

when transfer learning makes sense

接下来讲了什么是multi-task learning

auto driving example

可以看出最终的输出不再是单个的output，而是多个output，最终输出结果是一个vector
也就是一个神经网络可以针对多个target进行结果输出。这里需要对multi-class和multi-label进行区分（具体参考multi-class vs multi-label)：

Multiclass classification means a classification task with more than two classes; e.g., classify a set of images of fruits which may be oranges, apples, or pears. Multiclass classification makes the assumption that each sample is assigned to one and only one label: a fruit can be either an apple or a pear but not both at the same time.
Multilabel classification assigns to each sample a set of target labels. This can be thought as predicting properties of a data-point that are not mutually exclusive, such as topics that are relevant for a document. A text might be about any of religion, politics, finance or education at the same time or none of these.

下图展示了一个multi-task neural network：

multi-class neural network

在计算loss function的时候，需要将4个output的y hat都相加来计算的总的loss
通常这种多任务的神经网络也可以分开成single target的神经网络，比如只去标记行人，但是，通常情况下把其变成多任务的神经网络performance更好，这是由于其low level的knowledge可以互相share，这样通常有助于提高神经网络的性能
另外，当某些样本没有针对某个target进行标记的时候也不影响神经网络的训练，因为在计算的时候，如果发现某个label没有标记，就不会对其损失函数进行加总，也不影响其最终结果

那么什么情况下multi-task learning是有意义的？

when multi-task learning makes sense

End-to-end deep learning

什么是end-to-end deep learning?作者首先举了个例子

end-to-end learning

在之前的人工智能很多时候我们人为的分成了不同阶段（作者举了speech recognition的例子），但是通过神经网络我们不需要人工的区分阶段，通过输入audio，输出transcript，直接可以训练出end-to-end的模型

之后，作者举了个人脸识别的例子，这个例子表明有的时候分步进行又是有意义的：

face recognition

这里当我们将人脸识别程序分为两步时，通常效果更好，我们可以先从图中识别人脸，第二部再讲人脸放大到一定比例后进行鉴别（跟存储的人像进行比较）。通常分成两步会提高系统的整体性能。

那么什么情况下使用end-to-end，什么情况下使用分步法比较好呢？
这通常跟我们的数据有极大的关系，当我们有大量的input和output数据的时候，我们可以直接使用end-to-end的方式，但是当我们的数据的模式是input->step output, step output-> output的时候，那么我们就需要分步来做，总的来说跟你的数据模式有关系。

Structuring Machine Learning Pro

Error Analysis

Mismatched training and dev/testing set

Learning for multiple tasks

End-to-end deep learning

猜你喜欢

热点阅读