机器学习日记之非监督学习

2018-06-22 本文已影响15人陈宏斌9527

监督学习算法去数据集中积累经验时，关键在于数据是有标签的。用通俗的话来讲，我需要算法分别这个是人，那个是花，然后它就慢慢学会认识这些事物了。

但是生活中大部分数据是没有标签的，无标签数据比有标签数据要多的多。为什么呢？因为给数据人工加标签是十分繁重的工作。如果是几十上百万的数据量要添加标签，想想看是多大的工作量。

面对无标签数据，我们的机器学习方法就叫做，非监督学习。加标签的术语叫做聚类。

举个例子，如果你知道数据集来自于2种花的数据，就可以利用聚类算法给数据打上标签。

当然，你不知道种类的个数，也有办法聚类。

所以说，无监督学习的「力量」是很大的，它不仅可以用于数据的聚类，同时还能帮助我们给数据集添加标签。于是，很多机器学习的流程其实就变成了：