BoW实现图像分类报告

2017-04-21 本文已影响0人 Fruit_初

在一般图像处理中常用的几种特征有：
SIFT、SURF、ORB、OpponentColor
对一张图片，其存在以上几类不同的特征点，这些特征点具有尺度不变性，所以放大缩小或者旋转，都不影响特征点的匹配。

因此，我们可以认为

将训练集中一张图片上的所有相应特征提取出来，进行分类学习。那么对于测试集合中的图片，我们可以根据其中所有的特征点属于某一类的概率，计算出这张图片最有可能属于的类。

但是，这样的做法确是低效的，而且效果不良好的。

主要原因有（不妨假定，我们现在提取的是SIFT特征）：

每张图片都有成千个SIFT特征，因此1000张的测试图片提取出来的特征向量可能有超过1e6个。数据量过于庞大。
每张图片中本身存在一些实际上为噪音的特征点。比如，背景上的SIFT特征，对于我们的分类本身属于一定程度的干扰，当然我们可以对SIFT特征进行一些筛选。
每张图片能提取出的SIFT特征数目与图片的大小有关。在实际测试中，比较大的图片上，比如fruits等等类的图片可以有几千个特征点，而bear类因为每张图片比较小只有几百个特征点。这样会导致训练数据的失衡。（此处的SIFT特征还没有筛选）

针对上述问题，我们使用的是bag-of-words的方法来对每张图片提取特征。其主要的思路如下：

（1）依然是对每张图片提取其特征点，比如提取了SIFT特征点
（2）对所有图片的所有的SIFT特征点，整体进行kmeans聚类，将词划分成多个不同的类，类的个数定义为wordCount。
（3）对每张图片，计算不同的类的SIFT特征的个数，对应所要得到的特征向量中的一个维度。则我们可以对每张图片生成一个wordCount维的向量。

形象的理解bag-of-words可以这么看。
比如对于两张狗的照片：