Vision架构看我就够了

2017-11-30 本文已影响95人 bigParis

我们学习CoreML, 除了学习一种新的解决问题的思维外, 对于程序员, 一定要学习苹果对于CoreML的架构, 以Vision为例, 看看苹果是如何进行架构的.

Vision常用类结构图.png

乍一看去, 有点懵逼, 下面来用一个小demo演示下

let handler = VNImageRequestHandler(cgImage: image.cgImage!, options: [:])
do {
  let request = VNDetectFaceLandmarksRequest(completionHandler: handleFaceLandmarks)
  try handler.perform([request])
} catch {
  print(error)
}

func handleFaceLandmarks(request: VNRequest, error: Error?) {
        guard let observations = request.results as? [VNFaceObservation] else {
            fatalError("could not get result from request")
        }
   
        for vm in self.buttonOriginalImage.subviews where vm.tag == 10 {
            vm.removeFromSuperview()
        }
        
        var landmarkRegions : [VNFaceLandmarkRegion2D] = []
        
        for faceObservation in observations {
            landmarkRegions = self.addFaceFeature(forObservation: faceObservation, toView: self.buttonOriginalImage)
            self.selectedImage = self.drawOnImage(source: self.selectedImage, boundingRect: faceObservation.boundingBox, faceLandmarkRegions: landmarkRegions)
        }
        self.buttonOriginalImage.setBackgroundImage(self.selectedImage, for: .normal)
    }

    func addFaceFeature(forObservation face: VNFaceObservation, toView view: UIView) ->[VNFaceLandmarkRegion2D]{

        guard let landmarks = face.landmarks else { return [] }
        print("confidence1:\(face.landmarks?.confidence ?? 0), confidence2:\(face.confidence)")
        var landmarkRegions: [VNFaceLandmarkRegion2D] = []
        
        if let allPoints = landmarks.allPoints {
            landmarkRegions.append(allPoints)
        }
     
        return landmarkRegions
    }

好了, 上面的代码就是一个简单的人脸识别的代码片段, 里面已经几乎涉及了Vision中所有常用的类.

首先, VNImageRequestHandler是用来处理图片的, 通过perform方法, 我们可以对训练好的模型发送请求, 这里的请求就和我们平常客户端服务器开发一样, 只不过客户端是我们程序员, 服务器是训练好的模型, 对我们来说是个黑盒, 而这个request就是对请求参数封装好的类.

看下我们平时都怎么发送Http请求, 以AFN为例

NSURLSessionConfiguration *configuration = [NSURLSessionConfiguration defaultSessionConfiguration];
AFURLSessionManager *manager = [[AFURLSessionManager alloc] initWithSessionConfiguration:configuration];

NSURL *URL = [NSURL URLWithString:@"http://example.com/download.zip"];
NSURLRequest *request = [NSURLRequest requestWithURL:URL];

NSURLSessionDownloadTask *downloadTask = [manager downloadTaskWithRequest:request progress:nil destination:^NSURL *(NSURL *targetPath, NSURLResponse *response) {
    NSURL *documentsDirectoryURL = [[NSFileManager defaultManager] URLForDirectory:NSDocumentDirectory inDomain:NSUserDomainMask appropriateForURL:nil create:NO error:nil];
    return [documentsDirectoryURL URLByAppendingPathComponent:[response suggestedFilename]];
} completionHandler:^(NSURLResponse *response, NSURL *filePath, NSError *error) {
    NSLog(@"File downloaded to: %@", filePath);
}];
[downloadTask resume];

这里AFN对我们来说是黑盒, 我们把request传递给函数downloadTaskWithRequest, 然后在completionHandler里面取出我们需要的数据, 在Vision中, perform方法就相当于AFN中的downloadTaskWithRequest方法, 而最终结果是在设置request参数的时候就设置好的函数回调handleFaceLandmarks. 模型返回给我的数据保存在request.results中, 这里是个数组, 数组的类型是VNObservation.

响应

VNObservation就是用来存储检测结果的数据结构, 里面存在confidence属性, 用来保存检测结果的可信度, 对于物件检测结果保存为VNDetectedObjectObservation, 特别的, 人脸检测对应的类为VNFaceObservation.
在人脸检测结果中, 保存了VNFaceLandmarks2D, 表示的是检测到的人脸的全部特征
特征用VNFaceLandmarkRegion2D表示, 继承自VNFaceLandmarkRegion, 里面有confidence属性, 用来保存当前特征的可信度.
每个特征中又保存了CGPoint类型的数组normalizedPoints, 意思是每个面部特征(如嘴巴, 鼻子, 眼睛等)又是由若干特征点组成的.

对于自己创建的模型, 我们完全可以自定义检测结果类来继承VNObservation, 里面可以保存3D, 4D甚至ND的数据, 对于图片的人脸特征检测, 2D就已经是完全满足要求的了, 所以Vision如此设计.

请求

说完响应, 再来看下请求, 所有的请求都继承自VNRequest, 对于不同的检测, VNRequest大同小异, 基于图片的检测通常继承VNImageBasedRequest, 这也是我们最常用的, 因为大多数时候我们使用Vision, 还是把图片作为输入参数的. VNImageBasedRequest的几个子类就不一一介绍了, 看名字就知道是干什么的. 如果我们也想封装图片处理请求参数, 我们也可以继承VNImageBasedRequest类, 实际上VNRequest里面并没让我做什么事情, 只是让我们传递一个结果处理函数, 我们也可以设置usesCPUOnly, 是否只用CPU对图片进行处理, 默认是NO. VNImageBasedRequest加多了一个参数, 让我们设置感兴趣的区域regionOfInterest, 这样可以提高识别的速度, 试想, 一张非常大的图片, 处理起来必然特别慢, 而合理设置感兴趣区域可以让模型只对感兴趣区域进行检测(还没实践过).
VNImageRequestHandler是对所有请求的封装, 这里要求输入参数是UIImage, 并将这之前设置的请求参数结构传递给perform方法, 就完成了请求.

如果不是(可能性不大)图片的输入, 我们可以自己封装一个VNDataRequestHandler, 输入可以是数组, 因为图片本身是个矩阵, 矩阵降维就成了数组, 不过这里Vision可能是为了方便, 还是直接让我们输入UIImage, 如果我们需要处理类似天气预报这种数据, 可能会需要用到数组.

总结

从整体上看, Vision架构主要有3个类

VNImageRequestHandler 发送请求
VNRequest 封装请求参数
VNFaceObservation 保存响应结果

那在实际开发中, 我们有无数的业务请求, 是否也能用类似的方法进行封装呢?

首先我们定义一个类, MFRequestHandler(MF是业务前缀), 提供一个方法sendRequest, 要求输入请求参数MFRequest, 结果通过MFResponse返回:

MFRequest 类中存请求的uri, appid, serviceType(http or protobuf), data等
MFResponse 类中存响应的uri, appid, serviceType(http or protobuf), errCode, data等.

这样做的好处是, 发送请求的时候, 我们只需要构造好请求参数, 所有请求都调用相同的请求接口. 而响应也都是继承自MFResponse的, 通过层层的解析, 来到具体的业务模块. 而具体的请求执行在MFRequestHandler中, MFRequestHandler会根据请求参数的appid, uri, serviceType等, 将数据发送到不同的服务器.

Vision架构看我就够了

响应

请求

总结

猜你喜欢

热点阅读