山寨一个Siri

2016-12-26 本文已影响1025人 dimsky

SiriKit 从6月份的 WWDC2016 推出已经有一段时间了，不少应用也慢慢的适配了Siri，但是可能很多童鞋还没有来得及去试试，下面我们先试一下：

我们可以在在设置里查看已经适配Siri 的应用，可以在这里将应用打开权限，也可以在Siri 触发的时候通过提示来打开。

目前我知道的已经适配了Siri 的应用

SiriKit 是以 Extension 的方式来给已有App 来提供支持，就目前Siri 支持的intent来说，还是有很多使用的限制，只能针对特定的词汇通过命令来进行识别处理。这里不介绍如何使用SiriKit ，下面我想利用iOS中目前已经公开的其他 API 实现一个应用内的语音助手，来理解Siri 的实现。

其实想要实现Siri，我们只需要先将语音进行识别，然后再将语音内容进行分析，然后再将分析出来的结果进行输出，当然这输出不只是语音，也可能是一些反馈信息和一些事件处理。
下面我们先来实现语音识别。

语音识别

Speech framework 也是在WWDC 2016 推出的一个语音识别框架，并且支持多种语言，Siri 也是基于此框架来进行语音识别。还在iOS 3 、4 时代的时候就已经开始有一些第三方的语音识别框架，但那时候不是价格高就是识别不精准，导致很多应用软件对语音识别都望而却步。但目前的语音识别技术都已经炉火纯青，就中文来说，不仅仅是已经能够识别出普通话，还能识别出粤语。科大讯飞在国内应该是语音识别技术做的最好的了，在几年前就已经实现了离线语音识别的功能。
Speech 当然也不甘落后，也提供了离线的语音识别，速度和精准度也不必多说。

苹果一直都是呈现出来最简单最易用的API 给开发者，所以通过Speech 实现一个语音识别功能就是分分钟搞定。

主要类有：

SFSpeechRecognizer
SFSpeechRecognitionRequest
1). SFSpeechURLRecognitionRequest
2). SFSpeechAudioBufferRecognitionRequest
SFSpeechRecognitionTask
SFSpeechRecognitionResult

简单四步实现语音识别

// 请求获取语音识别权限
SFSpeechRecognizer.requestAuthorization { (status) in   . . . }

// 初始化中文语音识别
let speechRecongnizer = SFSpeechRecognizer(locale: Locale(identifier: “zh_CN”))

// 初始化识别请求
let recognitionRequest = SFSpeechURLRecognitionRequest(url: NSURL(string: "...")!)

// 请求获取语音识别
let recognitionTask = speechRecongnizer?.recognitionTask(with: recognitionRequest, resultHandler:{ (result, error) in
    if let result = result {
        print(result.bestTranscription.formattedString)
        let isFinal = result.isFinal
    }
 })

这里我们需要实现实时语音识别并转化有效信息，就需要使用SFSpeechAudioBufferRecognitionRequest来通过缓冲流实时将语音转化为有效文字信息。

let audioEngine = AVAudioEngine()
let recognitionRequest = SFSpeechAudioBufferRecognitionRequest()
guard let inputNode = audioEngine.inputNode else {
    fatalError("audioEngine error")
}
let recordingFormat = inputNode.outputFormat(forBus: 0)
inputNode.installTap(onBus: 0, bufferSize: 1024, format: recordingFormat) { (buffer, when) in
    recognitionRequest?.append(buffer)
}
let recognitionTask = speechRecongnizer?.recognitionTask(with: recognitionRequest, resultHandler: { (result, error) in
    var isFinal = false
    if let result = result {
        print(result.bestTranscription.formattedString)
    }
})

audioEngine.prepare()
do {
    try audioEngine.start()
} catch {
    print("couldn't start")
}

这样我们就可以实时监听语音输入流自动转化为文字了，下面我们需要对文字进行解析，然后将反馈信息读出来。

语音朗读

AVSpeechSynthesizer 是随着iOS 7.0 而推出的一个文字转语音的特性，几行代码就能实现文字转成语音播放出来，

AVSpeechSynthesizer
AVSpeechUtterance
AVSpeechSynthesisVoice

// 通过文字初始化话语
let utterance = AVSpeechUtterance(string: "语音转文字")

// 设置语言
utterance.voice = AVSpeechSynthesisVoice(language: "zh-CN")

// 读出来
let synthesizer = AVSpeechSynthesizer()
synthesizer.speak(utterance)

通过分词解析并反馈

下面我们就可以解析出一些词汇或命令来做出相应的反馈。就比如

var string = ""
if action.contains("叫爸爸") || action.contains("喊爸爸") {
    string = "爸爸"
} else if action.contains("笑话") {
    string = "我有个直觉，圣诞节那天，可能会有个人捧着鲜花和礼物对我说, 让一让兄弟,挡路了。"
} else if action.contains("绕口令") {
    string = "黑化黑灰化肥灰会挥发发灰黑讳为黑灰花会回飞；灰化灰黑化肥会会挥发发黑灰为讳飞花回化为灰"
}

当然，这只是一些很简单的语音命令，如果要更精确的语音识别，肯定需要非常精准的分词算法来支持。
那么这样一个山寨的应用内Siri 就算完成了。

山寨一个Siri

语音识别

语音朗读

通过分词解析并反馈

猜你喜欢

热点阅读