越狱开发 app录音+自动转文字

2016-07-26 本文已影响86人 pockyzhang

之前做过一段准备，

http://www.jianshu.com/writer#/notebooks/1255467/notes/3750466

做的app也是完全基于大狗神的代码和路数。

实现思路：
1、实现电话录音
2、可能需要做一些转码工作
3、用包含讯飞的app去识别音频

实现过程
1、编译安装tweak 此处无话
2、转码工作。tweak中把caf转为m4a，一开始的思路是把m4a转为wav。
反正我不懂这些东西，就使劲google，但是依然没找到，尤其是录音文件是双声道的，变为单声道完全没想法。现在想来，有ffmpeg应该不是难事。
后来牛逼了，想到把caf转为wav。
问题出现：app读不到/var/mobile/Media/DCIM路径。
解决办法：安装到用户应用目录下的是读不到的，果断安装到系统目录下/Applications
问题出现:macports完全没法更新。用brew安装了dpkg，打包的deb没法安装。
解决办法：百度之。另外装了一个什么东西去/opt/theos/bin 下面，用的时候写死。

这个时候好牛逼的，已经能识别了。结果换一个音频就歇比了。于是各种想办法。想到了剪切音频。只留下验证码的部分。一顿折腾，还是用大狗神的方法，ffmpeg搞。于是学习app怎么调用系统命令。于是又学习了app获取root权限。。。然后！！终于都弄出来了，还是不行。

看到可以使用热词。现在就想上传1w个热词看他行不行。讯飞只支持2k个。我要想办法利用起来。就是这样。

在讯飞群里混了几天，尝试把数字识别出来。学到了语法识别。但是还是不准确的。折腾来折腾去，累得要死。

下载了搜狗语音识别的demo，oshit framework里面的链接文件都失效了，不知道他们怎么搞的。一找头文件，也还是有识别语音流的。调用之前测试的音频，牛逼啊，数字完美呈现。赶紧换一个试试，就不行拉。。哎呀。放弃了。

总结一下吧，tweak这一部分，我是什么都没学到。那些东西我也学不来。app部分好像也没啥，就是学了个调用系统命令，app获得root权限。讯飞的人说了，他们是基于人声音进行识别的，机器合成的不好弄。阿西吧。

越狱开发 app录音+自动转文字

猜你喜欢

热点阅读