越狱开发 app录音+自动转文字

2016-07-26  本文已影响86人  pockyzhang

之前做过一段准备,

http://www.jianshu.com/writer#/notebooks/1255467/notes/3750466

做的app也是完全基于大狗神的代码和路数。

实现思路:
1、实现电话录音
2、可能需要做一些转码工作
3、用包含讯飞的app去识别音频

实现过程
1、编译安装tweak 此处无话
2、转码工作。tweak中把caf转为m4a,一开始的思路是把m4a转为wav。
反正我不懂这些东西,就使劲google,但是依然没找到,尤其是录音文件是双声道的,变为单声道完全没想法。现在想来,有ffmpeg应该不是难事。
后来牛逼了,想到把caf转为wav。
问题出现 :app读不到/var/mobile/Media/DCIM路径。
解决办法:安装到用户应用目录下的是读不到的,果断安装到系统目录 下/Applications
问题出现:macports完全没法更新。用brew安装了dpkg,打包的deb没法安装。
解决办法:百度之。另外装了一个什么东西去/opt/theos/bin 下面,用的时候写死。

这个时候好牛逼的,已经能识别了。结果换一个音频就歇比了。于是各种想办法。想到了 剪切音频。只留下验证码的部分。一顿折腾,还是用大狗神的方法,ffmpeg搞。于是学习app怎么调用系统命令。 于是又学习了app获取root权限。。。然后!!终于都弄出来了,还是不行。

看到可以使用热词。现在就想上传1w个热词看他行不行。 讯飞只支持2k个。我要想办法利用起来。 就是这样。

在讯飞群里混了几天,尝试把数字识别出来。学到了语法识别。但是还是不准确的。折腾来折腾去,累得要死。

下载了搜狗语音识别的demo,oshit framework里面的链接文件都失效了,不知道他们怎么搞的。一找头文件,也还是有识别语音流的。调用之前测试的音频,牛逼啊,数字完美呈现。赶紧换一个试试,就不行拉。。哎呀。放弃了。

总结一下吧,tweak这一部分,我是什么都没学到。那些东西我也学不来。app部分好像也没啥,就是学了个调用系统命令,app获得root权限。讯飞的人说了,他们是基于人声音进行识别的,机器合成的不好弄。阿西吧。

上一篇下一篇

猜你喜欢

热点阅读