谷歌OCR光学字符识别窥探
在今天早上在朋友圈和微博中看到,有关于OCR光学字符识别的有关文章,所以早上来就开始想尝试试用一下谷歌开源的第三方框架Tesseract.
光学字符识别:或者说是OCR,是指用电子的方式从图片中取出文字应用到其他领域.如文本编辑,名片识别等技术.
我将介绍谷歌开源的Tesseract引擎.
Tesseract介绍
不像其他OCR引擎(例如美国邮政业用于分类邮件的),Tesseract不能识别手写,而且只能识别一共大约64中字体的文本。
Tesseract需要一些处理来改善OCR结果,图像需要被放缩,图像有非常多的差异,另外还有水平排布的文字。
最后,Tesseract仅仅支持Liuux,Windows,Mac OS X。
那么iOS应该如何使用这套框架啦,幸运的是,这个框架有一套Tesseract OCR的Objective-C封装.所以我们可以将其使用到oc和swift当中.
swift就不解释了,用法相同,只不过要做swift使用oc代码的桥接工作.
下面开始让我们一起动手完成这个尝试吧.
首先需要创建一个工程,然后使用pod导入这个框架
pod 'TesseractOCRiOS', '~> 4.0.0'
导入这个框架后,需要添加两个链接库
libstdc++.6.0.9.dylib 和 CoreImage.framework.
接下来在顶部菜单栏的Build Phases旁边,点击Build Settings,通过列表顶部的搜索栏可以方便地找到Other Linker Flags,在Other Linker Flags的所有已有的key后面添加-lstdc++,然后依旧是在Build Settings中,找到C++ Standard Library并选择"Compiler Default"。
好了现在就可以开始编写代码了!
首先引入头文件#import<TesseractOCR/TesseractOCR.h>
然后开始编写工程的代码,我的想法是通过点击button,然后弹出actionsheet,提供相册还有相机可选功能,然后通过UIImagePickerViewController来获取需要读去光学字符的图片.
先看代码:
创建按钮 实现按钮方法,并创建UIImagePickerViewController 实现代理方法这三个方法比较简单就不过多解释.如果不明白可以自行去查找资料.
到了最重要的地方了.
核心代码1.初始化G8Tesseract实例,指定光学识别语言为英文和法文.一会还要去下载语言包.
2.设置引擎模式,这是一个枚举,一般选择G8OCREngineModeTesseractCubeCombined选择最佳精度这个.
3.设置页面分层模式为自动,也是枚举值可以自行查看,在G8Constans.h中都有注释
4.设置最大识别时间为60秒
5.引擎需要识别的图像
6.执行目标图像识别.
然后创建textview显示识别后的文本,显示出来.
正如之前讲Tesseract的局限时提到的那样,为优化OCR结果,图片必须有一定的大小限制。如果一张图片太大或者太小,Tesseract可能返回一个错误的结果,甚至直接使整个程序崩掉并抛出EXC_BAD_ACCESS错误。所以我们在从相机或相册获取到图片后先进性比例缩放,并别保证图片尽可能不失真.
缩放图片看看初始效果和最终的效果.
初始状态是这样最终效果是这样
最终效果显示是放在textview上的上下滑动可以看到全文.
我们识别的图片时来自这张图片
被识别的图片好了效果也看过了,框架也引入了,单是如果前面的都做了,你们肯定运行还是出错的.那是因为语言包还没有导入.哈哈call me old inbi
导入语言包很简单,可以去https://github.com/tesseract-ocr/tessdata自己下载476M左右包含很多语言包.
然后下载完成后找到需要的语言包,比如我需要英文和法文,所以我的文件目录是这样的
语言包目录淡入完成后就可以运行成功了,如果没有看到效果请仔细检查.
如果英文好的可以去看看这篇文章,介绍的更加详细https://www.raywenderlich.com/93276/implementing-tesseract-ocr-ios
好了,今天就介绍到这了.
谢谢
本人联系方式:qq:513961360
email:513961360@qq.com
也可以加我们的qq群希望能与朋友们一起聊天和学习.群里还有很多iOS开发者,帮助我们解决问题,并且同时学习.
qq群号:580284575