OCR从入门到不精通

2016-12-04 本文已影响2259人吴钧泽

最近在爬某网站，老是蹦出来验证码，就想着找个OCR破了这个验证码，然后就开始了OCR探索之旅。

OCR是（Optical Character Recognition，光学字符识别）的简称，主要用途：

首先我测试了一个百度开源的Node.js实现的OCR包
gitHub地址 https://github.com/netpi/baidu-ocr-api
安装也很简单直接按照官方的文档安装即可
发现百度的这个OCR包识别效果不太理想

node_ocr.png
然后经过一番Google和小伙伴们的推荐选择一个Google开源的tesseract这个是C++写的，直接融合到爬虫里不太方便，有外国朋友基于tesseract封装了一个Python的包pytesseract,直接开箱即用，融入爬虫程序中。
百闻不如一run
ps(这里使用的操作系统是Ubuntu16.04；Python版本是2.7)
直接 pip install pytesseract 然后Python图片处理要用到PIL(Python Imaging Library) pip install PIL
原图片

ocr.gif
写个简单的测试demo

code.png
看下识别结果

error.png
报错了，根据报错信息来看，是确实了什么文件，或者依赖lib
我跟踪了pytesseract的代码，发现是少了C++提供的OCR服务，因为pytesseract是调用的tesseract(C++写的)
然后安装tesseract sudo apt install tesseract
再run一下代码

pyocr_res.png

整体结果还可以（倒数第四位识别错了），再训练一下准确率就更高了。
预知后事如何，且听下回分解