Tesseract-OCR识别训练数学题集

2018-03-23 本文已影响535人 peerless_1024

概念学习：

Tesseract，一款由HP实验室开发由Google维护的开源OCR（Optical Character Recognition , 光学字符识别）引擎，与Microsoft Office Document Imaging（MODI）相比，我们可以不断的训练的库，使图像转换文本的能力不断增强。

osd.traineddata的含义

Orientation and script detection (OSD)指的是页面的方向检测和文字的方向检测，指的是阅读的方向性。大多数情况阅读方向是从左到右的，读完上面一行再读下面一行。而古体中文，文字是竖着写的，阅读方向是从上到下的，行与行之间呢，是从右往左读的。

参考了下面两篇博文，就开始了自己的训练过程，本人要实现拍照搜题的功能，主要选取初一的数学题作为训练集来对识别匹配字库进行训练。

从下载地址下载，3.05.1版本的tesseract并安装，安装过程参照第一遍博客。

验证是否安装成功，cd到安装目录下：出现如下界面表示安装成功

2. 训练字库

具体过程参照第二篇博客，生成自己的字库

放到安卓文字识别里面使用，识别用于训练的图像时的速度就变得很快了。