对TesseractOCR的学习

2018-08-30 本文已影响0人啷里个啷里个啷个里个啷

背景：最近公司想开发文档扫描类的应用，于是找到TesseractOCR进行探究。

对TesseractOCR使用遇到的问题

1，配置的时候出现挺多的问题，其中有chi_sim.traineddata文件的配置，比较麻烦，需要找到对应版本的chi_sim.traineddata才能运行，不然提示找不到对应的chi_sim，无法识别中文（提示找不到对应的chi_sim，或者翻译出来的是乱码都是因为这个原因）。chi_sim表示中文简体，GitHub上还有繁体中文的，需要的可以去看下。

2，运行的过程中，效果并不理想，其中很多的文字，显示不出来。

时间稍长一点了，没有配置截图了。

总结：

TesseractOCR针对数字，转换效果还是不错的，但是英文和中文稍差一些。

最后时限功能是用的百度的OCR，效果不错。

链接：https://cloud.baidu.com/product/ocr

对TesseractOCR的学习

猜你喜欢

热点阅读