2、how to extract text from image

2019-01-11  本文已影响0人  BigBigGuy

Using tesseract with Python(Tesseract OCR with Python)

1、安装OCR库

sudo apt-get install tesseract-ocr

2、命令行测试

tesseract test.png output.txt

3、安装Python库(PIL分支Pillow和ORC的python库)

sudo pip3 install Pillow pytesseract

4、一段超简单的代码(默认识别英文)

from PIL import Image
import pytesseract

im = Image.open("test.png")
text = pytesseract.image_to_string(im)
print(text)

5、中文识别,结果较差

首先要下载tesseract的中文包:chi_sim.traineddata
https://github.com/tesseract-ocr/tessdata/blob/master/chi_sim.traineddata

然后拷贝到tessdata文件夹

sudo mv chi_sim.traineddata /usr/share/tesseract-ocr/4.00/tessdata

再将上面代码改一改

text = pytesseract.image_to_string(image= im, lang="chi_sim")
上一篇 下一篇

猜你喜欢

热点阅读