tesseract OCR识别图片中的文字

2019-05-28  本文已影响0人  georgesre

目前有很多OCR识别提取图片中文字的软件,也包括很多笔记软件,比如onenote等。除了现有的软件外,我们也可以利用开源的tesseract 来实现OCR。

环境:

开始

我自用的脚本和常用的提取图片文字的方式:

brew install tesseract
brew install imagemagick
#!/bin/bash

#Usage:   tesser filename.png
#Example: tesser xxxx.png

#To check usage
if [ $# != 1 ] ;  then
        echo "Usage:sh tesser filename.png"
        exit
fi

png_filename="$1"
tif_filename="tif_temp.tif"

convert -density 200 -units PixelsPerInch -type Grayscale +compress "$png_filename" $tif_filename
tesseract $tif_filename out -l eng
#tesseract $tif_filename out -l chi_sim
cat out.txt

####
rm -f $tif_filename
rm -f out.txt
exit

给执行的权限

chmod u+x tesser.sh

识别文章中的文字

./tesser.sh
Usage:sh tesser filename.png

演示:

演示

云平台开发运维解决方案@george.sre

个人主页:https://geekgoogle.com

GitHub: https://github.com/george-sre

Mail: george.sre@hotmail.com

简书: georgesre - 简书

欢迎交流~

上一篇下一篇

猜你喜欢

热点阅读