Centos7通过yum安装tesseract-OCR实现简单o

2023-04-23  本文已影响0人  Chting

一、前期准备
更新当前系统版本

yum updata -y

安装yum包管理工具,大部分系统未安装

yum install yum-utils -y

二、安装tesseract
导入公钥

rpm --import https://build.opensuse.org/projects/home:Alexander_Pozdnyakov/public_key

增加yum源

yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/

安装tessceract

yum install tesseract -y

安装语言包

yum install tesseract-langpack-deu -y

安装中文语言包

yum install tesseract-langpack-chi-sim tesseract-langpack-chi-sim-vert -y

如果需要其他语言包,安装包的格式为tesseract-langpack-xxx

三、测试一下结果
查看当前的版本状态

tesseract -v
tesseract --version

结果如下

tesseract 4.1.3
leptonica-1.76.0
libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7 : libwebp 0.3.0
Found AVX2
Found AVX
Found FMA
Found SSE

查看支持的语言

tesseract --list-langs

结果带有chi_sim chi_sim_vert 表示安装成功

List of available languages (5):
chi_sim
chi_sim_vert
deu
eng
osd
————————————————
原文链接:https://blog.csdn.net/mu_yi_/article/details/127359340

尝试ocr识别

from flask import Flask, jsonify, request
import pytesseract
from PIL import Image

app = Flask(__name__)

@app.route('/ocr', methods=['POST'])
def ocr():
    # 接收 POST 请求的图片文件,保存到本地
    file = request.files['file']
    img = Image.open(file)
    img.save('temp.png')

    # 使用 pytesseract 进行 OCR 识别
    text = pytesseract.image_to_string(img, lang='chi_sim',config='--psm 6')

    # 输出识别结果
    response = {'text': text}
    return jsonify(response)

if __name__ == '__main__':
    app.run(debug=True)
上一篇 下一篇

猜你喜欢

热点阅读