Selenium的自学之路

笔记3-解析库安装

2019-01-08  本文已影响2人  路由心定

1.lxml安装

支持HTML、XML、XPath解析,解析效率高

pip3 install lxml

2.Beautiful Soup

Python的HTML或XML解析库,拥有强大的API和多样的解析

pip3 install beautifulsoup4

3.pyquery安装

提供了类似jQuery的语法解析HTML文档,支持CSS选择器

pip3 install pyquery

4.tesserocr安装

主要做图形处理,删除非空文件夹命令:rm -rf 文件夹名

4.1 安装


yum install -y tesseract
-顺利安装的话可以忽略下面内容,如果报错见图-1
-1-安装epel源
yum -y install epel-release
-2-安装tesserocr
yum install -y tesseract
图-1.png

4.2查看语言支持

tesseract --list-langs
图-2可以看到目前只支持英文
继续安装多种语言,步骤如下
-1-:git clone https://github.com/tesseract-ocr/tessdata.git
-2-:mv tessdata/* /usr/share/tesseract/tessdata
-3-:tesseract --list-langs
图-2
上一篇下一篇

猜你喜欢

热点阅读