笔记3-解析库安装
2019-01-08 本文已影响2人
路由心定
- 主要用作从网页提取信息,主要有lxml、Beautiful、Soup、pyquery等
1.lxml安装
支持HTML、XML、XPath解析,解析效率高
pip3 install lxml
2.Beautiful Soup
Python的HTML或XML解析库,拥有强大的API和多样的解析
pip3 install beautifulsoup4
3.pyquery安装
提供了类似jQuery的语法解析HTML文档,支持CSS选择器
pip3 install pyquery
4.tesserocr安装
主要做图形处理,删除非空文件夹命令:rm -rf 文件夹名
4.1 安装
yum install -y tesseract
-顺利安装的话可以忽略下面内容,如果报错见图-1
-1-安装epel源
yum -y install epel-release
-2-安装tesserocr
yum install -y tesseract
图-1.png
4.2查看语言支持
tesseract --list-langs
图-2可以看到目前只支持英文
继续安装多种语言,步骤如下
-1-:git clone https://github.com/tesseract-ocr/tessdata.git
-2-:mv tessdata/* /usr/share/tesseract/tessdata
-3-:tesseract --list-langs
图-2