解析库 -- beautifulsoup4
2018-10-30 本文已影响23人
GHope
BeautifulSoup4
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.-----引入官网地址的一句话。
安装
Beautiful Soup 4 通过PyPi发布,所以如果你无法使用系统包管理安装,那么也可以通过 easy_install 或 pip 来安装.包的名字是 beautifulsoup4 ,这个包兼容Python2和Python3.
pip install beautifulsoup4
使用
遍历文档树
获取标签
获取标签属性
获取标签内容
获取子(孙)节点
获取父节点/祖先节点
获取兄弟节点
搜索树节点
find / find_all:字符串、正则表达式、列表、True、函数或Lambda。
select_one / select:CSS选择器