web服务器

解析库 -- beautifulsoup4

2018-10-30  本文已影响23人  GHope

BeautifulSoup4

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.-----引入官网地址的一句话。

安装

Beautiful Soup 4 通过PyPi发布,所以如果你无法使用系统包管理安装,那么也可以通过 easy_install 或 pip 来安装.包的名字是 beautifulsoup4 ,这个包兼容Python2和Python3.

pip install beautifulsoup4

使用

遍历文档树
获取标签
获取标签属性
获取标签内容
获取子(孙)节点
获取父节点/祖先节点
获取兄弟节点

搜索树节点
find / find_all:字符串、正则表达式、列表、True、函数或Lambda。
select_one / select:CSS选择器

上一篇 下一篇

猜你喜欢

热点阅读