Python爬虫系列（七）：提高解析效率

2017-10-24 本文已影响71人阿尔卑斯山上的小灰兔

目标文档

from bs4 import BeautifulSoup, NavigableString

from bs4 import SoupStrainer

only_a_tags = SoupStrainer("a")

only_tags_with_id_link2 = SoupStrainer(id="link2")

def is_short_string(string):

return len(string) < 6

only_short_strings = SoupStrainer(text=is_short_string)

soup = BeautifulSoup(html_doc, "lxml")

print('1------------找到所有a元素')

print(BeautifulSoup(html_doc, "html.parser", parse_only=only_a_tags).prettify())

print('2------------找到id=link2的元素')

print(BeautifulSoup(html_doc, "html.parser", parse_only=only_tags_with_id_link2).prettify())

print('3------------找到元素长度小于10的元素')

print(BeautifulSoup(html_doc, "html.parser", parse_only=only_short_strings).prettify())

今天，我们的爬虫系列基础就算告一段落。这些，就是公司培训新手的教程。实际上，在项目的实际过程中，还有太多坑，知识库里面的东西后面逐步分享出来。

码字不易，期盼点赞