python小项目练习Scrapy我的Python自学之路

使用HTMLParser解析器爬取网页内容

2017-01-08  本文已影响364人  happyte

相关模块的安装

解析网页内容

  HTMLParser.__init__(self)

在初始化函数中定义一个字典,用于存储爬取到的标题作者和内容(1首诗对应一个字典),定义一个列表用于存储字典(列表中存储所有诗对应的字典)。定义几个标志位(用于标记上面分析的几个需要找到的标签),以及一个正则表达式(用于分离标题和作者)


解析具体网页的内容

上一篇下一篇

猜你喜欢

热点阅读