Python爬虫系列

用Python 爬虫中 re 模块,爬取《糗事百科》的糗事并存储

2019-08-01  本文已影响24人  我爱学python

我们要爬取的网站链接是https://www.qiushibaike.com/text/page/1/

我们要爬取的是里面的糗事,在之前的文章中我们已经可以爬取整个 url 链接里的 html 内容,那么我们就可以根据爬取到的 html 代码,再通过 re 模块匹配我们想要的内容即可。

我们通过调用开发者工具检查 HTML 元素发现我们想要的内容在<div class="content"> ...... </div> 内,根据这个我们可以写出代码如下:

最终我们打印结果如下:

从上面的打印结果可以看出我们已经拿到了我们想要的数据,并且存储在了一个列表里,那么接下来我们只需要再处理一下列表,叫列表内杂七杂八的内容,如上图中的 \n <span>标签等去掉,就是我们想要的内容了。

上面的代码中 item_list 即为我们上面所获取到的 content_list 列表,通过对列表的内容分析,我们发现有 <span> ,<span class="contentForAll">查看全文,</span>,<br/>,\n 等多余内容,我们通过 replace 方法将其转为空,剩下的就是我们想要的内容了,接下来就是存储到本地即可了。

上面就可以实现一个获取 糗事百科 的糗事的简单爬虫,但是只能爬取单个页面的内容,通过分析 url 我们发现https://www.qiushibaike.com/text/page/1/中最后的 1 即为页码,我们就可以根据这个页码逐一爬取更多页面的内容,最终的代码如下:

最终会在本地添加一个 qiushi.txt 的文件,结果如下:

上一篇下一篇

猜你喜欢

热点阅读