用Python 爬虫中 re 模块，爬取《糗事百科》的糗事并存储

2019-08-01 本文已影响24人我爱学python

我们要爬取的网站链接是https://www.qiushibaike.com/text/page/1/。

我们要爬取的是里面的糗事，在之前的文章中我们已经可以爬取整个 url 链接里的 html 内容，那么我们就可以根据爬取到的 html 代码，再通过 re 模块匹配我们想要的内容即可。

我们通过调用开发者工具检查 HTML 元素发现我们想要的内容在<div class="content"> ...... </div> 内，根据这个我们可以写出代码如下：

最终我们打印结果如下：

从上面的打印结果可以看出我们已经拿到了我们想要的数据，并且存储在了一个列表里，那么接下来我们只需要再处理一下列表，叫列表内杂七杂八的内容，如上图中的 \n <span>标签等去掉，就是我们想要的内容了。

上面的代码中 item_list 即为我们上面所获取到的 content_list 列表，通过对列表的内容分析，我们发现有 <span> ，<span class="contentForAll">查看全文，</span>，<br/>，\n 等多余内容，我们通过 replace 方法将其转为空，剩下的就是我们想要的内容了，接下来就是存储到本地即可了。

上面就可以实现一个获取糗事百科的糗事的简单爬虫，但是只能爬取单个页面的内容，通过分析 url 我们发现https://www.qiushibaike.com/text/page/1/中最后的 1 即为页码，我们就可以根据这个页码逐一爬取更多页面的内容，最终的代码如下：

最终会在本地添加一个 qiushi.txt 的文件，结果如下：

用Python 爬虫中 re 模块，爬取《糗事百科》的糗事并存储

猜你喜欢

热点阅读