一个简单小爬虫实现对全本小说的下载

2019-07-27 本文已影响9人玄同爱紫嫿

这几天看见有许多分享用python爬虫获取小说的文章，弄得我自己也手痒了，于是就写了个小爬虫，基本能实现分析下载小说以.TXT格式下载到本地的功能。只是关于文本格式以及网页防吊死的问题暂时没有处理，本文主要是给想爬小说的小伙伴们一个思路，当然，源代码也在文章最后，随时都可以跑起来。

一.python环境及编辑器（用到的库和模块）

运行平台： win7

Python版本： Python3.x

IDE： pycharm

模块：Beautiful Soup，urllib

由于本文主要是实战展示，所以就没有对于库和模块的安装，讲解。具体使用方法可以看官方文档，安装过程有需要可以留下评论。我这里就只附上我看过后感觉写的不错的文档链接，大家可以自行查询：

Beautiful Soup：‘https://cuiqingcai.com/1319.html’

urllib：‘https://www.jianshu.com/p/63dad93d7000’

二.确定目标

因为某阁是个盗版小说网站，而且我发现这个网站没有反爬虫的机制，所以对新手爬友比较友好，所以我就以这个网站作为实战示范。

笔趣阁主页url：‘https://www.biquge.cm/’

不知道大家平时喜欢看谁的小说，我从中学就喜欢看西红柿大大的小说，所以这次就以爬取大大的‘飞剑问道’这本小说作为目标。

通过地址栏我们可以获得这个目录页面的url：https://www.biquge.cm/10/10963/，下面我们就可以开始分析该网站的HTML结构，想办法取出我们想要获得内容。

三.过程分析

解析工具有很多，爬取方式也有很多，我这里就简单说下我自己的思路。

1.通过目录页面获得小说所有章节的链接地址。

2.通过第一步获得的链接地址，爬取每一章节的正文内容。

3.把爬取到的正文保存在TXT文档，并下载到本地。

我的大致思路就是这个样子，你们也可以选择其他方式获取每一章节的url地址，比如使用selenium，或者用开发者工具找到下一页的标签再提取。不管黑猫白猫，能抓到耗子就是好猫，所以编程是一件有趣的事情，通过不同的方法可以达到同样的目的。好了，闲话不多说，大致思路有了之后，我们就开始代码实现。

四.代码实现

第一步，先引用我们需要用到的模块和库，美味汤和urllib。

第二步，我们定义一个函数模块，用来获得页面原始数据。

第三步，我们定义一个专门分析页面的函数，用来反复调取。这个解析器就是我们的美味汤（Beautiful Soup），完成这一步后，前期的基础工作就算搞定了，这样我们就能分析每个页面的数据了。

第四步，我们正式开始分析小说，还记得我们最开始的思路吗，第一步，先获取每一章小说的链接。打开开发者工具（F12或者右键检查），用选择工具随便点几个章节目录，发现他们都在 <div id="list">这个父级标签下.

我们使用Ctrl+F查找这个标签，发现在目录页，这个标签是唯一的，所以我们获得如下信息。1.所以章节链接都在<div id="list">标签下 2.标签属性id=‘list’是唯一的，通过这个属性，我们就能得到所有章节链接。

那我们只需要红圈内的地址，如何提取呢？这里可以使用正则表达式，或者seleck方法，但我这里直接选择了find的方法，简单粗暴好理解。经过观察分析我们得知，这里的地址是每个章节url的后半部分，所以我们需要对其进行拼接才能得到真实的url，所以代码如下

第5步，定义获取每一章小说正文的函数，用同样的方法分析获得每一章小说的正文，我们发现正文在<div id="content">标签下，且属性也是唯一的。

这里可以对文本格式进行处理，但是我为了快速实现功能就没有搞这些。大家后续可以在我这个基础上优化代码，我这里就不做过多解释了，所以代码如下。

第6步，定义一个函数下载并保存我们的小说，这里比较简单，直接上代码

第7步，运行部分代码

第8步，点击运行就OK了，附一张运行的图

按照以上操作步骤，代码基本就实现了，注意我这里没有定义保存路径，所以默认保存在当前文件夹，需要注意。最好把源码分享给大家。拿去跑一跑吧。

import urllib,bs4

from bs4 import BeautifulSoup

#引入模块和库

#获取页面初始数据

def getHtmlcode(url):

#请求头，虽然这个网站不需要，但是这算是反反爬虫的一种最基本手段

user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"

headers = {"User-Agent": user_agent}

response=urllib.request.Request(url,headers=headers)#发起请求

result=urllib.request.urlopen(response)#打开页面

html=result.read()#读取页面

return html #返回页面信息

#分析页面

def paarser(url):

html=getHtmlcode(url)#调用getHtmlcode函数

soup=BeautifulSoup(html,'html.parser')#用美味汤分析，得到bs文件

return soup

#获取每章节目录链接

def Charpter_url(url):

soup=paarser(url)#调用parser分析页面

datas=soup.find('div',id="list").find_all('a')#获得需要的数据

url_list=[]#新建列表用来储存url地址

for data in datas:

page_url='https://www.biquge.cm'+data['href']#拼接成真实地址

page_name=data.text#每一章的小说名字

url_list.append(page_url)

return url_list

#获取文章单章正文

def get_Charpter_text(url):

soup=paarser(url)#调用parser分析页面

content=soup.find('div',id="content").text#获得需要的正文

content1=content.strip().replace("<br />", "")#顺手处理下格式问题

return content

#保存文件

def save_text(url):

url_list=Charpter_url(url)

num=1

with open('飞剑问道.text','a',encoding='utf-8') as f:

for page_url in url_list:

contents=get_Charpter_text(page_url)

f.write(contents)

print('第{}章下载完成'.format(num))

num+=1

f.close()

if __name__=='__main__':

url='https://www.biquge.cm/10/10963/'

save_text(url)

一个简单小爬虫实现对全本小说的下载

一.python环境及编辑器（用到的库和模块）

二.确定目标

三.过程分析

四.代码实现

猜你喜欢

热点阅读