python3--简单爬虫--小说网站
2020-02-14 本文已影响0人
w_dll
1 环境
- centos7
- python3
2 安装所需依赖
pip install requests
pip install beautifulsoup4
3 爬虫脚本
适用于笔趣阁(20200214)
使用方法:
python3 get_novel.py 参数(笔趣阁小说主页网址) > all.txt &
爬取结束后,小说会保存到当前目录的 all.txt 文件中,
以下是脚本源码:
[root@xxwdll novel]# cat get_novel.py
import requests
import bs4
import re
import sys
b_url=sys.argv[1]
r=requests.get(str(b_url))
content = bs4.BeautifulSoup(r.content.decode("utf-8"),features="html.parser")
lis=content.find_all(id="list")
lis=str(lis).split()
pages=[]
for li in lis:
if 'html' in li:
page=re.findall(r'[0-9]*.html',li)
pages.append(str(page))
pages=sorted(set(pages))
for p in pages :
p=str(p).split('\'')
this_url=str(b_url)+str(p[1])
print(str(this_url))
r=requests.get(str(this_url))
content = bs4.BeautifulSoup(r.content.decode("utf-8"),features="html.parser")
article=content.find_all(id='content')
print(content.title.string)
text=str(article).replace('<br/>','\n').replace('</p>','').replace('<p>','')
text=re.sub('<.*>','',text)
print(str(text))