Python爬虫实战

2019-01-02  本文已影响0人  kaiiiu

爬取小说网站上的小说并下载到本地

from urllib import request
import re

request:用来请求网页
re:导入正则表达式

url="http://www.6mao.com/html/1/1052/736343.html"
webpage=request.urlopen(url)
data=webpage.read().decode("gbk")

webpage:存放请求网页的变量
decode方法:将二进制的网页字符解码,格式为“gbk”

data=data.replace(' ',"")
data=data.replace('<br />',"")

使用replace方法将data中的&nbsp和</br>去除

txt=re.findall(r'<div id="neirong">(.*?)</div>',data,re.S)

使用正则表达式<div id="neirong">(.*?)</div>获取<div id="neirong"></div>中的全部内容,并保存在变量txt中。

of=open("book.txt","w")
for t in txt:
    of.write(t)
of.close()

使用open方法创建一个book的txt文件,用for循环将txt的内容写入,最后用close方法关闭文件释放资源。

from urllib import request
import re

url="http://www.6mao.com/html/1/1052/736343.html"

webpage=request.urlopen(url)
data=webpage.read().decode("gbk")

data=data.replace('&nbsp;',"")
data=data.replace('<br />',"")

txt=re.findall(r'<div id="neirong">(.*?)</div>',data,re.S)
of=open("book.txt","w")

for t in txt:
    of.write(t)
of.close()
上一篇下一篇

猜你喜欢

热点阅读