Python爬虫学习100练002

2018-03-25  本文已影响0人  夜雨_87aa

爬取80s网站2018年电视剧作品主图片

-- coding:utf-8 --

2018年3月25日

下载图片request.urlretrieve(jpg_link, path)

from urllib import request
import re

Python 2.7.9 之后引入了一个新特性当你urllib.urlopen一个 https 的时候会验证一次 SSL 证书

导入证书库

import ssl

禁掉这个证书的要求

context = ssl._create_unverified_context()
picture=[["网址","标题"]]

获取图片地址

def gettupian():
response=request.urlopen(url,context=context)
html=response.read().decode("utf-8")
re_tupian=re.compile(r'<li> <a href=.? title="(.?)">.?<img id.?src="(.*?)" src',re.S)
list=re_tupian.findall(html)
for title,url_tp in list:
url_tp="http:"+url_tp
picture.append([url_tp,title])

下载图片到本地

def xz():
for i in range(1,len(picture)):
request.urlretrieve(picture[i][0],str(i)+".jpg")
for j in range(1,5):
url="https://www.80s.tw/ju/list/---2018-0-g-p%s"%j
gettupian()
print("正在下载第%s页"%j)
xz()
print("下载完毕")

上一篇 下一篇

猜你喜欢

热点阅读