用Python写一个简单的爬虫

2019-01-01  本文已影响0人  呆呆的初行者

本文主要内容是写一个简单的爬虫,可以抓取网页图片并且自动下载。以https://www.educoder.net网站为例。

1.首先根据URL获取网页源代码:

URL处理模块(库)

 import urllib.request as req

创建一个表示远程url的类文件对象

 req.urlopen(' ')

(```)

from urllib import request

import re

def getreq(url):

    urlrqe=request.urlopen(url)

    return(urlrqe)

rqe1=getreq("https://www.educoder.net")

data=rqe1.read().decode('utf-8')

(```)

2.根据获取的网页源代码分析,提取图片相关的链接。

def getjpg(data):

    jpglist=re.findall(r'/images.+?.png',data)

return(jpglist)

link=getjpg(data)

print(link)

3.编写下载代码

def download(jpgurl,n):

    try:

        request.urlretrieve(jpgurl,D:\images'%s.png' %n)

    except Exception as e:

        print(e)

    finally:

        print('图片%s下载操作完成' % n)

n=1

s1=[]

ul='https://www.educoder.net'

for jpgurl in link:

    s=re.findall(r'/images.+?.png',jpgurl)

    s[0]=ul+jpgurl

    download(s[0],n)

    n=n+1

由于网页源代码的图片链接不是完整链接需要加上'https://www.educoder.net

运行代码可自动下载'https://www.educoder.net首页以.png后缀的图片。

上一篇下一篇

猜你喜欢

热点阅读