Python写了个批量下载的小爬虫

2016-09-12 本文已影响47人 petry

!/usr/bin/python

导入正则表达式库

import re

导入url相关库

import urllib

导入时间处理库

import time

获取网页源码的函数

def getHtml(url):

page = urllib.urlopen(url)

html = page.read()

return html

从网页源码中获取图片地址并且下载到指定目录

def getImg(html):

匹配图片地址根据需要下载的网页的连接而定

reg = r'src="(.*?.jpg)" alt'

imgre = re.compile(reg)

imglist = re.findall(imgre,html)

now = int(time.time())

fn = '/Users/istorm/Desktop/dwonload/'

for imgurl in imglist:

开始下载

urllib.urlretrieve(imgurl,'%s%s.jpg' % (fn,now))

now+=1

print 'success'

html = getHtml("http://www.apic.in/hentai/30053.htm")

getImg(html)

Python写了个批量下载的小爬虫

!/usr/bin/python

导入正则表达式库

导入url相关库

导入时间处理库

获取网页源码的函数

从网页源码中获取图片地址并且下载到指定目录

匹配图片地址根据需要下载的网页的连接而定

开始下载

猜你喜欢

热点阅读

Python写了个批量下载的小爬虫

!/usr/bin/python

导入正则表达式库

导入url相关库

导入时间处理库

获取网页源码的函数

从网页源码中获取图片地址 并且下载到指定目录

匹配图片地址 根据需要下载的网页的连接而定

开始下载

猜你喜欢

热点阅读

从网页源码中获取图片地址并且下载到指定目录

匹配图片地址根据需要下载的网页的连接而定