python爬虫 初步抓取缩略图片

2018-10-27  本文已影响0人  Zero_0_0

爬虫数据一般分为三步

1.获取网页 2.提取信息 3.保存信息

开始爬虫

我们需要一个爬取的目标网站:http://www.netbian.com/
我们爬虫的一般步骤是:

1.分析网页 ,写出网页的xpath路径
2.利用requests库获取网页
3.使用lxml解析网页
4.通过xpath获取图片的链接
5.下载图片
6.命名并保存图片

我们想要爬取我网页上面的所有的图片,我们需要先找到图片xpath的共性,总结出规律。

代码:

#-*- coding: utf-8 -*
import requests
from lxml import etree

#网站地址
url = 'http://www.netbian.com/'

#获取网页
r = requests.get(url)
r.encoding = r.apparent_encoding
#解析网页
dom = etree.HTML(r.text)
#获取图片 img标签
#先获取图片所在的 img标签在分别获取图片链接和名字
img_path = '//a[@title]/img'
imgs = dom.xpath(img_path)

#获取图片的链接和名字 并下载 命名 保存
for img in imgs:
    #xpath 的相对路径 “.” 代表上一级标签
    #不要忘记 xpath返回的总是列表!
    src = img.xpath('./@src')[0]
    name = img.xpath('./@alt')[0]
     #下载图片
    image = requests.get(src)
    #命名并保存图片
    with open('G:\\python代码\\121212\\' + name +'.jpg' ,'wb') as f:
        f.write(image.content)

思考:我们想要将图片放在我们理想的路径下,
with open('路径' + name +'文件格式' ,'wb') as f:
f.write(image.content)

上一篇下一篇

猜你喜欢

热点阅读