Scrapy抓取网页数据
2018-11-29 本文已影响0人
hexg1016
1创建项目
打开dos命令窗口,这里选择D:\pythonSpider。输入命令:
scrapy startproject dangle
D:\pythonSpider目录下会创建dangle文件夹,进入该文件加结构如下:

进入dangle文件夹

2分析网页
用chrome浏览器打开网址http://ng.d.cn/xiaomiqiangzhan/
按F12分析网页的结构

通过分析网页,我们知道要抓取的版本号的路径为

3编写代码
Pycharm打开项目dangle
Spider目录下新建dangle.py
# coding:utf-8
import scrapy
from ..items import DangleItem
class DangleSpider(scrapy.Spider):
name = "dangle"
start_urls = ['http://ng.d.cn/xiaomiqiangzhan/']
def parse(self, response):
print(response)
zf = DangleItem()
title_list = response.xpath(".//div[@class='rigame fl']/text()").extract()
#print(title_list .replace('\r','').replace('\n','').replace('\t','').strip())
pass #自行添加
4执行结果
Dos命令行下,在dangle的目录,执行
scrapy crawl dangle

版本号抓取到了