Scrapy抓取网页数据

2018-11-29 本文已影响0人 hexg1016

1创建项目

打开dos命令窗口，这里选择D:\pythonSpider。输入命令：

scrapy startproject dangle

D:\pythonSpider目录下会创建dangle文件夹，进入该文件加结构如下：

进入dangle文件夹

2分析网页

用chrome浏览器打开网址http://ng.d.cn/xiaomiqiangzhan/

按F12分析网页的结构

通过分析网页，我们知道要抓取的版本号的路径为

3编写代码

Pycharm打开项目dangle

Spider目录下新建dangle.py

# coding:utf-8

import scrapy

from ..items import DangleItem

class DangleSpider(scrapy.Spider):

name = "dangle"

start_urls = ['http://ng.d.cn/xiaomiqiangzhan/']

def parse(self, response):

print(response)

zf = DangleItem()

title_list = response.xpath(".//div[@class='rigame fl']/text()").extract()

#print(title_list .replace('\r','').replace('\n','').replace('\t','').strip())

pass #自行添加

4执行结果

Dos命令行下，在dangle的目录，执行

scrapy crawl dangle

版本号抓取到了