Scrapy抓取网页数据

2018-11-29  本文已影响0人  hexg1016

1创建项目

打开dos命令窗口,这里选择D:\pythonSpider。输入命令:

scrapy startproject dangle

D:\pythonSpider目录下会创建dangle文件夹,进入该文件加结构如下:

进入dangle文件夹

2分析网页

用chrome浏览器打开网址http://ng.d.cn/xiaomiqiangzhan/

按F12分析网页的结构

通过分析网页,我们知道要抓取的版本号的路径为

3编写代码

Pycharm打开项目dangle

Spider目录下新建dangle.py

# coding:utf-8

import scrapy

from ..items import DangleItem

class DangleSpider(scrapy.Spider):

    name = "dangle"

    start_urls = ['http://ng.d.cn/xiaomiqiangzhan/']

    def parse(self, response):

        print(response)

        zf = DangleItem()

        title_list = response.xpath(".//div[@class='rigame fl']/text()").extract()

        #print(title_list .replace('\r','').replace('\n','').replace('\t','').strip())

        pass #自行添加

4执行结果

Dos命令行下,在dangle的目录,执行

scrapy crawl dangle

版本号抓取到了

上一篇 下一篇

猜你喜欢

热点阅读