Scrapy基础（一）：安装和使用

2017-11-03 本文已影响50人 9c0ddf06559c

安装

pip install -i http://pypi.douban.com/simple scrapy    
// -i http://pypi.douban.com/simple 为加速安装

新建scrapy项目

scrapy startproject ArticleSpider  //会在当前路径创建项目 ArticleSpider为项目名
cd ArticleSpider && genspider example example.com //创建爬虫模板 example为spider名称 example.com为网站域名

scrapy.cfg //项目配置
ArticleSpider/settings.py  //工程配置
ArticleSpider/pipelines.py //数据存储
ArticleSpider/middlewares.py 存放自定制的middlewares
ArticleSpider/items  //保存格式
spilers  //具体的爬虫

scrapy模板

import scrapy

class XXX(scrapy.Spider):
    name = 'xxx'  //名字
    allowed_domains = ['example.com']  //域名
    start_urls = ['http://example.com']  //起始url

    def parse(self, response):  //具体的爬虫逻辑
        pass

使用pycharm调试scrapy执行流程

--- main.py ---
from scrapy.cmdline import execute
import sys
import os

# os.path.abspath(__file__))  获取当前文件的绝对路径
# os.path.dirname()  获取当前文件的父目录
sys.path.append(os.path.dirname(os.path.abspath(__file__)))  
# execute 执行终端命令
execute(["scrapy","crawl","xxx"])

scrapy 终端调试

scrapy shell url
//然后回进入终端，使用response参数获取爬取的内容如：
response.xpath()

xpath 使用

简介

节点关系

语法1

语法2-谓语

语法3

css选择器

css选择器1

css选择器2

css选择器3

Scrapy基础（一）：安装和使用

安装

新建scrapy项目

目录

scrapy模板

使用pycharm调试scrapy执行流程

scrapy 终端调试

xpath 使用

css选择器

猜你喜欢

热点阅读

Scrapy基础（一）： 安装和使用

安装

新建scrapy项目

目录

scrapy模板

使用pycharm调试scrapy执行流程

scrapy 终端调试

xpath 使用

css选择器

猜你喜欢

热点阅读

Scrapy基础（一）：安装和使用