python_scarpy(-)

2018-03-20  本文已影响19人  两点半的杂货铺

一、作者最近

最近重新规划了下学习打算中午学爬虫框架,晚上学python 基础计划,人越来越懒没有动力

二、初始Scrapy

win+r 运行cmd,输入scrapy -h就可以看到scrapy关键指令

Available commands:
  bench         Run quick benchmark test
  fetch         Fetch a URL using the Scrapy downloader
  genspider     Generate new spider using pre-defined(定义) templates
  runspider     Run a self-contained spider (without creating a project)
  settings      Get settings values
  shell         Interactive scraping console
  startproject  Create new project
  version       Print Scrapy version
  view          Open URL in browser, as seen by Scrapy

首先调用scrapy 指令,调用的格式:
scrapy <command> [options] [args] 其中scrapy是scrapy 命令

startproject  创建一个新工程 scrapy starproject <name>[dir]
genspider     创建一个爬虫   scrapy genspider[options]<name> <domain>
settings      获取爬虫配置信息 scrapy setting[options]
crawl         运行一个爬虫     scrapy crawl <sprider>
list          列出工程中所有爬虫给  scrapy list
shell         启动url 调试命令行   scrapy  shell  [url]

首先创建一个爬虫项目:
在控制台输入 scrapy startproject turorial

创建爬虫.png

就会生成一个tutorial文件,文件目录格式如下:


创建目录.png
tutorial/
    scrapy.cfg            # 部署配置文件

    tutorial/             # Python模块,代码写在这个目录下
        __init__.py

        items.py          # 项目项定义文件

        pipelines.py      # 项目管道文件

        settings.py       # 项目设置文件

        spiders/          # 我们的爬虫/蜘蛛 目录
            __init__.py


项目创建完后创建爬虫:

上一篇下一篇

猜你喜欢

热点阅读