python爬虫学习

Scrapy常见指令

2017-11-03  本文已影响18人  薛落花随泪绽放

在cmd里输入scrapy。

全局指令
Available commands:
  bench         Run quick benchmark test   //可以在项目里执行。属于项目指令
  fetch         Fetch a URL using the Scrapy downloader   //直接获取网址的一个指令。可以直接获取某个网页
  genspider     Generate new spider using pre-defined templates   //主要用于创建一个爬虫文件。
  runspider     Run a self-contained spider (without creating a project)   //主要运行一个爬虫
  settings      Get settings values   //跟爬虫配置相关
  shell         Interactive scraping console   //进入一个交互式命令
  startproject  Create new project   //创建一个爬虫项目
  version       Print Scrapy version   //显示版本信息
  view          Open URL in browser, as seen by Scrapy   //打开一个URL

创建一个简单项目

首先打开cmd,进入要存放项目的文件夹

d:
cd +目录名  //项目存放的目录
cd scrapy   //scrapy是你在d盘创建的目录。
#scrapy startproject +项目名
scrapy startproject cw 
cd cw
scrapy -h
项目指令
 bench         Run quick benchmark test
  check         Check spider contracts  
  crawl         Run a spider  //运行某一个爬虫文件
  edit          Edit spider  
  fetch         Fetch a URL using the Scrapy downloader
  genspider     Generate new spider using pre-defined templates
  list          List available spiders
  parse         Parse URL (using its spider) and print the results
  runspider     Run a self-contained spider (without creating a project)
  settings      Get settings values
  shell         Interactive scraping console
  startproject  Create new project
  version       Print Scrapy version
  view          Open URL in browser, as seen by Scrapy
scrapy fetch http://www.baidu.com  //获取一个网页

在scrapy目录下新建一个爬虫文件。 //注意扩展名是py.然后用编辑器打开。

from scrapy.spiders import Spider
class Firstspider(Spider):
    name="First"
    allowed_domains=["baidu.com"]
    start_urls=["http://www.baidu.com"]
    def parse(self,response):
        pass

在cmd里

cd ..
scrapy runspider xue.py
cd cw
scrapy settings --get BOT_NAME
scrapy shell http://www.baidu.com
exit()
scrapy version
scrapy view http://news.163.com //下载到本地然后在浏览器中打开
scrapy bench //测试性能

创建爬虫文件

scrapy genspider -l //查看可用的模板
D:\scrapy\cw>scrapy genspider -l
Available templates:
  basic
  crawl
  csvfeed
  xmlfeed
#scrapy genspider -t +模板名 +文件名 +域名 
scrapy genspider -t basic xuehuai jianshu.com
scrapy genspider -t basic xuehuai1 wxit.edu.cn

check //检查爬虫是否合规。

#scrapy check +文件名
scrapy check xuehuai

crawl //运行一个爬虫项目下的爬虫文件

#scrapy crawl +文件名
scrapy crawl xuehuai
scrapy crawl xuehuai --nolog   //不显示日志信息

list //查看当前爬虫项目下面有哪些可用的爬虫文件

scrapy list

parse //获取指定的url网址

scrapy parse 网址名
scrapy parse http://www.baidu.com
scrapy parse xuehuai http://news.163.com
scrapy parse -h
scrapy parse --spider=xuehuai http://news.163.com

上一篇 下一篇

猜你喜欢

热点阅读